Sora成功是站在谷歌肩膀上吗？业内：关键是人才、算力和数据的堆砌

2024-02-21 来源：泛电竞编辑：佚名标签： Sora

文章导读: 近日，AI（人工智能）新锐巨头OpenAI推出文生视频模型Sora，掀起了全球范围内的热烈讨论。由于在AI生成视频的时长上成功突破到一分钟，再加上演示视频的高度逼真和高质量，Sora立刻引

近日，AI（人工智能）新锐巨头OpenAI推出文生视频模型Sora，掀起了全球范围内的热烈讨论。

由于在AI生成视频的时长上成功突破到一分钟，再加上演示视频的高度逼真和高质量，Sora立刻引起了轰动，并引发外界的种种猜测：能在发布ChatGPT不到两年后就推出Sora，OpenAI是否“藏了一手”？表现惊艳的Sora是否已经具有世界模型的特点？

不过，OpenAI尚未宣布Sora对公众正式开放的日期，目前也只向安全团队、一些视觉艺术家、设计师和电影制作人开放了Sora的使用权限。除了内部人士不断放出的演示片段外，OpenAI还在Sora的官网上放出了其技术报告。

首先，与GPT模型类似，Sora使用Transformer架构，这被许多研究者视为其强大能力背后的主要功臣。

本质上，Sora和Pika、Runway等文生视频模型采用了相似的底层模型，即Diffusion扩散模型。不同之处在于，Sora把其中的实现逻辑进行了变化，将U-Net架构替换成了Transformer架构。

北京邮电大学智能交互设计专业副教授谭剑为澎湃新闻记者介绍，与其他AI模型架构相比，Transformer架构有两大理论优势：“它的核心能力是能自动构建不同维度、不同层级的知识网络或信息网络，也就是一张无缝的思维导图……权重关联机制（attention机制）也是它核心能力的另一种体现，就是它会根据任何数据的上下文，来理解相关的高低维度信息。”

谭剑强调，要充分发挥Transformer架构的核心能力，一个必要条件就是输入数据足够多、维度足够大。

一位AI大模型从业人士告诉澎湃新闻记者，Sora的主要技术思路是“用视觉块编码（Visual Patch）的方式，把不同格式的视频进行统一编码，然后用Transformer架构进行训练，并引入类似Diffusion的Unet方式在降维和升维的过程中做加噪和去噪”。

通过细节上的设计，Sora解决了“闪烁”（帧间细节跳变）的问题，还能直接生成高分辨率（1080p）的图像、长达60秒的视频，说明“训练的序列也比较长，训练时候的窗口至少也有五秒”。

不过，目前看来，OpenAI的Sora报告中依然藏有许多谜团。

浙江大学百人计划研究员、博士生导师赵俊博对澎湃新闻记者表示，Sora所采用的扩散Transformer架构“可能是成功的关键之一”，但OpenAI目前放出的内容基本上也没有涉及更多的技术细节：“从第一性原理出发，其实我们目前对于Transformer神经网络架构的理解是非常不够的，尤其是为什么这个模型在scale up（扩大规模）之后能有如此大的魔力。”

此外，赵俊博也强调，数据是一个巨大的问题。对于Sora采用了怎样的数据进行训练，圈内依然众说纷纭，推测可能是运用了游戏引擎生成的大规模数据：“可能是游戏引擎里面吐出来这种数据，但是它这个数据到底是怎么收集、如何生产加工，最后如何喂到Sora里面进行管线化的预训练，我们确实不知道。”

那么，Sora的出现会给AI业界和学界带来怎样的影响？

赵俊博表示，因为Sora在技术上仍有许多有待验证的地方，应该“让子弹再飞一会儿”：“Sora确实会对AI视频领域内的研究者和竞品产生很大冲击，但那毕竟只是一小部分人。目前从生成模型的应用层面看，可控性依然是个很大的问题......所以说如果要讨论产业冲击，还是要搞清楚玩家是谁，什么场景，解决什么痛点和需求，这些产业化的落地思维在这里也是一样的。”

谭剑提到，OpenAI已经用ChatGPT和Sora充分验证了纳什嵌入定律。所谓纳什嵌入定律，简单来说，就是指高维信息世界一定能无缝兼容低维世界，用口语来表达就是“降维打击”：“虽然这种高维AI模型的数据和硬件等门槛很高，但已经有了第一个跨越的公司，那么后面还会有更多团体可能成功，我对这一点保持乐观。”

值得注意的是，就在OpenAI于2月15日发布Sora的几小时前，谷歌也发布了旗下大模型Gemini的1.5版本，其中首个登场的多模态通用模型Gemini 1.5 Pro，把稳定处理上下文的上限扩大至100万tokens。然而，Gemini 1.5一出场就被Sora抢尽了风头。

再加上，OpenAI在Sora报告中提到的多篇核心论文都是由谷歌科研团队提出的，也由此引发了对于这两家企业“恩怨情仇”的调侃，以及OpenAI是“站在谷歌肩膀上”的说法。

对此，赵俊博认为，理论的相互分享虽然很重要，但是现代科技的发展环境下，单打独斗、“一人成英雄”的时代已经结束了：“关键是人才团队、算力和数据的堆砌，以及时间上的积累，光靠一个idea就能实现一个这么惊艳的系统已经不现实了，把它当成一个‘大装置’来看的话，里面‘工艺’的探索和形成是最为关键的。”

最后，对于Sora的出现是否和AGI（通用人工智能）有关联，赵俊博几天前也在朋友圈撰文表示：“我反对很多自媒体把这个技术类比在AGI上面，我们距离AGI还差得远……我觉得一个世界模型需要有能力去输出动作，输出对未来的预测，输出对当前所处状态的判断。Sora大概率是学到了一些世界运转的模式，但是否具备其他上述能力我们不知道。但是它的embedding（嵌入）如果有一天能开出来，或许我们能知道更多。”

上一篇: Sora刷屏视频出现多处失误模拟真实世界仍需闯关

返回首页 返回栏目

头条资讯

TikTok 电商的重重阻力: 携程已经赚回疫情的大半损失微博会员留言特权被指“助长网络暴拼多多跨境电商Temu版图再扩大：上线

卷了自己20年的京东: 微软与 OpenAI，远没有看起来「亲密百度或将推出全新AI对话软件“万话马斯克的第三条腿，被李书福打断了微软改进必应聊天（Bing Chat）：引入视从网约车到“跑腿”，货拉拉甩不掉“ 微信为什么要做「小绿书」？谷歌裁员1.2万人当天，幸存员工崩溃

微软改进必应聊天（Bing Chat）：引入视频/图片结果: 从网约车到“跑腿”，货拉拉甩不掉“ 微信为什么要做「小绿书」？谷歌裁员1.2万人当天，幸存员工崩溃

留言跟帖

近期热点

热门文章

日榜周榜: 1 携程已经赚回疫情的大半损失
作为头部在线旅游平台，携程显著受益于疫后行业恢复。今年二季度，平台国内酒店预订量较 2019 年同期增长超六成，出境酒店和机票预订量恢复至 60% 以上，大幅跑赢同期国际航班客运...
2 去年以来减少 6.6万人美国电信运营商疯狂裁员
“降本增效”压力巨大不少T-Mobile的员工，这些天陷入不安的情绪之中。“8月25日早上收到了CEO的邮件，说从即日起到9月底，除了零售和消费者维护部门的员工之外，...
3 微软高估了Bing，低估了Open AI
利益面前无兄弟微软与Open AI的关系，愈发微妙了。日前，Bing首席执行官米哈伊尔・帕拉欣在互联网上公开表示，Bing的AI能力比OpenAI的GPT-4更好，而前者的AI技术源自后者。拉踩之...
4 抖音“嫌弃”数字人
坑多、钱少，麻烦多。午夜1点的直播间，一位女主播还在引导用户购买团购券。“她”是王力餐饮店的主播，最长记录持续卖货13个小时，偶尔有路过的观众提问，“她&rdq...
5 TikTok在美推电商服务：入口在首页，超20万商家入驻
短视频巨头TikTok在美国推出电商服务。美国时间9月12日，TikTok官网宣布，在美正式上线电商服务TikTok Shop（下称TikTok电商）。据悉，此前TikTok电商已在美国TikTok用户中进行数月...
6 4700万人在线刷崩BOSS直聘？回应：服务器崩是真，网传数据是假
9月15日，有传言称，求职平台“BOSS直聘”突然崩溃，许多用户无法刷新页面，无法查看新的招聘信息，甚至无法进行聊天交流。在社交媒体上，一位自称是BOSS直聘员工表示，金九银...
7 因违反儿童隐私保护法，TikTok 被罚款 3.45 亿欧元
月16日消息，据路透社报道，欧洲监管机构宣布，TikTok 因违反欧盟有关儿童个人数据处理的隐私法而被罚款3.45亿欧元（备注：当前约26.77亿元人民币）。调查人员指出，TikTok 在注册时默认...
8 微信上线秒简相机APP，推出摄影录像工具产品加码内容生态
独家获悉，微信于近日在App Store上线了一款名为“秒简相机”的APP，集拍摄、影像美化、拼图分享一体。据其官方的介绍，秒简相机，能够让拍摄变得轻松愉悦，按下快门就能...
9 Windows的AI时代从下周开始 Office也将在11月跟进
当地时间周四，美国科技公司微软在纽约举办秋季发布会，除了常规的Surface硬件升级外，今天的重头戏依然是AI。微软CEO纳德拉在开场时表示，当年他加入微软时，公司的目标是让每个家...
10 GPT-4被曝重大缺陷，35年前预言成真！所有LLM正确率都≈0，惹Karpathy马库斯惊呼
最近，一项研究发现，大模型身上存在一种「逆转诅咒」，即使学会「A是B」，它们也无法推理出「B是A」！大语言模型，竟然存在一种「逆转诅咒」？所谓逆转，也就是说，一个训练于「A是B」的语...; 1 阿里50亿参数AI画画模型火了！图像拆分再自由重组，创造力飞升
AI画画通用模型，新增一员大将！由阿里达摩院副院长周靖人等人打造的可控扩散模型Composer，一经发布就小火了一把。这个模型由50亿参数训练而来，和Stable Diffusion原理不同。...
2 微信为什么要做「小绿书」？
微信公众号也有成长的烦恼。微信正在补足短内容的空缺，一个神似「小红书」的图文发布、展示功能上线。这也是近几年来，微信公众号在内容发布形式上的最大的变动之一。图注：左...
3 字节等不及“吃”外卖了
“字节迟早要啃下美团这块‘肉’。”当“抖音外卖即将3月上线”的消息席卷互联网时，一位NKA（全国跨区域连锁品牌）华北市场负责人认为，抖音外卖上...
4 字节扩大在美游说投入，从被动变主动
在中国科技公司中，字节跳动已经是游说华盛顿的政客花钱最多的了。根据非盈利机构 OpenSecrets 的统计，2022 年字节跳动在美国游说的开支达到 538 万美元、比上一年微增，约是...
5 苹果iPhone车祸检测功能误报不断，一个月内发出超百次错误呼叫
1 月 30 日消息，据 9to5Mac 报道，苹果iPhone 14 新增了“车祸检测”功能。这意味着如果手机检测到用户发生了严重的车祸，就会呼叫紧急服务。然而，自从这款手机发布...
6 谷歌裁员1.2万人当天，幸存员工崩溃哭泣
谷歌宣布裁员1.2万人的当天，一些幸存的员工在会议上哭了起来。据《商业内幕》1月27日报道，还留在谷歌的员工认为谷歌已不再是一家让他们感觉与众不同的公司，这家搜索巨头现在...
7 比尔·盖茨：我倾向于将中国崛起视为世界的巨大胜利
据美国《福布斯》杂志网站26日消息，美国微软公司创始人、亿万富翁比尔·盖茨近日在澳大利亚举办的一场论坛上表示，近几十年来，中国崛起为领先的经济体是“世界的巨...
8 号称“智能副驾” 微软的Microsoft 365 Copilot有多强大？
微软CEO纳德拉宣布将通过国际版Microsoft 365 Copilot（Microsoft 365 Copilot）为其工作场所生产力工具带来全新一代人工智能的强大功能。据悉，微软Copilot将大型语言模型（LLM）的...
9 俞敏洪回应“东方甄选养殖虾当野生虾卖”：我们承认错误，因经验不足，不是故意为之
3月18日晚，新东方董事长俞敏洪在2023亚布力年会上发表演讲时称：去年东方甄选刚刚开始火爆时，有一家企业和我们联系，说他们的虾都是野生的。但当时新东方的选品能力不是那么强，结...
10 被微软逼“疯”！谷歌计划招募手机用户测试AI聊天：赶超GPT
3月21日，谷歌在近期向Pixel Superfans发送电子邮件，邀请他们参与人工智能聊天机器人“Bard”的提前测试计划，加速Bard的研发进度。据悉，Bard曾在今年2月份公开展示，但...

热门视频

Sora成功是站在谷歌肩膀上吗？业内：关键是人才、算力和数据的堆砌

2024-02-21 来源：泛电竞 编辑：佚名 标签： Sora

2024-02-21 来源：泛电竞编辑：佚名标签： Sora