当前位置:首页 > 直播软件 > 软件教程 > Sora成功是站在谷歌肩膀上吗?业内:关键是人才、算力和数据的堆砌

Sora成功是站在谷歌肩膀上吗?业内:关键是人才、算力和数据的堆砌

2024-02-21 来源:泛电竞 编辑:佚名 标签: Sora

文章导读
近日,AI(人工智能)新锐巨头OpenAI推出文生视频模型Sora,掀起了全球范围内的热烈讨论。由于在AI生成视频的时长上成功突破到一分钟,再加上演示视频的高度逼真和高质量,Sora立刻引

 

近日,AI(人工智能)新锐巨头OpenAI推出文生视频模型Sora,掀起了全球范围内的热烈讨论。

由于在AI生成视频的时长上成功突破到一分钟,再加上演示视频的高度逼真和高质量,Sora立刻引起了轰动,并引发外界的种种猜测:能在发布ChatGPT不到两年后就推出Sora,OpenAI是否“藏了一手”?表现惊艳的Sora是否已经具有世界模型的特点?

不过,OpenAI尚未宣布Sora对公众正式开放的日期,目前也只向安全团队、一些视觉艺术家、设计师和电影制作人开放了Sora的使用权限。除了内部人士不断放出的演示片段外,OpenAI还在Sora的官网上放出了其技术报告。

首先,与GPT模型类似,Sora使用Transformer架构,这被许多研究者视为其强大能力背后的主要功臣。

本质上,Sora和Pika、Runway等文生视频模型采用了相似的底层模型,即Diffusion扩散模型。不同之处在于,Sora把其中的实现逻辑进行了变化,将U-Net架构替换成了Transformer架构。

北京邮电大学智能交互设计专业副教授谭剑为澎湃新闻记者介绍,与其他AI模型架构相比,Transformer架构有两大理论优势:“它的核心能力是能自动构建不同维度、不同层级的知识网络或信息网络,也就是一张无缝的思维导图……权重关联机制(attention机制)也是它核心能力的另一种体现,就是它会根据任何数据的上下文,来理解相关的高低维度信息。”

谭剑强调,要充分发挥Transformer架构的核心能力,一个必要条件就是输入数据足够多、维度足够大。

一位AI大模型从业人士告诉澎湃新闻记者,Sora的主要技术思路是“用视觉块编码(Visual Patch)的方式,把不同格式的视频进行统一编码,然后用Transformer架构进行训练,并引入类似Diffusion的Unet方式在降维和升维的过程中做加噪和去噪”。

通过细节上的设计,Sora解决了“闪烁”(帧间细节跳变)的问题,还能直接生成高分辨率(1080p)的图像、长达60秒的视频,说明“训练的序列也比较长,训练时候的窗口至少也有五秒”。

不过,目前看来,OpenAI的Sora报告中依然藏有许多谜团。

浙江大学百人计划研究员、博士生导师赵俊博对澎湃新闻记者表示,Sora所采用的扩散Transformer架构“可能是成功的关键之一”,但OpenAI目前放出的内容基本上也没有涉及更多的技术细节:“从第一性原理出发,其实我们目前对于Transformer神经网络架构的理解是非常不够的,尤其是为什么这个模型在scale up(扩大规模)之后能有如此大的魔力。”

此外,赵俊博也强调,数据是一个巨大的问题。对于Sora采用了怎样的数据进行训练,圈内依然众说纷纭,推测可能是运用了游戏引擎生成的大规模数据:“可能是游戏引擎里面吐出来这种数据,但是它这个数据到底是怎么收集、如何生产加工,最后如何喂到Sora里面进行管线化的预训练,我们确实不知道。”

那么,Sora的出现会给AI业界和学界带来怎样的影响?

赵俊博表示,因为Sora在技术上仍有许多有待验证的地方,应该“让子弹再飞一会儿”:“Sora确实会对AI视频领域内的研究者和竞品产生很大冲击,但那毕竟只是一小部分人。目前从生成模型的应用层面看,可控性依然是个很大的问题......所以说如果要讨论产业冲击,还是要搞清楚玩家是谁,什么场景,解决什么痛点和需求,这些产业化的落地思维在这里也是一样的。”

谭剑提到,OpenAI已经用ChatGPT和Sora充分验证了纳什嵌入定律。所谓纳什嵌入定律,简单来说,就是指高维信息世界一定能无缝兼容低维世界,用口语来表达就是“降维打击”:“虽然这种高维AI模型的数据和硬件等门槛很高,但已经有了第一个跨越的公司,那么后面还会有更多团体可能成功,我对这一点保持乐观。”

值得注意的是,就在OpenAI于2月15日发布Sora的几小时前,谷歌也发布了旗下大模型Gemini的1.5版本,其中首个登场的多模态通用模型Gemini 1.5 Pro,把稳定处理上下文的上限扩大至100万tokens。然而,Gemini 1.5一出场就被Sora抢尽了风头。

再加上,OpenAI在Sora报告中提到的多篇核心论文都是由谷歌科研团队提出的,也由此引发了对于这两家企业“恩怨情仇”的调侃,以及OpenAI是“站在谷歌肩膀上”的说法。

对此,赵俊博认为,理论的相互分享虽然很重要,但是现代科技的发展环境下,单打独斗、“一人成英雄”的时代已经结束了:“关键是人才团队、算力和数据的堆砌,以及时间上的积累,光靠一个idea就能实现一个这么惊艳的系统已经不现实了,把它当成一个‘大装置’来看的话,里面‘工艺’的探索和形成是最为关键的。”

最后,对于Sora的出现是否和AGI(通用人工智能)有关联,赵俊博几天前也在朋友圈撰文表示:“我反对很多自媒体把这个技术类比在AGI上面,我们距离AGI还差得远……我觉得一个世界模型需要有能力去输出动作,输出对未来的预测,输出对当前所处状态的判断。Sora大概率是学到了一些世界运转的模式,但是否具备其他上述能力我们不知道。但是它的embedding(嵌入)如果有一天能开出来,或许我们能知道更多。”

留言跟帖
热门文章
日榜 周榜
1 携程已经赚回疫情的大半损失

作为头部在线旅游平台,携程显著受益于疫后行业恢复。今年二季度,平台国内酒店预订量较 2019 年同期增长超六成,出境酒店和机票预订量恢复至 60% 以上,大幅跑赢同期国际航班客运...

2 去年以来减少 6.6万人 美国电信运营商疯狂裁员

“降本增效”压力巨大不少T-Mobile的员工,这些天陷入不安的情绪之中。“8月25日早上收到了CEO的邮件,说从即日起到9月底,除了零售和消费者维护部门的员工之外,...

3 微软高估了Bing,低估了Open AI

利益面前无兄弟微软与Open AI的关系,愈发微妙了。日前,Bing首席执行官米哈伊尔・帕拉欣在互联网上公开表示,Bing的AI能力比OpenAI的GPT-4更好,而前者的AI技术源自后者。拉踩之...

4 抖音“嫌弃”数字人

坑多、钱少,麻烦多。午夜1点的直播间,一位女主播还在引导用户购买团购券。“她”是王力餐饮店的主播,最长记录持续卖货13个小时,偶尔有路过的观众提问,“她&rdq...

5 TikTok在美推电商服务:入口在首页,超20万商家入驻

短视频巨头TikTok在美国推出电商服务。美国时间9月12日,TikTok官网宣布,在美正式上线电商服务TikTok Shop(下称TikTok电商)。据悉,此前TikTok电商已在美国TikTok用户中进行数月...

6 4700万人在线刷崩BOSS直聘?回应:服务器崩是真,网传数据是假

9月15日,有传言称,求职平台“BOSS直聘”突然崩溃,许多用户无法刷新页面,无法查看新的招聘信息,甚至无法进行聊天交流。在社交媒体上,一位自称是BOSS直聘员工表示,金九银...

7 因违反儿童隐私保护法,TikTok 被罚款 3.45 亿欧元

月16日消息,据路透社报道,欧洲监管机构宣布,TikTok 因违反欧盟有关儿童个人数据处理的隐私法而被罚款3.45亿欧元(备注:当前约26.77亿元人民币)。调查人员指出,TikTok 在注册时默认...

8 微信上线秒简相机APP,推出摄影录像工具产品加码内容生态

独家获悉,微信于近日在App Store上线了一款名为“秒简相机”的APP,集拍摄、影像美化、拼图分享一体。据其官方的介绍,秒简相机,能够让拍摄变得轻松愉悦,按下快门就能...

9 Windows的AI时代从下周开始 Office也将在11月跟进

当地时间周四,美国科技公司微软在纽约举办秋季发布会,除了常规的Surface硬件升级外,今天的重头戏依然是AI。微软CEO纳德拉在开场时表示,当年他加入微软时,公司的目标是让每个家...

10 GPT-4被曝重大缺陷,35年前预言成真!所有LLM正确率都≈0,惹Karpathy马库斯惊呼

最近,一项研究发现,大模型身上存在一种「逆转诅咒」,即使学会「A是B」,它们也无法推理出「B是A」!大语言模型,竟然存在一种「逆转诅咒」?所谓逆转,也就是说,一个训练于「A是B」的语...

关于泛电竞 | 联系方式 | 发展历程 | 泛电竞帮助 | 广告联系 | 网站地图

备案号:粤ICP备2023097408号 Copyright © 2020-2021 海南金游汇电子竞技有限公司 版权所有

try {var urlhash = window.location.hash;if (!urlhash.match("fromapp")) {if ((navigator.userAgent.match(/(iPhone|iPod|Android|ios|iPad)/i))) {window.location="https://www.fandj.cn/m//zbrj/2363.html";}}} catch(err) { }