当前位置:首页 > 直播软件 > 直播工具 > DeepMind联合MIT开发Fluid,让自回归模型实现文生图的大规模扩展

DeepMind联合MIT开发Fluid,让自回归模型实现文生图的大规模扩展

2024-10-20 来源:泛电竞 编辑:佚名 标签: DeepMind MIT

文章导读
在视觉领域,扩散模型(diffusion model)已然成为图像生成的新范式。我们熟知的 Stable Diffusion、DALL-E 和 Imagen 等文生图工具都以扩散模型为基础。而在语言模型领域,自回归

 在视觉领域,扩散模型(diffusion model)已然成为图像生成的新范式。我们熟知的 Stable Diffusion、DALL-E 和 Imagen 等文生图工具都以扩散模型为基础。

而在语言模型领域,自回归模型(autoregressive model)则占据主导位置,大名鼎鼎的 ChatGPT 就使用了此类模型来生成回复。所谓的扩展法则(Scaling Law)在以自回归模型为基础的大模型身上展现出了强大的力量,可以有效的提升性能。

不过,如果回到视觉领域(比如文本生成图像),扩展自回归模型并未像在大语言模型中那样显著有效。许多研究人员正在努力搞清楚原因,并且想办法弥合自回归模型在视觉模型与语言模型之间的性能差距。

近日,来自谷歌 DeepMind 和美国麻省理工学院的研究人员发表了一篇预印本论文,介绍了他们在“提升自回归文生图模型性能”方面的最新进展。


图 | 论文标题《FLUID:使用连续 Token 扩展自回归文本到图像生成

该研究团队开发的新模型 Fluid,通过采用连续 Token 和随机顺序策略,成功实现了自回归模型在文生图任务上的大规模扩展,不仅在多项基准测试中达到了领先水平,还提出了关于自回归模型的新见解。

自回归模型在自然语言处理领域取得了巨大成功,但在计算机视觉特别是文生图任务中的表现一直不如扩散模型。

为了探究背后的原因,研究团队对自回归图像生成模型的两个关键设计因素进行了系统性的研究:Token(离散或连续)和生成顺序(光栅顺序或随机顺序)。

研究发现,采用连续 Token 的模型在视觉质量和评估指标上都显著优于使用离散 Token 的模型。这主要是因为离散 Token 化过程会导致大量信息丢失,即使增加模型参数也无法弥补这一缺陷。

例如,在生成著名的蒙娜丽莎画像时,基于离散 Token 的模型即使扩展到 30 亿参数,也无法准确还原画像细节。相比之下,基于连续 Token 的模型可以生成更高质量、更符合文本描述的图像。


 

在生成顺序方面,研究表明随机顺序模型在生成多个对象和复杂场景时表现更佳。这可能是因为随机顺序允许模型在每个预测步骤中调整图像的全局结构,而光栅顺序模型则缺乏这种灵活性。这一发现对提高文本到图像的对齐度具有重要意义。

基于这些新发现,研究团队开发了 Fluid 模型。Fluid 采用连续 Token 和随机顺序生成策略,在可扩展性和生成质量上都表现出色。

实验结果显示,Fluid 模型的验证损失、FID(Fréchet Inception Distance,是用于衡量两个多元正态分布之间距离的评价指标)评分和 GenEval 得分都随着模型参数规模的增加而持续改善。

值得注意的是,仅有 3.69 亿参数的小型 Fluid 模型就达到了 7.23 的零样本 FID 得分,还在 GenEval 基准测试中达到了 0.62,与拥有 200 亿参数的 Parti 模型(谷歌开发的自回归文生图模型)持平。

受到这一趋势的启发,研究团队将 Fluid 模型进一步扩展到 105 亿参数。该模型在 MS-COCO 数据集上实现了 6.16 的零样本 FID 得分,在 GenEval 基准测试中的综合得分达到 0.69,超越了 DALL-E 3 和 Stable Diffusion 3 等多个使用扩散模型的文生图系统。

Fluid 模型的成功不仅体现在量化指标上,在视觉质量方面也有显著提升。

研究人员展示了 Fluid 模型在各种复杂场景下的生成结果,使用了如“一只愤怒的鸭子在健身房举重”“冬天的蒙娜丽莎”“办公室里三只穿西装的泰迪熊为朋友庆祝生日”等提示。

这些生成的图像不仅细节丰富,而且准确反映了文本描述的内容和情感,展现出模型对文本和图像之间复杂关系的深入理解。

研究团队的实验还揭示了一个现象,即验证损失与评估指标(如 FID 和 GenEval 得分)之间存在强相关性。这意味着通过简单地监测验证损失,就可以在一定程度上预测模型在下游任务中的表现。

此外,研究还发现与语言模型类似的是,增加训练步数和计算量可以持续提升 Fluid 模型的性能。但是,该团队也观察到对于较小的模型,增加训练步数的效果不如直接扩大模型规模。这一发现强调了模型规模在提升性能中的关键作用。

Fluid 模型不仅标志着自回归模型在文生图任务上的新进展,也为计算机视觉领域的模型扩展提供了新的思路。课题组指出,这项工作可能有助于缩小视觉模型和语言模型在扩展性能上的差距。

然而,研究人员也承认,尽管 Fluid 模型在多个指标上取得了领先,但在某些方面仍有提升空间。


 

例如,在 GenEval 基准测试的某些子任务中,如位置关系理解和渲染两个物体,Fluid 模型的表现仍落后于一些最先进的扩散模型。这表明在处理某些特定类型的视觉任务时,不同的模型架构可能各有优势。

总的来说,这项研究为自回归文生图模型的发展开辟了新方向。通过采用连续 Token 和随机顺序生成策略,Fluid 模型成功实现了大规模扩展,在多个关键指标上达到或超越了现有最先进的模型。

随着这一技术的进一步发展和完善,我们或许可以期待看到更多令人惊叹的应用,如更精确的图像编辑工具、更智能的视觉内容创作辅助工具等等。也可以激发更多人探索自回归模型在视觉任务中的潜力,推动 AI 在理解和生成视觉内容方面取得新的突破。

留言跟帖
热门文章
日榜 周榜
1 不搞预售、直接开卖,电商平台们在这届618学「乖」了?

今年5月,淘天、京东、抖音、快手等主流电商平台纷纷宣布全面取消预售制度,直接开卖现货。至此,这个沿用了十余年的电商大促法宝正式退出历史舞台。回顾预售制在我国电商平台的...

2 直播言论挑风波!俞敏洪一语激起千层浪,东方甄选股价大震荡

“官方吐槽最为致命”,东方甄选现任CEO俞敏洪一句话让东方甄选的问题暴露于台前。6月5日,东方甄选股价开盘连续第三个交易日下跌,而在6月3日,东方甄选股价大跌9.92%...

3 俞敏洪的“话外音”,罗永浩懂

年过花甲的俞敏洪,不久前在一场直播中表达了退休的想法。俞敏洪“准备远离生意场”、“把更多时间用来游山玩水”的言论,也传到了其“前下属&rdquo...

4 俞敏洪宣布加入与辉同行山西直播 东方甄选股价难挽下跌趋势

6月11日晚,与辉同行发布的主播“山西行排班表”显示,在6月13日和14日的直播中,董宇辉将与俞敏洪一同直播。近日,俞敏洪与董宇辉的相关负面言论持续引发讨论,东方甄选...

5 矛盾的俞敏洪:一只总在兜底的骆驼

母亲确诊阿尔兹海默症以后,俞敏洪就开始给自己的生命倒计时:"这个病是有遗传性的,这意味着我也就20多年的时间了。"尽管阿尔兹海默症并不意味着生命的结束,但在他的标准里,不清...

6 “超级主播”之外,直播电商找到新战场

直播带货不再有捷径可走。今年618,各大电商平台用尽浑身解数,但得到的可能是最冷的夏天。虽然各大平台继续保持着不公布销售总额的默契,但星图数据告诉大家,今年618,全网销售总...

7 俞敏洪:请不要攻击主播

近期,东方甄选频频因主播言论而引发关注。7月5日下午,新东方创始人、东方甄选CEO俞敏洪在个人社交媒体账号上发布视频,请求大家不要去攻击东方甄选和与辉同行的任何主播。&ldq...

8 雷军“返场演讲”再爆料:供应商苦劝、网友质疑,成功真的太难!

7月19日,在以“勇气”为主题的年度演讲中,雷军畅谈三个小时,讲述了造车三年的经历与心路历程。但三个小时时间显然未能让雷军尽兴,7月23日雷军召开了返场直播活动。...

9 割袍不断义,送走董宇辉,俞敏洪最体面的一次“分手”

截至目前,与辉同行直播间在抖音拥有2150万粉丝,东方甄选拥有2987万粉丝,以与辉同行目前的增长速度,粉丝量超越东方甄选或许只是时间的问题。...

10 俞敏洪全面回应“与辉不同行”:以分手换安宁,这不是我们两个人的世界

再一次,面对舆论的聚光灯,俞敏洪回应所有质疑。7月26日,在东方甄选控股有限公司(东方甄选,01797.HK)的股东电话会议上,新东方创始人、东方甄选CEO俞敏洪用一个多小时时间,回应了外...

关于泛电竞 | 联系方式 | 发展历程 | 泛电竞帮助 | 广告联系 | 网站地图

备案号:琼ICP备20001864号-1 Copyright © 2020-2021 海南金游汇电子竞技有限公司 版权所有

try {var urlhash = window.location.hash;if (!urlhash.match("fromapp")) {if ((navigator.userAgent.match(/(iPhone|iPod|Android|ios|iPad)/i))) {window.location="https://www.fandj.cn/m//zbrj/1955.html";}}} catch(err) { }