大家还记得 Stable Diffusion嘛,就是那个曾经和 DALL·E 、 Midjourney 齐名的图像生成 AI 。
经历了老板跑路,核心开发成员离职,昔日搅动图像 AI 市场的 Stability AI ,内部已经乱成一锅粥了。
近几个月来,关于它资金链断裂、寻求卖身的消息,是没怎么断过。
![]()
而在前东家身陷狼狈处境,正想法子自救时,年初离开的那批成员,就正正好对标Stable Diffusion成立了一家新公司Black Forest Lab( 黑森林实验室 )。
就在这个月月初,他们宣布成立新公司的时候,也一口气放出了三个不同体量的文生图模型 FLUX.1 。
有主打图片质量的大杯 pro ;兼顾速度和图片质量的中杯 dev ;还有人称 “ 速度旋风 ” 的小杯 schnell 。
按照他们官网的说法,大中杯的 FLUX ,已经成了所有图片 AI 里最厉害的存在。
![]()
拆分出来的各项能力,像是视觉质量、尺寸可变性、输出多样性等等,也都要比其他模型强不少。
![]()
不光官方这么说,在不少网友和媒体的嘴里,刚发布的这个 FLUX ,也已经到了拳打 Midjourney ,脚踢 DALL·E的程度。
![]()
看网上的评论,倒是把世超的兴趣给勾起来了。FLUX 是不是真像大伙们说得那么厉害,这次我们拉来了Midjourney,把它和大杯的 FLUX放一块一起测了测。
开局我们先来一个常规的测试题热热身,分别让它们俩画一幅中国的水墨画。
结果表现都还不错,像渔夫、群山、芦苇等提示词里的内容,全都有画出来。不过 Midjourney 这边画得太阳,着实有点太大了,也没啥夕阳的感觉。
提示词:
中国水墨画风格,一个孤独的渔夫在传统的木船上,在夕阳下在宁静的湖面上轻轻漂流,中国水墨画风格,温暖的蓝色调映照着平静的水面,柔和的笔触捕捉着傍晚的宁静,远处的群山在渐渐的灯光下剪影,岸边的传统小屋,芦苇在微风中摇曳, 8K 分辨率,电影般的感觉,怀旧而宁静的氛围
FLUX ( 左 ), Midjourney ( 右 )
![]()
关注图片 AI 这块的朋友应该都知道,“ 文字生成太差 ”几乎是所有 AI 都再过跟头的地方。之前 DALL·E 也曾专门针对这个弱项优化过一次,但偶尔也还是会出错。
而这次,据说 FLUX 在这块的能力已经是炉火纯青了,于是我专门选了几个要生成文字的提示词丢给它和 Midjorney 。
先让它们各自生成一个带有 Prada 商标的包包,最后给出的答案都还算不错,文字都没出现错误。
看图片整体的效果也是各有千秋, FLUX 不仅把文字写对了,甚至连 Prada 那个倒三角 LOGO 都给画了出来,而 Midjourney 的看起来则更时尚点儿。
提示词:一个大的白色 “ Prada ” 手提包,小人物用冰块搭建而成,被冰雪包围,风格像时尚广告,灵感来源于 prouce 杂志广告、高分辨率摄影、广告灵感的印刷设计风格
FLUX ( 左 ), Midjourney ( 右 )
![]()
接下来再上点难度,让它们给短袖设计一个复古的图片,而且还要加上两个英文单词。
这次它俩也都没出啥大错,但要论整体效果的话,世超个人觉得,还是 Midjourney 的更好一些。
提示词:复古风格的 T 恤设计以一辆带有方格旗的老式飙车为特色,并附有文字 “Lagertha” 和 “Semper Fi” ,以单色背景为背景。举着旗帜的拉格萨身上有纹身。这幅艺术作品的风格捕捉到了她的动作姿势,展示了车速和维京力量的力量。这是一个高对比度的插图,突出了他们的运动装和大胆的文字排版。
FLUX ( 左 ), Midjourney ( 右 )
![]()
看一个图像模型能力,经典问题“ 画手 ”肯定也绕不过。
Midjourney 这边呢,依旧是有点不太稳定,生成的手时好时坏,像右边这张图,比个耶就莫名多出一个小指。
两张均由 Midjourney 生成
![]()
而 FLUX 的效果,说实话还是挺让人意外的,无论是剪贴画风格,还是写实风格,手部几乎都看不出啥破绽来。
两张均由 FLUX 生成
![]()
到这为止, FLUX 在一些图片细节和小问题上,处理得还不错。
当然了,在一定程度上,图像 AI 也是个帮大伙实现想象力的工具,于是世超又丢了一些脑洞大的提示词。
提示词:一个穿着红色连衣裙的年轻女孩,坐在一条长着巨大牙齿和眼睛的巨龙旁边。她正面对它,好像他们是朋友或好警察。这个场景发生在山里的雪石里。以詹姆斯 · 卡梅隆的风格拍摄的《 狼的秘密生活 》, 70 年代的电影。
FLUX ( 左 ), Midjourney ( 右 )
![]()
emmm 。。。谁好谁坏就不用世超帮大伙下结论了吧, FLUX 基本上就是一眼 AI的程度,反观 Midjourney ,到真有点真人特效的味儿。
之后,世超又给 FLUX 为了个简单点的提示词: “ 现代文明的毁灭 ” ,看看它自个儿的想象力咋样。
结果这次,它和 Midjourney 都栽跟头了。
单看图片效果, Midjourney 会更胜一筹,确实是把史诗感拿捏了,但这建筑前看后看,跟现代文明也半毛钱关系啊。。。
FLUX ( 左 ), Midjourney ( 右 )
![]()
有趣的是, FLUX 在生成夸张漫画版本的名人肖像时,还挺在行。像是马斯克和乔布斯,它在生成时,五官特色抓得都挺精准。
两张均由 FLUX 生成
![]()
整体体验下来,世超觉得 FLUX 的真实水平,还谈不上一骑绝尘,但也差不到哪里去。
毕竟还是 Stable Diffusion 的原班人马搞出来的,差不多就和 Midjourney 一个梯队。
而且新公司黑森林在月初推出 FLUX 的时候,还官宣了自家的融资进度,到现在已经完成了3100 万美元的融资。
更重要的是,虽然黑森林的各位都离开 Stability AI 了,但还是继承了它开源的传统美德,中杯、小杯的 FLUX 都开源。
这还没完,推出图片 AI ,似乎也只是他们赶进度的一环。官网上,他们也挑明了下一步的计划,要做视频 AI 里的 SOTA。
![]()
但话说回来,图片 AI 的商业化都是快被讨论烂的一个话题了。
黑森林的前东家 Stability AI 就是因为商业化的问题,烂摊子一堆。而它自个儿,现在搞得开源,还有付费模型那套,和之前的 Stability AI 基本没啥差别。
后续在商业化上,会不会有啥其他新动作,咱只能再观望观望,毕竟也才刚出来。
可别照搬 Stability AI 的老路,又重走一遍。。。
上个月,火狐浏览器凭一个骚操作,把一堆用户都惹急了。但奇怪的是,这怎么看都是一个大新闻的事故,世超却没看到多少媒体报道。。。事情是这样。火狐浏览器有个夜间模式,打开会反...
2 GPT-4升级被曝引入Q*,推理/数学更强废话更少,竞技场重夺王位新版GPT-4是在Q*的输出上微调的? 在竞技场重回榜一的新版GPT-4 Turbo,成功再次踩中大家嗨点。 它此次的性能提升体现在数学、推理、代码上,而且输出内容废话更少。 最让大家感...
3 到了东南亚,拼多多才发现自己居然还不够野...把拼多多和东南亚摆在一起,很多人第一直觉一定是:最擅长做增长和下沉市场的拼多多肯定随便拿下啊。然而事实并非如此。TEMU 在日本和韩国上线亚洲试点成功后,几乎立马开始了东...
4 商汤升级“日日新5.0”大模型,对标GPT-4Turbo·“日日新5.0”采用混合专家架构,超10TB tokens训练,覆盖大量合成数据,推理时上下文窗口达200K左右。云、端、边全栈大模型产品矩阵中,用于终端设备的“...
5 卖得最火的 AI 硬件 Rabbit R1 首批体验出炉:还没干翻 app,被质疑造假两周前, Ai Pin 的第一批用户在体验产品过后,出奇地达成了一致评价:噱头大于实际,取代手机还为时过早。当时,Rabbit 创始人吕骋(Jesse Lyu)也没错过这个落井下石的大好机会,通过一...
6 ChatGPT新增临时聊天功能:对话不留痕迹5月2日消息,近日,OpenAI发布更新,为ChatGPT新增了“临时聊天”功能。为满足用户对隐私的进一步需求,OpenAI 引入了 " 临时聊天 " 功能。通过这一功能,用户可以与 Chat...
7 谷歌面临史上最大威胁!曝OpenAI将发布搜索引擎5月6日消息,据多家媒体近日报道,OpenAI正在计划一款基于其ChatGPT聊天机器人的大型产品——全新的搜索引擎。前Mila研究员、麻省理工讲师Lior S爆料称:"OpenAI即将...
8 首个中文原生DiT架构!腾讯混元文生图大模型宣布全面开源5月14日消息,今日,腾讯旗下混元文生图大模型(混元DiT,Diffusion Models with Transformers)宣布全面开源。目前已在Hugging Face、Github上发布,包含模型权重、推理代码、模型算...
9 都说谷歌被OpenAI狙击了,我怎么觉得它在狙苹果今天凌晨,谷歌的 I/O 2024 大会也如约而至了。。。发布会是在美国山景城开的,咱编辑部也派人去了现场,听身处前线的同事讲,不知道是不是 OpenAI 抢了风头的缘故,今年现场的氛围...
10 音乐发现和识别应用Shazam更新支持实时活动苹果今天在其免费的音乐发现和识别应用Shazam中,增加了对实时活动的支持。 Shazam的实时活动使用户在后台搜索音乐时保持最新状态,这在处理多任务或识别其他应用中的歌曲时特...
备案号:粤ICP备2023097408号 Copyright © 2020-2021 海南金游汇电子竞技有限公司 版权所有