时间:2024-08-14作者:佚名
大家还记得 Stable Diffusion嘛,就是那个曾经和 DALL·E 、 Midjourney 齐名的图像生成 AI 。
经历了老板跑路,核心开发成员离职,昔日搅动图像 AI 市场的 Stability AI ,内部已经乱成一锅粥了。
近几个月来,关于它资金链断裂、寻求卖身的消息,是没怎么断过。
而在前东家身陷狼狈处境,正想法子自救时,年初离开的那批成员,就正正好对标Stable Diffusion成立了一家新公司Black Forest Lab( 黑森林实验室 )。
就在这个月月初,他们宣布成立新公司的时候,也一口气放出了三个不同体量的文生图模型 FLUX.1 。
有主打图片质量的大杯 pro ;兼顾速度和图片质量的中杯 dev ;还有人称 “ 速度旋风 ” 的小杯 schnell 。
按照他们官网的说法,大中杯的 FLUX ,已经成了所有图片 AI 里最厉害的存在。
拆分出来的各项能力,像是视觉质量、尺寸可变性、输出多样性等等,也都要比其他模型强不少。
不光官方这么说,在不少网友和媒体的嘴里,刚发布的这个 FLUX ,也已经到了拳打 Midjourney ,脚踢 DALL·E的程度。
看网上的评论,倒是把世超的兴趣给勾起来了。FLUX 是不是真像大伙们说得那么厉害,这次我们拉来了Midjourney,把它和大杯的 FLUX放一块一起测了测。
开局我们先来一个常规的测试题热热身,分别让它们俩画一幅中国的水墨画。
结果表现都还不错,像渔夫、群山、芦苇等提示词里的内容,全都有画出来。不过 Midjourney 这边画得太阳,着实有点太大了,也没啥夕阳的感觉。
提示词:
中国水墨画风格,一个孤独的渔夫在传统的木船上,在夕阳下在宁静的湖面上轻轻漂流,中国水墨画风格,温暖的蓝色调映照着平静的水面,柔和的笔触捕捉着傍晚的宁静,远处的群山在渐渐的灯光下剪影,岸边的传统小屋,芦苇在微风中摇曳, 8K 分辨率,电影般的感觉,怀旧而宁静的氛围
FLUX ( 左 ), Midjourney ( 右 )
关注图片 AI 这块的朋友应该都知道,“ 文字生成太差 ”几乎是所有 AI 都再过跟头的地方。之前 DALL·E 也曾专门针对这个弱项优化过一次,但偶尔也还是会出错。
而这次,据说 FLUX 在这块的能力已经是炉火纯青了,于是我专门选了几个要生成文字的提示词丢给它和 Midjorney 。
先让它们各自生成一个带有 Prada 商标的包包,最后给出的答案都还算不错,文字都没出现错误。
看图片整体的效果也是各有千秋, FLUX 不仅把文字写对了,甚至连 Prada 那个倒三角 LOGO 都给画了出来,而 Midjourney 的看起来则更时尚点儿。
提示词:一个大的白色 “ Prada ” 手提包,小人物用冰块搭建而成,被冰雪包围,风格像时尚广告,灵感来源于 prouce 杂志广告、高分辨率摄影、广告灵感的印刷设计风格
FLUX ( 左 ), Midjourney ( 右 )
接下来再上点难度,让它们给短袖设计一个复古的图片,而且还要加上两个英文单词。
这次它俩也都没出啥大错,但要论整体效果的话,世超个人觉得,还是 Midjourney 的更好一些。
提示词:复古风格的 T 恤设计以一辆带有方格旗的老式飙车为特色,并附有文字 “Lagertha” 和 “Semper Fi” ,以单色背景为背景。举着旗帜的拉格萨身上有纹身。这幅艺术作品的风格捕捉到了她的动作姿势,展示了车速和维京力量的力量。这是一个高对比度的插图,突出了他们的运动装和大胆的文字排版。
FLUX ( 左 ), Midjourney ( 右 )
看一个图像模型能力,经典问题“ 画手 ”肯定也绕不过。
Midjourney 这边呢,依旧是有点不太稳定,生成的手时好时坏,像右边这张图,比个耶就莫名多出一个小指。
两张均由 Midjourney 生成
而 FLUX 的效果,说实话还是挺让人意外的,无论是剪贴画风格,还是写实风格,手部几乎都看不出啥破绽来。
两张均由 FLUX 生成
到这为止, FLUX 在一些图片细节和小问题上,处理得还不错。
当然了,在一定程度上,图像 AI 也是个帮大伙实现想象力的工具,于是世超又丢了一些脑洞大的提示词。
提示词:一个穿着红色连衣裙的年轻女孩,坐在一条长着巨大牙齿和眼睛的巨龙旁边。她正面对它,好像他们是朋友或好警察。这个场景发生在山里的雪石里。以詹姆斯 · 卡梅隆的风格拍摄的《 狼的秘密生活 》, 70 年代的电影。
FLUX ( 左 ), Midjourney ( 右 )
emmm 。。。谁好谁坏就不用世超帮大伙下结论了吧, FLUX 基本上就是一眼 AI的程度,反观 Midjourney ,到真有点真人特效的味儿。
之后,世超又给 FLUX 为了个简单点的提示词: “ 现代文明的毁灭 ” ,看看它自个儿的想象力咋样。
结果这次,它和 Midjourney 都栽跟头了。
单看图片效果, Midjourney 会更胜一筹,确实是把史诗感拿捏了,但这建筑前看后看,跟现代文明也半毛钱关系啊。。。
FLUX ( 左 ), Midjourney ( 右 )
有趣的是, FLUX 在生成夸张漫画版本的名人肖像时,还挺在行。像是马斯克和乔布斯,它在生成时,五官特色抓得都挺精准。
两张均由 FLUX 生成
整体体验下来,世超觉得 FLUX 的真实水平,还谈不上一骑绝尘,但也差不到哪里去。
毕竟还是 Stable Diffusion 的原班人马搞出来的,差不多就和 Midjourney 一个梯队。
而且新公司黑森林在月初推出 FLUX 的时候,还官宣了自家的融资进度,到现在已经完成了3100 万美元的融资。
更重要的是,虽然黑森林的各位都离开 Stability AI 了,但还是继承了它开源的传统美德,中杯、小杯的 FLUX 都开源。
这还没完,推出图片 AI ,似乎也只是他们赶进度的一环。官网上,他们也挑明了下一步的计划,要做视频 AI 里的 SOTA。
但话说回来,图片 AI 的商业化都是快被讨论烂的一个话题了。
黑森林的前东家 Stability AI 就是因为商业化的问题,烂摊子一堆。而它自个儿,现在搞得开源,还有付费模型那套,和之前的 Stability AI 基本没啥差别。
后续在商业化上,会不会有啥其他新动作,咱只能再观望观望,毕竟也才刚出来。
可别照搬 Stability AI 的老路,又重走一遍。。。