昨天,很多人彻夜未眠 —— 全球科技圈都把目光聚焦在了美国旧金山。
短短 45 分钟时间里,OpenAI CEO 山姆・奥特曼向我们介绍了迄今为止最强的大模型,和基于它的一系列应用,一切似乎就像当初 ChatGPT 一样令人震撼。
OpenAI 在本周一的首个开发者日上推出了 GPT-4 Turbo,新的大模型更聪明,文本处理上限更高,价格也更便宜,应用商店也开了起来。现在,用户还可以根据需求构建自己的 GPT。
根据官方说法,这一波 GPT 的升级包括:
发布会一开完,人们蜂拥而入开始尝试。GPT4 Turbo 的体验果然不同凡响。首先是快,快到和以前所有大模型拉开了代差:
然后是功能增多,画画的时候,你一有灵感就可以直接说话让 AI 负责实现:
设计个 UI,几个小时的工作变成几分钟:
我直接不装了,截个图复制粘贴别人的网站,生成自己的,只用 40 秒:
利用 ChatGPT 与 Bing 的浏览功能以及与 DALL-E 3 图像生成器的集成,沃顿商学院教授 Ethan Mollick 分享了一段视频,展示了他的名为「趋势分析器」的 GPT 工具,其可查找市场特定细分市场的趋势,然后创建新产品的原型图像。
Octane AI 首席执行官 Matt Schlicht 的 Simponize Me GPT 会自动应用提示来转换用户上传的个人资料照片,生成《辛普森一家》的风格,做这个小应用只用了不到十分钟。
GPT-4 Turbo 具有创纪录的准确率,在 PyLLM 基准上,GPT-4 Turbo 的准确率是 87%,而 GPT-4 的准确率是 52%,这是在速度几乎快了四倍多的情况下(每秒 48 token)实现的。
至此,生成式 AI 的竞争似乎进入了新的阶段。很多人认为,当竞争对手们依然在追求更快、能力更强的大模型时,OpenAI 其实早就已经把所有方向都试过了一遍,这一波更新会让一大批创业公司作古。
也有人表示,既然 Agent 是大模型重要的方向,OpenAI 也开出了 Agent 应用商店,接下来在智能体领域,我们会有很多机会。
竞争者们真的无路可走了吗?价格降低,速度变快以后,大模型的性能还能同时变得更好?这必须要看实践,在 OpenAI 的博客中,其实说法是这样的:在某些格式的输出下,GPT-4 Turbo 会比 GPT-4 结果更好。那么总体情况会如何?
在新模型发布的 24 小时内,就有研究者在 Aider 上进行了 AI 生成代码的能力测试。
在 gpt-4-1106-preview 模型上,仅使用 diff 编辑方法对 GPT-4 模型进行基准测试得出的结论是:
接下来是使用 whole 和 diff 编辑格式对 GPT-3.5 模型进行的基准测试。结果表明,似乎没有一个 gpt-3.5 模型能够有效地使用 diff 编辑格式,包括最新的 11 月出现的新模型( 简称 1106)。下面是一些 whole 编辑格式结果:
这项测试是如何进行的呢,具体而言,研究者让 Aider 尝试完成 133 个 Exercism Python 编码练习。对于每个练习,Exercism 都提供了一个起始 Python 文件,文件包含所要解决问题的自然语言描述以及用于评估编码器是否正确解决问题的测试套件。
基准测试分为两步:
然后就有了上述结果。至于 Aider ,对于那些不了解的小伙伴,接下来我们简单介绍一下。
Aider 是一个命令行工具,可以让用户将程序与 GPT-3.5/GPT-4 配对,以编辑本地 git 存储库中存储的代码。用户既可以启动新项目,也可以使用现有存储库。Aider 能够确保 GPT 中编辑的内容通过合理的提交消息提交到 git。Aider 的独特之处在于它可以很好地与现有的更大的代码库配合使用。
简单总结就是,借助该工具,用户可以使用 OpenAI 的 GPT 编写和编辑代码,轻松地进行 git commit、diff 和撤消 GPT 提出的更改,而无需复制 / 粘贴,它还具有帮助 GPT-4 理解和修改更大代码库的功能。
为了达到上述功能,Aider 需要能够准确地识别 GPT 何时想要编辑用户源代码,还需要确定 GPT 想要修改哪些文件并对 GPT 做出的修改进行准确的应用。然而,做好这项「代码编辑」任务并不简单,需要功能较强的 LLM、准确的提示以及与 LLM 交互的良好工具。
操作过程中,当有修改发生时,Aider 会依靠代码编辑基准(code editing benchmark)来定量评估修改后的性能。例如,当用户更改 Aider 的提示或驱动 LLM 对话的后端时,可以通过运行基准测试以确定这些更改产生多少改进。
此外还有人使用 GPT-4 Turbo 简单和其他模型对比了一下美国高考 SAT 的成绩:
同样,看起来聪明的程度并没有拉开代差,甚至还有点退步。不过必须要指出的是,实验的样本数量很小。
综上所述,GPT-4 Turbo 的这一波更新更重要的是完善了功能,增加了速度,准确性是否提高仍然存疑。这或许与整个大模型业界目前的潮流一致:重视优化,面向应用。业务落地速度慢的公司要小心了。
另一方面,从这次开发者日的发布内容来看,OpenAI 也从一个极度追求前沿技术的创业公司,变得开始关注起用户体验和生态构建,更像大型科技公司了。
5月24日消息,今日上午,多位网友反馈在使用BOSS直聘PC端时,出现了通讯录、聊天记录无法显示功能异常。随后,BOSS直聘官方账号对此发布回应称:今日上午部分用户使用BOSS直聘PC端时...
2 京东618预售战报:人均购买预售商品数量同比增长超30%5月26日消息,预售显示,2023年5月23日晚8点预售开启,截至5月25日24点,人均购买预售商品数量同比增长超30%,县域及农村市场预售订单金额同比增长超40%。参与预售的消费者中,90后是...
3 “优等生”拼多多不想再走老路一季度成绩不俗组织架构调整后,拼多多交出了一份“超出市场预期”的成绩单。5月26日,拼多多集团发布2023年一季度财报。财报数据显示,2023年一季度,拼多多录得总收入...
4 儿童手表,包裹在安全外壳下的社交生意临近六一,很多父母会想着为孩子购买一块儿童手表当礼物,用来定位、监护、防意外。不过现在很多儿童手表品牌,出于逐利动机,却在儿童手表里加塞各种小动作。有的是利用手表打造...
5 Kindle生错了时代?也许是我们辜负了阅读早在去年,亚马逊就已宣布将于2023年6月30日起在中国停止Kindle电子书店的运营。5月31日,亚马逊发布公告,解答Kindle中国电子书店运营停止的相关问题。该公司表示,Kindle中国电...
6 百度网盘已在苹果应用商店恢复上架6月2日,百度网盘在苹果App Store应用商店恢复上架。昨日下午,百度网盘官方微博发布公告称,百度网盘最新版本正在升级优化,导致暂时无法在苹果App Store中下载,很快会恢复正常,已...
7 抖音电商7大自营业务集体亮相,找到增长新密码?抖音明显加快了搭建自营电商业务矩阵的步伐。独家获悉,抖音电商已经开始布局自营美妆电商业务,该业务此前叫做“美力心选”,赶在抖音618好物节期间,正式更名为抖音电...
8 百度或将推出全新AI对话软件“万话”独家获悉,百度计划推出一款全新的AI对话软件,采用一对一的对话式聊天场景,名字叫做“万话”,据企查查显示,百度旗下关联公司“北京百度网讯科技有限公司”...
9 微软与 OpenAI,远没有看起来「亲密无间」微软与 OpenAI,远没有看起来「亲密无间」除了合作,微软与 OpenAI 之间也有「小竞争」。看似亲密无间的微软与 OpenAI,隐忧已经浮现。近日,根据《The Information》,微软的一份内...
10 眼红AI热潮引发反噬 “美版贴吧”执意对数据收费 用户:都别玩了当地时间周一,美国互联网行业迎来了载入史册的里程碑时刻,拥有5200万日活用户的美国Reddit论坛(因其产品形式也被称为“美版贴吧”)因为试图对API(应用程序接口)收费引...
备案号:粤ICP备2023097408号 Copyright © 2020-2021 海南金游汇电子竞技有限公司 版权所有