马斯克发布Grok-3：性能更强了，但真有新突破？

2025-02-19 来源：泛电竞编辑：佚名标签：马斯克 Grok-3 OpenAI

文章导读: 2月19日消息，美国时间周一，埃隆·马斯克（Elon Musk）旗下的人工智能初创公司xAI发布了其最新大模型Grok-3。该公司不仅演示了新模型的强大性能，还展示了由20万块GPU组成的

2月19日消息，美国时间周一，埃隆·马斯克（Elon Musk）旗下的人工智能初创公司xAI发布了其最新大模型Grok-3。该公司不仅演示了新模型的强大性能，还展示了由20万块GPU组成的计算集群，预示着更大的野心。

在发布会上，马斯克及其团队重点强调了Grok-3强大的计算能力、基准测试表现以及即将推出的功能，尽管多数演示内容与竞争对手已实现的功能高度相似。

xAI发布会初段的焦点并非人工智能本身，而是名为“巨像”（Colossus）的超级计算集群，该集群由20万块GPU组成，为Grok-3的训练提供算力支撑。该系统分两个阶段完成：首先在10万颗GPU上进行了122天的同步训练，随后又用了92天逐步扩展到20万颗GPU上。xAI团队坦言，构建这一基础设施比开发人工智能模型本身更具挑战性。

xAI已经计划打造一个更强大的GPU集群，马斯克表示他们的目标是当前容量的五倍，这将使其成为世界上最强大的GPU集群。

在性能方面，Grok-3在标准AI基准测试中表现出色。基础模型（未嵌入思维链与推理模块的标准版）稳居数学（AIME）、科学（GPOA）与编程（LCB）测试榜首，其盲测表现同样亮眼。

xAI证实，此前代号为“Chocolate”的神秘模型实为Grok-3的早期测试版，该版本曾被上传至LLM Arena平台。在这些测试中，它在所有大语言模型中获得了最高的ELO评分，这意味着用户更喜欢Grok-3的回答，而非其他人工智能模型生成的答案。此评估方式的独特价值在于：模型无法通过针对性训练在基准测试中“作弊”，其结果完全基于数千匿名用户的盲测偏好。

Grok-3的"推理测试版"（Reasoning Beta）通过内置思维链处理模块与测试阶段额外算力投入，将数学成绩提升至新高度——在AIME 2025基准测试中得到93分，而其他表现最佳的模型得分均低于87分。

值得注意的是，Grok-3 Mini推理测试版虽规模较小，却因更长的训练时长在部分场景下反超标准版。换句话说，完整版的Grok-3在获得更多训练后仍有提升空间，考虑到其更大的参数量，这似乎很有潜力。

不过当进入现场演示环节时，Grok-3的表现更像是技术追赶而非突破创新。xAI团队展示了模型解决物理问题和从头编写游戏代码的能力，但ChatGPT、Claude和谷歌的Gemini等竞品早在数月前就已实现。

新工具，旧范式

xAI同步推出深度搜索（DeepSearch）研究代理系统。该工具运作机制与OpenAI及谷歌服务类似，可实现全网信息抓取并生成多维度主题分析报告。

X Premium Plus订阅用户现已开放Grok-3基础版访问权限，但高阶版本与迭代更新将独家部署于独立app或Grok.com平台。

未来几周内，xAI将推出类似于OpenAI“高级语音模式”的语音交互功能。马斯克特别强调此非传统文本转语音（TTS）技术，而是一个真正的AI语音模型，能够实现自然、富有表现力的语音交互。

开发者将在未来几周内获得API访问权限以及音频转录功能，这将使Grok-3成为第三方AI驱动应用程序的强大工具。

值得关注的是，在演示Grok-3生成《俄罗斯方块》游戏代码后，xAI还透露计划成立一个AI游戏工作室，让开发者能够利用Grok-3构建游戏。

目前，Grok-3模型正在逐步推出。一些爱好者已经抢先体验，并对结果表示满意。

计算机科学家莱克斯·弗里德曼（Lex Fridman）是人工智能领域最具影响力的人物之一，他对Grok-3的能力给予了高度评价。他写道：“我开始大量使用Grok 3（早期）。我惊呆了，这个模型给人留下了非常深刻的印象。祝贺马斯克及其团队将它变为现实。”

其他人则将Grok-3与市场上的领先竞争对手进行了比较。OpenAI前联合创始人安德烈·卡帕西（Andrej Karpathy）在社交媒体上发帖称：“Grok 3 + Thinking的表现接近OpenAI最强模型（o1-pro，200美元/月）的顶尖水平，略优于DeepSeek-R1和Gemini 2.0 Flash Thinking。我要向xAI团队表示热烈祝贺，他们显然拥有巨大的发展速度和势头。”

X用户Penny2x分享了一个由Grok-3从头构建的游戏——一个类似于《超级马里奥兄弟》的2D平台游戏。他对Grok理解指令并通过多次迭代改进的能力印象深刻。该游戏可以在Thank Doge平台上进行测试。

Penny2x在帖子中写道：“我只需要不断提出调整要求，它就会生成一个独立的游戏文件，我可以直接放在桌面上运行。这简直太不可思议了。我们生活在未来，现在每个人都可以成为开发者。”

xAI还证实，计划在Grok-3完全成熟并稳定运行后几个月后，将Grok-2开源。此前，xAI已在Grok-2之后开源了其初代模型，延续了通过发布旧版本激发创新的趋势，尽管Grok-2的性能仍落后于顶级模型。

目前，Grok-3似乎已经能够做到顶级人工智能模型所能做到的事情。真正的考验将在未来几周内到来，届时xAI将推出其承诺的语音功能、游戏工具和API访问权限。现在，压力来到了OpenAI这边，该公司即将发布GPT-4.5。

上一篇: 学而思官宣接入DeepSeek,首发超级学习APP“随时问”

返回首页 返回栏目

头条资讯

GPT-5被曝开发进度严重滞后：烧钱、缺人、数据不够用: 姗姗来迟的Sora，一来就乱杀了。墨案 Pantone 6 彩色电纸书获推升 ChatGPT新增临时聊天功能：对话不留

微软与 OpenAI，远没有看起来「亲密无间」: 百度或将推出全新AI对话软件“万话马斯克的第三条腿，被李书福打断了微软改进必应聊天（Bing Chat）：引入视从网约车到“跑腿”，货拉拉甩不掉“ 微信为什么要做「小绿书」？谷歌裁员1.2万人当天，幸存员工崩溃

从网约车到“跑腿”，货拉拉甩不掉“差评”: 微信为什么要做「小绿书」？谷歌裁员1.2万人当天，幸存员工崩溃

留言跟帖

近期热点

热门文章

日榜周榜: 1 月活能有8个亿，高德本事这么大了？
哥们现在每天打开手机，无非就是在微信、抖音还有微博几个 App 里面反复横跳，偶尔再上支付宝喂个鸡、浇个水。按上班时候的使用频率来说，就这么几个 App 比较方便摸鱼了。但告...
2 定了！2024年天猫双11将于10月14日晚上8点开启！
从天猫双11启动会上获悉，2024年天猫双11将于10月14日晚上8点准点开启。阿里集团副总裁、天猫事业部总裁家洛表示，随着一系列增量政策落地，淘宝天猫平台消费热情持续回暖。作为...
3 京东采销，给直播间围上“避妖圈”
一些混乱的秩序亟待被整饬。“有个boy说他的月饼来自香港，定睛一看里面有不少的名堂。预制菜用槽头肉真是够荒唐，买红薯粉条肚子里都是木薯跟着晃，你说便宜买的纸巾就拇...
4 京东这届双十一先忙着灭火
电商平台一年最重要的双十一大促刚开始还没有一周，各家也才刚刚发了第一波预售战报，火药味还没有那么浓，东哥的兄弟们先发起了一场群情激烈的“抵制京东”行动。事...
5 苹果开发 iPhone SE 4 的“Plus”版本？这一说法存疑
有传言称，苹果可能正在开发 iPhone SE 4 的“Plus”版本，但考虑到之前的报道和苹果针对其入门 iPhone 系列的典型策略，这一说法似乎非常可疑。日本博客 Mac Otakara...
6 苹果 Siri 接入 ChatGPT AI 后，可解答用户当前屏幕内容问题
10 月 25 日消息，科技媒体 9to5Mac 昨日（10 月 24 日）发布博文，报道称在 iOS 18.2 首个 Beta 版本更新中，苹果为 Siri 接入了 ChatGPT AI 聊天体验，并解锁了诸多新技能，而其中一项...
7 苹果AI下周正式亮相，将接受近15亿“果粉”检验！第一批用户体验出炉，华尔街分歧巨大
“炒作”了五个月，又推迟了一个多月，苹果Apple Intelligence（苹果智能）终于要在下周接受用户的检验了。当地时间周三（10月23日），苹果宣布Apple Intelligence的正式公开...
8 Siri“仅换外衣”，体验“相当平淡”……“苹果智能”上线，有外媒质疑“就这？”
“经过漫长的等待，苹果终于向少数人发布了其适用于 iPhone 的人工智能（AI）工具。”多家外媒报道称，10月28日，苹果正式发布其操作系统的最新版本iOS 18.1，其中就包括...
9 苹果 tvOS 18.2 隐藏代码显示 Apple TV 将获得史努比等 4 款屏保
11 月 5 日消息，苹果公司昨天发布 tvOS 18.2 Beta 1测试版，数据挖掘者 Aaron Perris 发现这一版本中暗藏新屏保隐藏代码。获悉，相关代码展示苹果公司将添加史努比、电影和电视...
10 大消息！华为，支付宝宣布！
继半个月前支付宝首次在鸿蒙系统推出“碰一下”支付后，支付宝与华为在终端支付功能方面的合作又有新进展。支付宝与华为终端达成战略合作支付宝官方发文宣布，2024...; 1 22岁的火狐，市占率被3岁的自己超了
上个月，火狐浏览器凭一个骚操作，把一堆用户都惹急了。但奇怪的是，这怎么看都是一个大新闻的事故，世超却没看到多少媒体报道。。。事情是这样。火狐浏览器有个夜间模式，打开会反...
2 GPT-4升级被曝引入Q*，推理/数学更强废话更少，竞技场重夺王位
新版GPT-4是在Q*的输出上微调的？在竞技场重回榜一的新版GPT-4 Turbo，成功再次踩中大家嗨点。它此次的性能提升体现在数学、推理、代码上，而且输出内容废话更少。最让大家感...
3 到了东南亚，拼多多才发现自己居然还不够野...
把拼多多和东南亚摆在一起，很多人第一直觉一定是：最擅长做增长和下沉市场的拼多多肯定随便拿下啊。然而事实并非如此。TEMU 在日本和韩国上线亚洲试点成功后，几乎立马开始了东...
4 商汤升级“日日新5.0”大模型，对标GPT-4Turbo
·“日日新5.0”采用混合专家架构，超10TB tokens训练，覆盖大量合成数据，推理时上下文窗口达200K左右。云、端、边全栈大模型产品矩阵中，用于终端设备的“...
5 卖得最火的 AI 硬件 Rabbit R1 首批体验出炉：还没干翻 app，被质疑造假
两周前， Ai Pin 的第一批用户在体验产品过后，出奇地达成了一致评价：噱头大于实际，取代手机还为时过早。当时，Rabbit 创始人吕骋（Jesse Lyu）也没错过这个落井下石的大好机会，通过一...
6 ChatGPT新增临时聊天功能：对话不留痕迹
5月2日消息，近日，OpenAI发布更新，为ChatGPT新增了“临时聊天”功能。为满足用户对隐私的进一步需求，OpenAI 引入了 " 临时聊天 " 功能。通过这一功能，用户可以与 Chat...
7 谷歌面临史上最大威胁！曝OpenAI将发布搜索引擎
5月6日消息，据多家媒体近日报道，OpenAI正在计划一款基于其ChatGPT聊天机器人的大型产品——全新的搜索引擎。前Mila研究员、麻省理工讲师Lior S爆料称："OpenAI即将...
8 首个中文原生DiT架构！腾讯混元文生图大模型宣布全面开源
5月14日消息，今日，腾讯旗下混元文生图大模型（混元DiT，Diffusion Models with Transformers）宣布全面开源。目前已在Hugging Face、Github上发布，包含模型权重、推理代码、模型算...
9 都说谷歌被OpenAI狙击了，我怎么觉得它在狙苹果
今天凌晨，谷歌的 I/O 2024 大会也如约而至了。。。发布会是在美国山景城开的，咱编辑部也派人去了现场，听身处前线的同事讲，不知道是不是 OpenAI 抢了风头的缘故，今年现场的氛围...
10 音乐发现和识别应用Shazam更新支持实时活动
苹果今天在其免费的音乐发现和识别应用Shazam中，增加了对实时活动的支持。 Shazam的实时活动使用户在后台搜索音乐时保持最新状态，这在处理多任务或识别其他应用中的歌曲时特...

热门视频

马斯克发布Grok-3：性能更强了，但真有新突破？

2025-02-19 来源：泛电竞 编辑：佚名 标签： 马斯克 Grok-3 OpenAI

2025-02-19 来源：泛电竞编辑：佚名标签：马斯克 Grok-3 OpenAI