“马斯克的惊人领悟:AI编程的真实魅力在哪里?”

AI快讯 2hours ago AICAT
0 9
马斯克AI编程挑战

“马斯克的惊人领悟:AI编程的真实魅力在哪里?”

本文来源于微信公众号:字母AI,作者:小金牙,配图

最近,马斯克面临一项棘手问题:Grok在X平台上引发的“脱衣服”事件似乎难以平息。

就在X宣布实施限制措施,禁止通过Grok在该平台上对真实人物的照片进行“脱衣服”或生成“暴露服装”(如比基尼、内衣等)之后。

“马斯克的惊人领悟:AI编程的真实魅力在哪里?”

紧接着,加州当局对xAI及其Grok展开了调查。目前,Grok因“脱衣”问题已遭到十个国家和地区的公开批评或调查,包括英国、欧盟、法国、加拿大、澳大利亚和印度等。

自Grok问世以来,其因不拘泥于“政治正确”而展现出的娱乐性吸引了大量用户,然而马斯克对其“擦边球”性质的态度一贯强硬。去年Grok最引人注目的更新无疑是引入了两个性感的虚拟角色。

在这种“擦边”之下,用户数量显著增长,Grok的最新月活跃用户数已突破3000万。月初推出的将静态照片转化为动态视频的功能Grok Imagine,更是一度登上苹果应用商店美国区免费榜的首位。

然而,在用户之间的争抢背后,AI公司真正需要关注的却是“商业前景”与资金。C端是否能提供答案,目前尚无定论。OpenAI的主要收入来自用户订阅,尽管ChatGPT的月活跃用户数达到8亿,但其每年的亏损却在不断加剧,且这一趋势可能会持续数年。

不久前,马斯克向OpenAI和微软索赔790亿到1340亿美元,声称自己早期为OpenAI提供了数千万美元的种子资金,认为OpenAI5000亿美元的估值中应有一部分属于他,这似乎颇有“盯上竞争对手钱包”的意味。

新年伊始,马斯克接连遭遇打击,决心在AI编程领域迎头赶上。他不仅承认Grok的编程能力不及竞争对手Anthropic,还透露下个月将有两项关于AI编程的重大举措。

尽管“擦边”吸引眼球,但在盈利方面,AI编程领域更具潜力。

显而易见,位居AI编程领域的Anthropic,其收入构成中企业用户占据了大部分,已将AI编程的优势顺利转化为生产力的提升。尽管年收入远不及OpenAI,但Anthropic的盈利节点可能会早于OpenAI。

不仅是马斯克的xAI,像OpenAI和字节跳动等公司也在去年加大了对AI编程的投资力度。

归根结底,AI行业的主要参与者逐渐意识到,C端仅仅是为了争名,而AI编程则连接着广阔的B端想象空间。

马斯克的反击信号

马斯克正在释放一个明确的信号:Grok将开始在AI编程上加大力度。

在1月份,马斯克公开承认Grok的编程能力不如Anthropic的Claude

随后,他透露,2月Grok Code将进行重大升级:“下个月Grok Code将实现一键处理多项复杂编码任务。”

外界普遍认为,“一键处理复杂编码任务”暗示xAI即将推出vibe-coding工具,用户只需描述其想法和感受,例如“创建一个类似Twitter的应用”,AI便能自动完成规划、代码生成、测试和部署。

显然,马斯克受到了不小的刺激。

新年刚过不久,Anthropic便对第三方平台采取了封锁措施,导致通过编程助手Cursor和开源AI编码工具OpenCode使用Claude Code时出现错误,显示该工具权限仅限Claude Code使用,外部无法调用。

xAI随之遭遇重大损失,xAI联合创始人Tony Wu甚至发出紧急通知。

而这条Slack消息被泄露,揭示了一个小秘密——许多xAI员工都是通过Cursor调用Claude模型进行编码的。

当时,Tony Wu表示:“我们的生产效率会受到影响,但这也迫使我们开发自己的编程产品和模型。”

不久后,马斯克在X上回复时承认,Anthropic的“拔网线”事件是一个“激励因素”。

“马斯克的惊人领悟:AI编程的真实魅力在哪里?”

此前,xAI的Grok主要以其通用能力见长,尽管模型性能强大,但在AI编程能力上并不突出。

根据llm-stats的最新排名,xAI最出色的模型Grok Code Fast 1在SWE-Bench Verified中排名第20位。

该测试从真实的GitHub问题中选取了500个经过验证的软件工程问题子集,旨在评估语言模型通过为Python代码库生成补丁解决现实编码问题的能力。

“马斯克的惊人领悟:AI编程的真实魅力在哪里?”

“马斯克的惊人领悟:AI编程的真实魅力在哪里?”

在SWE-Bench Verified排名前五的模型均来自Anthropic、OpenAI及谷歌

在Human Eval中,xAI排名最高的模型Grok-2位列第18。该基准测试用于衡量从文档字符串生成程序的功能正确性,包含164个原创编程问题,旨在评估语言理解、算法能力及简单数学运算能力。

“马斯克的惊人领悟:AI编程的真实魅力在哪里?”

“马斯克的惊人领悟:AI编程的真实魅力在哪里?”

在Human Eval排名前五的模型分别来自Kimi、Anthropic、OpenAI及阿里。

在Live Code Bench中,xAI表现出色,Grok-3 Mini、Grok 4 Fast和Grok-3分别位列第三、第四和第五。这是一个全面且无污染的大型代码语言模型评估基准,持续从编程竞赛中收集新问题,以评估模型训练截止后发布的未见问题。

“马斯克的惊人领悟:AI编程的真实魅力在哪里?”

Live Code Bench排名前两的模型分别来自DeepSeek和MiniMax。

值得注意的是,xAI在人工智能编程领域迈出的重要一步是推出了Grok Code Fast。这一模型追求实用性,名称中的“快”字便显而易见。其定价策略也颇具竞争力,输入每百万tokens的成本仅为0.2美元,输出则为1.5美元,成为当前市场上最具性价比的专用编码模型之一。

相比之下,Claude Sonnet 4.5的价格是其15倍之多。

这一产品特别适合预算有限的个人开发者与初创团队,以及需要频繁迭代的场景,而不适合那些对错误“零容忍”的顶级企业的生产任务,似乎更像是马斯克在AI编码领域用错位竞争策略进行的小规模尝试。

然而,随着人工智能编程逐渐从“经济实用工具”转变为影响研发效率和组织结构的核心能力,仅靠Grok Code Fast这样强调性价比和速度的产品,显然无法满足马斯克的雄心壮志。

AI编程势不可挡

实际上,AI编程这一领域,已经引起了众多顶尖企业的关注。

其中最具代表性的是Anthropic。

Anthropic不仅仅关注模型的编程能力,更是直接介入工程师的工作流。从需求拆解、代码结构规划到多文件修改和反复调试,Claude Code更像是一个全天候的“虚拟工程师”。

本月发生的“拔网线事件”恰好证明了其成功——当Anthropic限制第三方调用权限时,众多依赖Claude Code的外部工具和团队立刻受到影响,xAI正是其中之一。

这种变化在一线工程师中体现得尤为明显。

谷歌的首席工程师、Gemini API负责人Jaana Dogan公开表示,她仅用几句提示词和一个多小时的时间,便借助Claude Code完成了相当于过去一年工作量的成果。

“马斯克的惊人领悟:AI编程的真实魅力在哪里?”

这种观点之所以被广泛传播,是因为它精准地反映了许多工程师的真实感受:AI编程正在根本性地改变生产效率。

正因如此,其他巨头不可能对此置之不理。

在过去一年的更新中,OpenAI明显将更多资源投入到代码能力的提升上。从模型对复杂代码理解的强化,到API层面对函数调用和工具链集成的持续优化,其目标非常明确——让开发者在真实的工程环境中,能够更长时间、更深入地使用GPT。

谷歌的策略则显得更加“系统化”。Gemini不仅在代码能力上追赶,更是直接整合进谷歌自家的开发者工具、云服务和工程环境,试图将AI编程变为一种默认选项,而非额外插件。

从排行榜的结果来看,各家公司之间的差距正在迅速缩小,排名频繁变动,已经进入了激烈的竞争阶段。

这种趋势同样传导到了国内市场。字节跳动早已意识到AI编程的重要性。去年1月,字节推出了针对软件工程的工具TREA,并不断进行迭代。对于这样规模的公司而言,是否具备这一能力,直接影响到内部研发成本和组织效率。

将这些动作结合来看,可以发现一个愈加明显的变化:AI编程正在从“大模型能力展示的一部分”演变为所有参与者都无法回避的核心战场。

在这样的背景下,Grok Code Fast那种强调低价、实用和快速的策略,显然难以让马斯克安于现状。

“擦边”哪有编程魅力?

在纷繁复杂的竞争中,真正将这条赛道推向前台的,不仅是模型能力的提升,还有其背后日益清晰且切实可行的商业目标。

AI编程是目前为数不多的已经得到验证的“实用型”大模型应用场景之一。

长期以来,xAI的Grok在C端的突出优势明显。去年的焦点并非编程能力,而是各种“擦边”行为,限制较少且胆大妄为,屡次引发争议。

近期,这种原因再次让Grok成为舆论的中心。这样的策略在吸引新用户和提升话题热度上确实有效,但显而易见的问题是:这种方式难以转化为稳定且可扩展的收入。

这一点并非仅限于xAI。OpenAI和字节跳动在某种程度上同样面临结构性问题。OpenAI拥有ChatGPT这样的超级C端入口,字节则依托于抖音和TikTok等社交与内容平台,而马斯克则掌控着X。

这些公司在用户规模、分发能力和产品打磨方面具备显著优势,但也正因为C端的体量庞大,商业模式反而愈加复杂:订阅增长面临天花板,内容合规成本高昂,任何失误都可能被无限放大。

相比之下,面向B端的业务要“冷静”得多,现实性也更强。这正是AI编程所具备的吸引力所在。

对于企业而言,AI是否“有趣”并不重要,关键在于它能否稳定地节省人力、缩短研发周期和降低交付风险。

这也是为什么几家公司的盈利预期开始显著分化的原因。

以Anthropic为例,许多行业分析机构预测,Anthropic有望在2028年前后实现盈亏平衡。

普遍认为,Anthropic约70%–80%的收入来自企业客户,主要依赖API调用和企业级合同。虽然这种收入模式的增长未必最快,但却相当稳定,能够有效覆盖不断上升的算力成本。

相较之下,OpenAI的规模更大,但发展路径有所不同。

普遍的公开分析认为,OpenAI当前的收入结构中,约70%仍来自C端的订阅(例如ChatGPT Plus等),而真正来自企业API和企业合同的收入占比约为30%左右。

与此同时,OpenAI还面临着极高的算力和基础设施支出压力,其整体盈利的时间点可能要延后至2030年前后。

显然,它对规模、资金和耐心的要求更高。

而xAI的情况则更为激进,且显得脆弱。

市场估算显示,xAI在2025年的年化收入规模约为5亿美元,远低于OpenAI(约130亿美元)和Anthropic(约70亿~90亿美元)。目前,xAI的主要收入仍高度依赖Grok在C端的订阅与其与X平台的联动。

尽管xAI已开始推出Grok Business、Grok Enterprise等B端产品,试图向企业市场拓展,但其盈利的时间点可能仍需等待至2027~2028年之后。

这也可以解释为何近期OpenAI与谷歌相继在“广告”与“购物”领域发力,意在为C端引入更多商业机会。

马斯克在AI编程方面的投入,实际上是在为xAI寻找一条更加明确和可持续的商业路径。

在算力成本高企、市场耐心降低的当下,AI编程赛道带来的确定性本身就是一种稀缺资源。

这种选择,早在Anthropic成立之初就已埋下伏笔。Anthropic曾多次公开表态,他们更愿意将AI视为生产力工具,而非娱乐产品,甚至直言“AGI”这一概念已显得模糊和过时。

在具体实践中,这种理念体现在对安全性、可控性和工程稳定性的长期投入。

这些看似“缓慢”的工作,恰恰为AI编程能够深入企业核心流程打下了基础。如今Claude在编程领域的领先并非一蹴而就,而是逐步积累的成果。

正因如此,其他参与者想要在AI编程领域赶超Anthropic,注定是一场艰难的挑战。

这并非仅仅通过增加几个模型或提升几次排名就能轻易解决,而是需要对工程能力、产品理解和企业需求进行长时间的深入消化。

AI编程的竞争之路:挑战与机遇并存

从时间的角度分析,Google的布局其实并不算迟缓。Gemini的优势不仅体现在其模型本身,更在于与Google Cloud、开发者工具及工程系统之间的深度整合。

在过去的一年里,OpenAI也不断将资源投入到编程能力的提升上,而字节跳动则通过TREA等工具持续进行补充和学习。在这样的背景下,马斯克如今大力投资AI编程,似乎略显滞后。

更为现实的是,AI编程实际上是“出错成本”最高的应用领域之一。

在高需求的应用环境中,如果没有出现问题尚可,但一旦出现问题,后果则是显而易见的生产事故。

近日,编程工具Cursor透露,其在一次实验中使GPT-5.2连续运行了7天,生成了大约300万行代码,构建出一个与Chrome相媲美的浏览器。

这一消息迅速引发了广泛关注,但很快便遭到了开发者的质疑,认为其可复现性和工程真实性值得商榷。这场风波恰恰反映出AI编程的高门槛。

在这样的现实约束之下,AI编程的前景显得既诱人又充满挑战。

至于马斯克与Grok,能否在这条竞争激烈且经过多次验证的道路上迎头赶上,答案只能留待时间来揭晓。

马斯克已承诺下月将有重大举动,值得我们拭目以待。

本文来自微信公众号:字母AI,作者:小金牙

本内容由作者授权发布,观点仅代表作者本人,不代表虎嗅立场。如对本稿件有异议或投诉,请联系 tougao@huxiu.com。

本文来自虎嗅,原文链接:https://www.huxiu.com/article/4827672.html?f=baijiabaiducom

来源:百家号
原文标题“擦边”哪有AI编程香?马斯克终于想通了
声明:
文章来自网络收集后经过ai改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!
广告也精彩
Copyrights:AICAT Posted on 2026-01-31 2:15:34。
Please specify source if reproduced“马斯克的惊人领悟:AI编程的真实魅力在哪里?” | AI工具导航