最近,马斯克似乎陷入了麻烦,Grok在X平台上的“脱衣服”事件,显然难以平息。
就在X宣布了一系列限制措施,禁止Grok在其平台上对真实人物的照片进行“脱衣服”或生成/编辑“暴露服装”(如比基尼、内衣等)之后,事态进一步升级。
随后,加州方面也对xAI和Grok展开了调查。如今,Grok因“脱衣”事件已遭十个国家和地区的公开批评与调查,包括英国、欧盟、法国、加拿大、澳大利亚、印度等。
自推出以来,Grok因其不拘一格的风格和丰富的娱乐性受到瞩目,而马斯克对其“擦边”的态度也一直显得坚决。去年,Grok最引人关注的更新便是添加了两个性感的虚拟角色。
在这种“擦边”的背景下,用户数量显著增长。Grok最新的月活跃用户数已突破三千万,月初推出的将静态照片转化为动态视频的功能Grok Imagine,一度在苹果应用商店的美国区免费榜中夺得第一。
然而,用户的热情背后,AI公司真正需要追求的是“商业前景”和资金。C端是否能满足这一需求,目前仍需打上问号。OpenAI的主要收入来源是用户订阅,尽管ChatGPT月活跃用户达八亿,公司的亏损却在逐年加剧,并预计这种状况将持续数年。
不久前,马斯克要求OpenAI与微软赔偿790亿到1340亿美元,理由是他在早期投资了数千万美元的种子资金,认为OpenAI的5000亿美元估值中应有一部分属于他,这显然是试图从竞争对手那里获取利益。
新的一年里,马斯克接连遭遇挫折,似乎已做好在AI编程领域奋起直追的准备。他不仅承认Grok的编程能力不及对手Anthropic,还宣布下个月将有两项AI编程领域的重要举措。
虽然“擦边”吸引眼球,但在盈利方面,AI编程显然更具吸引力。
显而易见,站在AI编程领域第一位的Anthropic,其收入结构中企业客户占据了主导地位,已经将AI编程的优势顺利转化为生产力的提升。尽管其年收入远不及OpenAI,但Anthropic可能会更早实现盈利。
不仅是马斯克的xAI,OpenAI和字节等公司也在去年加大了对AI编程领域的投资。
归根结底,AI行业的领军者们逐渐意识到,C端市场主要是追求名声,而AI编程则连接着广阔的B端想象力。
01
马斯克受到启发
马斯克似乎正在传达一个明确的信号:Grok将开始在AI编程领域发力。
在一月,马斯克首次在X上公开承认Grok在编程能力上不及Anthropic的Claude。
不久之后,他又透露,Grok Code将在二月进行重大升级:“下个月Grok Code将迎来重要更新,能够一键处理许多复杂的编码任务。”
提到的“一键处理复杂编码任务”,外界普遍认为这暗示xAI将推出vibe-coding工具,用户只需描述他们的感觉和意图,比如“制作一个类似Twitter的应用”,AI便能自动进行规划、生成代码、测试及部署。
马斯克的确受到了不小的刺激。
新年刚过不到一周,Anthropic就采取了“拔网线”的措施,对第三方平台进行了封锁。这个决定导致通过编程助手Cursor和开源AI编码工具OpenCode等第三方平台使用Claude Code时出现错误,提示工具权限仅限Claude Code使用,外部无法调用。
xAI因此遭遇了重大损失,甚至xAI的联合创始人Tony Wu还向全体员工发出了紧急通知。
而这条信息被泄露,揭示了一个小秘密——许多xAI员工实际上是通过Cursor调用Claude模型来编写代码的。
当时,Tony Wu表示:“我们的生产力会受到影响,但这确实会促使我们开发自己的编程产品或模型。”
不久后,马斯克在X平台上回应他人时承认,Anthropic的“拔网线”事件成为了一个“推动因素”。
在此之前,xAI的Grok以其通用能力而闻名,尽管模型的性能出色,但在编程能力上并不突出。
根据llm-stats发布的最新排名,xAI的Grok Code Fast 1在SWE-Bench Verified中名列第20位。
该测试从真实的GitHub问题中提取了500个经过验证的软件工程问题,由人工标注者审核,用于评估语言模型在为Python代码库生成修复补丁方面的能力,以解决实际编码问题。
SWE-Bench Verified排名前五的模型分别来自于Anthropic、OpenAI和谷歌。
在Human Eval基准测试中,xAI表现最佳的模型是Grok-2,位列第18。该测试主要用于测量从文档字符串生成程序的功能正确性,涵盖164个原创编程问题,旨在考察语言理解、算法能力及简单数学运算能力。
Human Eval排名前五的模型分别来自Kimi、Anthropic、OpenAI和阿里。
在Live Code Bench中,xAI表现相对优异,Grok-3 Mini、Grok 4 Fast和Grok-3分别位列第三、第四和第五。该基准测试涵盖全面且干净的大型代码语言模型评估,持续收集编程竞赛中的新问题,以考察模型在训练截止后发布的新问题的解决能力。
Live Code Bench排名前两名的模型分别来自DeepSeek和MiniMax。
值得一提的是,xAI在AI编程领域的重要举措是推出了Grok Code Fast,这款模型强调实用性,从其名称即可看出,注重“快速”。其价格也极具竞争力,输入成本为每百万tokens仅需0.2美元,输出为1.5美元,是目前最便宜的专用编码模型之一。
相较之下,Claude Sonnet 4.5的价格是其15倍。
这款模型特别适合预算有限的个人开发者、初创团队以及需要频繁迭代的场景,而不太适用于追求“零容忍错误”的高端企业级任务,类似于马斯克在AI编程领域以错位竞争的方式进行的“小规模尝试”。
然而,随着AI编程逐渐从“便宜且好用的工具”转型为决定研发效率与组织形态的核心能力,单靠一款强调性价比与速度的Grok Code Fast,显然无法满足马斯克的雄心壮志。
02
AI编程的浪潮已不可阻挡
实际上,AI编程这一领域,已经引起了众多行业领军者的关注。
其中,最具代表性的便是Anthropic。
Anthropic不仅仅关注模型是否具备编程能力,更是直接介入工程师的工作流程。从需求拆解、代码结构规划,到多文件修改和反复调试,Claude Code更像是一个随时待命的“虚拟工程师”。
本月发生的“拔网线事件”恰恰印证了这一点——当Anthropic收紧了第三方的调用权限,依赖Claude Code的外部工具和团队顿时受到了影响,其中便包括xAI。
这一变化在一线工程师的工作中体现得尤为明显。
AI编程的崛起:从模型展示到核心竞争力
谷歌的首席工程师,同时也是Gemini API的负责人Jaana Dogan,近日透露,她仅用简短的提示词和一个多小时的时间,就借助Claude Code完成了相当于过去一年工作量的成果。
这一声明之所以引起广泛关注,是因为它真实反映了许多工程师的心声:AI编程正在根本性地提升工作效率。
因此,其他科技巨头绝对不可能对此置之不理。
在过去一年里,OpenAI明显将更多的资源投入到代码能力的提升上。无论是对复杂代码的理解,还是对长上下文的修改,模型的增强都在持续进行。同时,API层面也在不断优化函数调用和工具链集成,明确的目标是让开发者在实际工程应用中能够更长久、更深入地使用GPT。
而Google的战略则显得更加系统化。Gemini不仅仅在代码能力上追赶,更是直接融入了Google自家的开发工具、云服务和工程环境中,试图将AI编程变成默认功能,而非附加插件。
从市场的表现来看,各大公司的差距正在迅速缩小,排名变动频繁,已经进入了激烈的竞争阶段。
这一趋势也在国内市场得到了体现。字节跳动早已意识到AI编程的重要性。去年1月,公司推出了针对软件工程场景的工具TREA,并持续进行迭代。对于这样规模的企业而言,是否掌握这一能力直接影响到内部研发的成本与效率。
将这些行动综合来看,可以发现一个愈加明显的变化:AI编程正逐渐从“展示大模型能力的一部分”演变为所有参与者必须面对的核心竞争领域。
在这一背景下,Grok Code Fast所采取的“便宜、实用、快速”的策略,显然难以让马斯克继续安心停留。
03
编程的真正魅力在哪里?
在纷繁复杂的局面中,真正推动这一领域发展的,并不单单是模型能力的提升,而是其背后愈发清晰且现实的商业指向。
AI编程是目前为数不多的已被验证可以“真正落地”的大模型应用场景之一。
xAI的Grok长期以来始终在C端占据显著优势。去年,Grok受到关注的并非其编程能力,而是种种“擦边”操作,较少限制且大胆的做法,多次引发争议。
最近,类似的原因再次使Grok成为焦点。这种策略在吸引新用户和提高话题性方面确实奏效,但显然存在问题:难以转化为稳定且可规模化的收入。
这种现象不仅发生在xAI身上。OpenAI和字节跳动在某种程度上也面临类似的结构性挑战。OpenAI拥有像ChatGPT这样的超级C端入口,而字节则依托抖音、TikTok等社交与内容平台,马斯克也掌控着X。
尽管它们在用户规模、分发能力和产品打磨上具有巨大优势,但由于C端的体量过于庞大,商业模式反而变得更加复杂:订阅的增长存在上限,内容合规成本高,任何失误都可能被无限放大。
相比之下,面向企业的市场显得更加“冷静”且现实,这正是AI编程吸引力的所在。
对企业而言,AI是否“有趣”并不重要,关键在于它能否稳定地节约人力、缩短研发周期、降低交付风险。
因此,几家公司的盈利预期开始显著分化。
以Anthropic为例,多个行业分析机构预测,Anthropic可能在2028年前后实现盈亏平衡。
行业普遍认为,Anthropic约70%至80%的收入来自企业客户,主要通过API调用和企业级合同获得。尽管这一收入模式的增长速度未必最快,却足够稳定,能够覆盖持续上升的算力成本。
与此相比,OpenAI的规模更大,但其路径有所不同。
根据公开分析,目前OpenAI的收入结构中,大约70%仍来源于C端订阅(如ChatGPT Plus),真正来自企业API和企业合同的收入占比大约为30%。
与此同时,OpenAI还面临着极高的算力和基础设施支出压力,其整体盈利的时间点可能要推迟到2030年前后。
马斯克的AI编程之路:挑战与机遇并存
显而易见,AI编程所需的规模、资本和耐心要更为庞大。
相比之下,xAI的策略显得更加激进,但整体上也稍显脆弱。
根据市场评估,预计xAI在2025年的年收入将约为5亿美元,这一数字与OpenAI的130亿美元和Anthropic的70亿至90亿美元相比显得十分逊色。目前,xAI的收入主要依赖于Grok在C端的订阅服务以及与X平台的合作。
虽然xAI已经推出了Grok Business和Grok Enterprise等面向企业的产品,试图拓展B端市场,但其实现盈利的时间可能要推迟到2027年或2028年以后。
这也能够解释为什么OpenAI和谷歌近期在广告和购物领域加大了投入,以期在C端创造更多的商业机会。
马斯克对AI编程的关注,实际上是在为xAI寻找一条更为明确和可持续的商业路径。
在算力成本高企、市场耐心减弱的背景下,AI编程所带来的确定性本身就是一种稀缺的资源。
这种选择早在Anthropic成立之初就已经显露出端倪。他们多次强调更倾向于将AI视为生产力工具,而非单纯的娱乐产品,甚至认为“AGI”这一概念在当今已变得模糊不清。
在实践中,这种理念体现在对安全性、可控性和工程稳定性的长期投入上。
这些看似“缓慢”的努力,实际上构筑了AI编程深入企业核心流程的基础。如今Claude在编程领域的优势,并非偶然,而是经过一步步的积累所致。
正因为如此,其他竞争者在AI编程领域想要赶超Anthropic,将面临艰巨的挑战。
这并不是简单地多推出几个模型或频繁上榜就能解决的问题,而是需要对工程能力、产品理解和企业需求的长期深刻理解。
从时间的角度来看,谷歌的布局并不算晚。Gemini的优势不仅体现在模型本身,更在于与谷歌云、开发者工具和工程体系的全面联接。
过去一年,OpenAI也在不断将资源倾斜到编程能力上,而字节则通过TREA等工具持续补充短板。在这样的背景下,马斯克此时加强对AI编程的投入,似乎显得有些迟缓。
更为现实的是,AI编程恰恰是“出事成本”最高的应用场景之一。
在高强度应用环境中,不出问题是基本要求,一旦出现问题,便可能导致实质性的生产事故。
最近,编程工具Cursor披露了一次实验,GPT-5.2连续运行7天,生成了约300万行代码,建立了一个可与Chrome媲美的浏览器。
这一消息一经发布,迅速引起广泛关注,但开发者们很快对其可复现性和工程真实性提出质疑。这场风波恰恰反映了AI编程的高门槛。
正是在这种现实的约束下,AI编程的道路显得既诱人又艰难。
至于马斯克和Grok能否在这个竞争激烈且反复验证的领域中追赶上来,答案恐怕只能交给时间。
马斯克已承诺下个月将有重大举措,让我们拭目以待。
Please specify source if reproduced“擦边”不如AI编程!马斯克的全新思考启示你我 | AI工具导航










