AI编程的真实面貌:硬核测试全零分,AI写代码究竟靠谱吗?

AI快讯 2hours ago AICAT
0 8
AI编程的真实面貌:硬核测试全零分,AI写代码究竟靠谱吗?

图片来源@pixabay

当下,人工智能的应用能力成为了一个热门话题。从技术的高峰走向实际应用,如何揭开围绕AI的种种迷雾,真实的情况又是怎样的?我们将以“真相”为主线,持续推出一系列文章,理性观察AI技术在实际应用中的现状与未来,并欢迎各个领域的参与者积极讨论。

关于“AI取代程序员”的言论愈演愈烈,AI编程(AI Coding)在众多推动力量下正逐渐树立起“显著提升企业开发效率”的形象。然而,尽管市场竞争激烈,企业内部的应用也在不断探索,但AI编程自推出以来依旧面临许多质疑。

最近,由国际算法奥赛金牌得主组成的科研团队推出了名为LiveCodeBench Pro的基准测试,结果令人震惊:在最新的584道编程赛题中,20个顶级模型GPT-4oDeepSeek R1和Claude 3等的通过率竟然是——0%。(相关报道《AI替代程序员?一项最新测试的结果恰恰相反 | 企服国际观察》

可以说,脱离了网络信息作为训练基础,无法“作弊”的情况下,AI在编程领域的表现远不如外界的期待。

与此同时,程序员群体在面对AI编程的热潮时,逐渐对这些工具的实际效用产生了理性看法,开始对AI编程工具进行深入剖析。

“由于信息安全的原因,安全部门禁止使用AI大模型,哪怕是本地部署的工具;与此同时,业务经理却要求开发人员必须使用大模型提升效率,导致各部门之间产生了矛盾。即便裁员后,我们的绩效提升了一倍,但实际上并没有任何工具能够帮助我们实现这一目标。”

“因为数据合规性问题,很多外部的商业化AI工具无法使用,而内部的IDE插件又不够好用,加之大企业的上下游关系复杂,业务知识繁杂,造成了很多时候需要自己将业务知识转化为提示语,确实时间成本很高,性价比不优。”

“去年Claude推出编程功能时,我是满怀期待的。想象一下:描述想法,代码自动生成效率提升十倍。半年后,惊喜与挫折并存,最大的收获是:AI虽强,但必须有人类来划定边界。”

“我之前完全没有接触Cursor,可能还停留在传统任务的完成上,但没想到在外部的世界,所需的技能或知识已经完全不同。按照我的观点,现在需要的是如何有效使用AI的经验,我想说,AI是工具,如何利用它来提升自己才是真正的本事。”

“使用AI编写代码与自己手动编写代码的最大区别在于,使用AI时,你并未意识到自己是在用自然语言编程。即便是自然语言编程,也不能仅仅提供需求,仍然需要遵循编程逻辑和规范。”

与多位行业专业人士的交流中,不难发现一个共识:AI并不能完全取代人类,而是正在重塑开发者的角色。由于大模型的发展本质和产品的成熟度,部分开发者对AI编程仍持保留态度,这类工具尚未能迅速普及。

信任度是一个重要的考量因素。根据Cloudsmith的《2025 Artifact管理报告》,约三分之一的开发者在每次部署之前并未检查AI生成的代码,这表明“相当一部分”代码未经审核,从而为供应链带来了日益严重的安全隐患尽管AI在软件开发中将扮演重要的角色,但其信任模型、工具及策略的发展尚显滞后。同时,依赖人工审核代码的方式也不可持续。

更为现实的是,AI编程产品的成本并不低,说服已经达到IT预算上限的企业投资更多资金来引入AI编程并非易事。

高盛作为微软GitHub Copilot的早期用户,已为其约1.2万名开发者每人购买了该工具的月度订阅,每年支出数百万美元。最近,该客户也在关注Copilot以外的竞品,迫使微软调整定价策略:除了传统的订阅模式外,还可以基于用户的使用量进行计费,并推出Agent新功能以吸引客户增加预算。

相比之下,国内市场同样面临挑战,尽管许多大型企业和初创公司纷纷入局,但在原生IDE和插件的争论中,Agent的实时性与异步性问题,以及技术产品的差距,都亟待跟进,商业化进程在当前市场环境下显得更加艰难。

在好用之前,首先要考虑安全设计

AI编程的核心在于大语言模型,或由微调模型如OpenAI的Codex提供支持,能够实现代码自动补全、提供调试建议,并根据自然语言提示生成完整的脚本。因此,越来越多的AI编程工具GitHub Copilot、Cursor相继出现,并逐渐融入企业的日常开发流程。

但一些企业开始意识到AI编程助手在当前阶段的弊端。

在2023年,GitHub Copilot因训练数据的合法性问题陷入诉讼,其生成的代码可能包含来自MTL、GPL等开源协议下的代码,而这些代码并未在GitHub Copilot中明示声明。同年,武汉大学等六所高校对GitHub Copilot生成代码的安全性提出了质疑,指出Copilot生成的代码可能存在安全漏洞,开发者在采纳这些代码之前,必须进行仔细的安全审核。

今年3月,AI编程软件Lovable被曝出存在重大安全漏洞:使用Lovable构建的应用可能泄露用户的个人信息,甚至可能暴露客户的服务访问密码。Lovable对此解释称,这并非其独有现象,任何面向非专业开发者的AI编程产品都存在类似问题。为此,Lovable推出了一项“安全扫描”新功能,旨在检测潜在漏洞,从而缓解这一问题。

笔者注意到,许多海外企业公开表示,AI生成的代码有时无法如预期般运行,甚至可能导致系统更加容易受到黑客攻击或数据泄露。如果将AI编程生成的软件直接用作系统运行,企业可能面临缺陷产品的风险

问题的根源在于,AI并不真正理解代码逻辑,而是基于概率模型生成表面合理的代码,意味着AI编程可能潜藏错误或安全隐患。

为防范AI生成代码中的潜在风险,一些企业已开始明确要求工程师在发布任何未经人工审核的软件之前,必须先进行审查。

营销分析软件公司Amplitude制定了相关政策,要求所有AI生成的代码在客户使用前必须经过审核。同时,Amplitude更倾向于使用托管在自有服务器上的模型,而非依赖云端数据中心。此外,Amplitude也会预先提示模型在生成代码时可能的局限性,或者要求模型在事后检查其生成的代码是否存在缺陷。

在国内市场,这种情况也在逐步上演。

对于拥有强大自研团队和能力的互联网企业,或者出于安全与内部研发需求的考量,往往会优先考虑自研工具。

字节跳动公开表示,目前已有超过80%的工程师在使用其开发的TRAE产品来辅助开发。然而,在今年5月,字节跳动安全与风险控制部门曾发布内部邮件,表示出于防范数据泄露的考虑,自6月30日起,将分批禁用第三方AI开发软件,包括AI编程工具如Cursor和Windsurf,并将TRAE作为替代方案。

美团在6月初推出了AI编程工具NoCode,集成了其自研的千亿参数模型LongCat。作为一款服务于内部员工,并希望将能力进一步开放给外部人员的软件工具,美团基础研发平台的智能开发工具负责人俞超在与笔者的交流中表示,“大公司的自研工具往往源于自身的需求,而多数商业软件无法满足企业内部研发场景,因此需要进行深度优化。”

对于企业而言,在一些需要通过外部采购快速构建的业务系统领域,必须在确保数据安全的同时,考虑整个研发流程和系统运维的便捷性。

“汽车行业的竞争非常激烈,快速开发功能的需求非常迫切。同时,维护周期也相对较长。因此,车企对效率的要求较高,对质量的要求更为苛刻。”蔚来汽车的一位资深工程师指出,近两年蔚来开始逐步将AI编程工具应用于模板生成、单元测试自动生成等内部研发场景。

2024年初,蔚来汽车决定从微软Github Copilot切换到阿里云通义灵码。谈及选择通义灵码的原因,揭晓表示,核心问题在于代码安全,“虽然之前内部曾小范围使用过Copilot,但考虑到数据跨境风险,标准化的海外产品并不适合在公司内部广泛推广。”

回顾此次国内选择,能够在AI编程领域投入资源的企业并不多,通义灵码背靠大厂资源,在产品及模型层面更接近于海外产品且工程化层面成熟度高。“不可否认,国外模型在某些场景下会有优势,回答更简洁,准确性也更高。但我们同样重视产品功能的细节,尤其是安全性设计的前瞻性。”揭晓补充道。

蔚来汽车在使用通义灵码的同时,尚未采用其提供的私有化部署方案,即将大模型和服务部署在企业内网,与外网隔离。

揭晓告诉笔者,“虽然这种方案能实现100%的安全性,但目前没有采取的原因主要有两个:一是费用较高,二是升级和维护十分繁琐,网络隔绝意味着需要供应商时刻派人进行维护和升级。”

使用工具的人也需转型

对于技术自信的开发者来说,AI编程如同一个无法了解其代码来源及工作原理的“黑箱”,如何推动他们更深入地使用?

迈向AI编程新时代:技术与人才的双重变革

几个月前,微软的高层开始积极推动内部员工更多地采纳AI编程,以期提升软件开发的效率。根据相关消息,微软的多个研发团队已经实施了一些监控工具,以便监测基于Copilot所生成的代码量。

与此同时,微软正在进行一项涉及6000名员工的裁员计划,其中包括一些软件工程师。尽管微软发言人在声明中强调,裁员并非为了用AI取代现有岗位,而是希望通过技术的应用来提升工作效率,然而,显而易见的意图是工程师们必须转型为“人工智能提示工程师”,向AI编程助手发出指令,而不再是传统意义上从零开始编写代码的程序员。

结合最近服务金融行业客户的经验,神州信息新动力数字金融研究院的副院长薛春雨向我分析道:“目前,银行业对科技驱动的态度是积极的,但在实际实施过程中也遇到了一些问题:首先是设计文档的不足,大模型训练所需的上下文信息显然不够;其次是开发人员的接受度,以及银行内部因降本增效而产生的抵触情绪;最后,银行特有的业务场景,例如数据开发与交易开发之间存在显著差异。”

俞超的看法是:“当前(国内)AI编程的整体渗透率尚不够高,绝大多数人未能充分利用这一工具。”根据他的观察,有两类人群对AI编程持消极态度:第一类是那些在行业中工作多年、认为自己代码能力出色的人,他们不愿尝试新工具;另一类则是虽然愿意尝试,但其代码可读性本身就较差,甚至连注释都缺乏,这种情况下,他们未必能有效使用AI。

基于对AI编程未来的乐观预期,俞超表示:“未来,具备良好编程基础、强烈意愿和动手能力的程序员,将在AI编程时代拥有明显的核心竞争力。同时,随着模型能力的发展,未来的开发者可能不再需要具备特别强的编程技能,就能完成一些端到端的开发。”

在美团内部,NoCode工具于去年底上线,产品和设计部门用其进行原型设计,HR和行政团队等非技术人员也开始借助该工具解决工作中遇到的难题,甚至有人在之前毫无编程经验的情况下,通过反复对话构建出完整的系统。

然而,许多人可能会忽略工具平台统一性的问题。揭晓指出:“至少要确保同一部门或公司内部的AI编程工具能够实现统一。”例如,撰写一份培训文档就难以在另一个工具上复现,涉及到自定义Prompt、项目规范、RAG等,维护起来也相当繁琐。

“尽管AI能够生成有效的代码,但这并不意味着这些代码的质量和效果可以满足公司在迭代和维护方面的需求,通常仍需优秀程序员对整体架构进行把关。”揭晓表示。

开发者需对工具充满信心

从现状来看,企业客户对大型模型的热情高涨,但能否真正节省开发人员的时间,以及生成的代码是否可用,仍然是值得关注的问题。

一位开发人员向我透露,在使用AI的过程中,最让他头疼的是AI在进行高层次抽象设计时并不适合,而更擅长处理具体任务。此外,从价值判断的角度来看,很难准确说明AI编程在提高企业研发效率和质量方面的具体贡献,只能说:“在某些场景下,价值显而易见,但与理想状态相比仍有差距。”

随着AI编程的落地速度加快,行业内已经形成了一些共识。通过整理和访谈发现,多数专家提到基础模型能力提升对AI编程工具的重要影响

去年,Cursor开发商Anysphere推出了自研模型Cursor-Fast,OpenAI则计划以30亿美元收购AI编程助手开发商Windsurf,后者随后发布的SWE-1模型被认为旨在提升模型的自主能力和控制成本。

腾讯云开发者产品总经理刘毅在解释其代码助手CodeBuddy时提到,研发效率提升的瓶颈主要有三方面:大模型对人类输入指令的感知不够精准、对复杂工程的理解和处理能力不足,以及软件工程各阶段的协作工具与信息传递依然存在割裂。

在5月底,通义灵码的技术负责人陈鑫(神秀)在交流中指出:“未来AI编程领域将是端到端的竞争,应用、模型和AI基础设施的整体能力将决定其性价比和自主优势。”

俞超也对我表示:“业内普遍达成共识,2027年前将实现完整的端到端自动化。回顾过去两年,AI编程的进步更多源于底层模型能力的提升。随着模型能力的发展,出错的概率将逐渐降低,当前许多技术方案和架构可能会随着技术进步而逐步被淘汰。”

例如,Cognition公司的Devin虽然早期做出了相关产品,但效果未能跟上,主要是由于模型能力不足。当每个阶段的模型窗口、推理能力推理速度未达到标准时,往往需要通过大量工程来解决问题。

俞超判断道:“初期模型能力有限时,可能需要大量工程技术进行优化,但未来随着模型发展和推理能力的提升,应用架构可能会变得更为简化,而不再依赖大量的工程优化来弥补模型的缺陷。”

国产工具逐步崭露头角

如今,AI编程在国际市场已进入激烈竞争阶段:

大模型公司Anthropic在2月推出了自己的AI编程工具Claude Code,随后又在近日突然中断了Windsurf对Claude系列模型的访问。

在Anthropic与Windsurf的竞争之外,Cursor也在积极扩张,其年收入已突破5亿美元,与GitHub Copilot不相上下。

同时,微软试图绕过OpenAI,选择Anthropic的Claude模型,而OpenAI则不希望微软获得Windsurf的知识产权,因而指控其反竞争行为。

与海外市场的激烈竞争相反,国内许多AI编程产品由于生态和产品尚不成熟,竞争关系相对缓和,且商业化方向并不明确。

国内一些领先的云服务商推出了自家的AI编程工具,而AI大模型厂商也推出了微调模型或AI代码工具,部分初创企业则在探索Agent的创新应用

在初创企业中,YouWare引人注目,该公司专注于海外市场并已成功融资2000万美元,投资者涵盖五源资本、真格基金、高瓴资本等,截止去年11月,其估值已达8000万美元。YouWare的创始人明超平是月之暗面前的核心产品负责人。

在一次访谈中,他提到:“Cursor、Windsurf等公司在服务专业程序员方面表现出色,但对于半专业人士的需求仍有很大的开发空间,这些人甚至不会写一行代码,但因需求或创意而渴望进行开发。”

YouWare目前基于Claude 3.7 Sonnet模型,并正在向Claude 4 Sonnet过渡。该公司的核心问题是支撑模型的计算资源成本相当高,每天处理数千个任务,每项任务的平均处理成本为1.5到2美元。

目前看来,国产工具的一个优势在于中美双方在模型和产品上的差距正逐步缩小。

神秀指出:“当前AI编程市场的渗透率正在快速提高。在这一差距逐渐缩小的背景下,国产AI编程工具不仅在数据安全隐私合规方面具备保障,还有极具性价比和IDE生态选择上的优势。”

俞超在对比几款海外AI编程工具后总结道:“除了模型之外,海外产品在两个方面同样值得借鉴:其一是速度,尤其是Cursor的产品迭代速度非常快,甚至一天有好几个版本推出;其二是对产品细节的打磨。”这一点在Cursor身上体现得尤为明显,例如在用户界面和操作流程上,能够让开发者享受到沉浸式编程体验。相比之下,国内产品不仅需要打磨产品,提升模型能力,还需在此基础上培养用户的付费意愿。

就在半个月前,Cursor的CEO Michael Truell在接受Y Combinator访谈时提到,AI编程工具的竞争优势在于用户规模和产品快速迭代。

竞争或许才刚刚开始,但可以肯定的是,AI编程需要首先解决核心技术的工程化难题,才能有机会在市场上占据一席之地。(本文首发于钛媒体APP,作者 | 杨丽,编辑 | 盖虹达,张申宇、张帅对本文亦有贡献。)

AI落地的真相究竟是什么?各方声音纷呈,我们希望听到更多实干者的见解。

如果你是AI编码的使用者、部署者或受害者,我们非常欢迎你分享在一线的感受与体验

如果你有独到的观点,欢迎联系我们,参与讨论,发表看法。

若你的见解足够精彩,我们诚邀你在9月来三亚的数字价值年会上分享你的见解,届时你将有机会与更多实干者交流。

AI编程的真实面貌:硬核测试全零分,AI写代码究竟靠谱吗?

AI编程的真实面貌:硬核测试全零分,AI写代码究竟靠谱吗?

更多精彩内容,敬请关注钛媒体的微信号(ID:taimeiti)或下载钛媒体APP。

来源:百家号
原文标题AI编程“真相”:硬核测试全部0分,AI写代码到底行不行?|深度
声明:
文章来自网络收集后经过ai改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!
广告也精彩
Copyrights:AICAT Posted on 2026-01-31 14:15:17。
Please specify source if reproducedAI编程的真实面貌:硬核测试全零分,AI写代码究竟靠谱吗? | AI工具导航