提到编程领域,Claude 的表现无疑让人刮目相看。
刚刚,Anthropic 宣布推出全新的 Claude Sonnet 4.5。
首先要提到的是,Claude Sonnet 4.5 在 SWE-bench Verified 测试中取得了优异成绩,毫无悬念地成为行业中的佼佼者。
更令人惊讶的是,它能够连续工作超过30小时,专注力十足。
不得不说,AI 在取代人类方面又向前迈进了一步。
例如,若让它开发一款类似于 Slack 或 Teams 的聊天工具,它可以一次性生成约 1.1 万行代码。而之前的 Claude Opus 4 和 Codex 最多只能独立工作七小时。
据 Anthropic 的说法,Claude Sonnet 4.5 已经成为全球最强的编程模型,具备了构建复杂智能体、操作计算机、推理和数学等各方面的强大能力。
举例来说,在 OSWorld 的真实计算机任务基准测试中,它的成绩达到了 61.4%,位居第一。值得一提的是,四个月前的 Sonnet 4 仅有42.2%的成绩,几乎在短时间内性能大幅提升。
此外,Anthropic 的 Claude Chrome 插件也可以在浏览器中自主导航、填写表格和处理任务,仿佛真人在进行操作一样。在推理与金融等评测项目中,Claude Sonnet 4.5 的表现也有明显的增强,各项指标均有上升趋势。
凭借强大的技术实力,Anthropic这次不仅仅是发布了一个模型。
具体来说:
- Claude Code增添了“检查点”功能,用户可以随时保存进度并一键恢复到之前的状态。
- 终端界面得到了全面升级,同时推出了原生VS Code插件。
- Claude API新增了上下文编辑工具和记忆功能。
- 代码执行和文件创建现在已直接融入对话中。
更有意思的是,Anthropic还将内部用于构建Claude Code的基础设施开放给公众,命名为Claude Agent SDK。
在长时间的任务中,智能体如何管理记忆、设计权限系统以平衡自主性与用户控制、以及如何让多个子智能体协作完成目标,这些都是构建AI智能体时面临的复杂挑战。
借助Claude Agent SDK,用户可以开始构建自己的产品。
从今天起,开发者可以通过Claude API调用claude-sonnet-4-5。定价与Claude Sonnet 4相同,每百万tokens分别为3美元和15美元,尽管价格保持不变,但能力却得到了显著提升。
网友@vasumanmoza在体验后发帖称:
“Claude 4.5 Sonnet在一次调用中重构了我的整个代码库,进行了25次工具调用,新增了3000多行代码,并生成了12个全新文件。它将一切模块化,拆解了笨重的结构,整洁了杂乱无章的代码。虽然结果完全无法运行,但简直优雅至极。”这样的评价可谓是爱与恨交织。
Cursor表示,在Claude Sonnet 4.5上体验到了最先进的编程性能,尤其在处理长时间任务时效果显著。这也解释了为何众多Cursor用户选择Claude来解决最复杂的问题。
知名测评博主Dan Shipper指出,新版Sonnet 4.5在使用体验上响应速度更快,控制性更强,并且更加稳定。
强大的性能固然重要,但安全性同样不容忽视。
据悉,Claude Sonnet 4.5是Anthropic迄今为止对齐度最高的前沿模型。
得益于Claude在能力提升与安全训练方面的完善,Anthropic在模型行为上取得了显著进展,减少了谄媚、欺骗、权力追求和鼓励妄想等不当行为。同时,Anthropic在防御提示注入攻击和降低内容误判方面也取得了重要突破。
我特别感兴趣的是,Anthropic在Claude Sonnet 4.5发布之际推出了一个临时研究预览功能,名为“Imagine with Claude”。
在这一功能中,Claude实时生成软件,所有功能和代码均为即时创造,没有任何预设。用户所见的每一项都是Claude在互动过程中即时生成和调整的。
不过,“Imagine with Claude”将在接下来的五天内仅对Max订阅用户开放。
附上传送门:claude.ai/imagine。
毫无疑问,今年的AI领域依然是编程竞争的热潮。
目前,Anthropic的估值已达到1830亿美元,8月份实现了年化营收50亿美元,但其中相当一部分增长得益于编程软件的普及。问题在于,竞争对手OpenAI和Google Gemini也在全力推出类似工具,争夺程序员用户。
更有甚者,一周后将举行OpenAI年度开发者大会,Anthropic此时抢先发布Claude Sonnet 4.5,时间把控得相当精准,显然是要给对手施加压力。
此外,Anthropic的联合创始人兼首席科学官Jared Kaplan表示,预计更先进的Opus模型将在今年晚些时候推出:“Anthropic在小型和大型模型的应用上均具备优势。”
然而,值得一提的是,Anthropic目前也面临一些挑战。
在过去两个月中,Claude系列模型经历了一次“降智”风波,用户普遍反映模型在推理、代码、格式和工具调用质量上出现了显著下滑,甚至连付费的Max用户也未能幸免。
Anthropic的挑战与Claude Sonnet 4.5的全新发布
尽管Anthropic迅速撤回了Opus 4.1的更新,并承认了两个独立的错误,声明“绝非出于节省成本而故意降低智能”,但因未能提供任何形式的补偿或退款,GitHub和X平台上仍然出现了大量用户退订的情况,许多人选择了转向Codex。
显然,Claude Sonnet 4.5的推出,显示出Anthropic希望通过实质性的性能提升来挽回失去的用户。至于这次努力是否能取得成效,未来几周的实际表现将是关键。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),我们将为您第一时间送上更多精彩内容。
爱范儿|原文链接· ·新浪微博
Please specify source if reproduced全新发布的Claude 4.5:挑战极限,AI持续作战30小时! | AI工具导航





