• 最近访问:
发表于 2025-09-30 14:18:40 股吧网页版
能连续干活超30小时!Claude发起AI编程新一轮竞赛
来源:第一财经 作者:刘晓洁

  2025年最热赛道AI编程又卷起来了。北京时间9月30日,Anthropic 正式发布Claude Sonnet 4.5,官方称其为“世界上最好的编程模型”,同时在智能体构建、计算机使用、推理和数学能力上有显著突破。从各方面评测来看,Claude维持了自身在编程领域的王座地位。

  在不少业内人士看来,Anthropic 此次更新的时间点颇具深意——一周后,OpenAI 将举办年度开发者大会;而前不久,OpenAI 刚刚发布了强化智能体编程能力的 GPT-5-Codex,宣称能独立处理长达7小时的大型复杂任务。

  而这一次,Anthropic 直接将标准拉高:Sonnet 4.5 能够在复杂、多步骤任务中保持超过30小时的持续注意力。

  这一能力也得到了业内的认证,iGent AI的CEO表示,Sonnet 4.5“重新设定了行业期望”,它可以自主处理30多个小时的代码,使工程师在极短的时间内处理数月的复杂架构工作,同时保持大量代码库的一致性。

  从官方的评测来看,Sonnet 4.5在编程、数学等各项评测上超越了GPT-5和谷歌的Gemini2.5 pro。

  在考察真实编程水平的 SWE-bench Verified 测试里,Claude Sonnet 4.5登顶业界第一,比GPT-5-Codex高出7.5个百分点。

  在面向计算机环境的开放式任务基准测试OSWorld上,Sonnet 4.5目前以61.4%的得票率领先,就在4个月前,Sonnet 4还以42.2%的得票率领先。

  此外,针对专业领域,Anthropic表示,Sonnet 4.5在金融、法律、医学和STEM领域的专家发现,与包括Opus 4.1在内的旧模型相比,这一模型显示出更好的领域特定知识和推理能力。

  伴随模型升级,官方还针对产品体验进行了一些升级,包括“检查点”功能,能随时保存进度并一键回退,终端界面翻新,代码执行和文件创建现在直接整合到对话里等等。在官方演示中,Claude可以直接在浏览器中工作,并且导航站点,填写电子表格和完成任务。

  一位AI行业的博主表示,“如果说之前的Claude是给程序员的,那么现在的Claude是给白领的,可以直接编辑office三件套,完成邮件。”虽然现在还达不到生产级,但代码Agent为软件工程做的事情,很快就会扩展到所有知识工作领域,这只是开始。

  本次更新中,一个备受关注的临时预览功能是“Imagine with Claude”。在这个功能里,Claude 会实时生成软件,没有预设的功能,也没有提前写好的代码,用户看到的一切都是 Claude实时互动、响应需求当场创建出来的。这或许是大模型语言操作系统的未来,目前还不成熟,这一功能仅在接下来五天内只对 Max 订阅用户开放。

  模型更新的同时,众多AI编程领域的创业者都出来为Claude“背书”。 Cursor CEO Michael Truell表示看到了Sonnet 4.5 的优秀编码性能,并在长期任务方面取得了显著提升。这进一步印证了众多使用 Cursor 的开发者选择 Claude 来解决最复杂问题的原因。Cognition联创兼CEO Scott Wu也表示, Sonnet 4.5让Devin的规划能力和端到端评估成绩大幅度提升。

  在价格方面, Sonnet 4.5提质不加价,与Sonnet 4保持一致,为3美元/百万输入tokens,15美元/百万输出tokens。但与 Anthropic 自家的上一代旗舰模型 Opus 4.1(输入 15 美元,输出 75 美元)相比,这一成本降低了5倍之多,开发者现在可以用更低的成本,获得一个在多任务上超越旗舰的模型。

  自2023年3月推出以来,Anthropic 就在编程与数学等领域持续领先,也积累了众多客户。在 Cursor 平台上,Claude 仍是最受欢迎的调用模型。

  月初,Anthropic宣布完成 130 亿美元的巨额融资,最新估值来到1830亿美元,一举成为全球估值第四的独角兽。彼时官方透露,2025年8月,其年化收入已超过50亿美元(约合人民币约357亿元),而2025年初这一收入为约10亿美元,八个月内,其商业化能力快速增长。

  今年2月,Anthropic推出了自家AI编程工具Claude Code,并在今年5月宣布全面开放,从研究预览转为正式产品。Anthropic提到,Claude Code三个月时间使用量增长超10倍,产生超5亿美元(约合人民币36亿元)的运营收入。

  然而,Anthropic 目前也面临挑战。过去两个月,用户普遍反映 Claude 模型质量出现“断崖式下滑”,质疑其为控制成本而降低模型性能,甚至引发开发者大规模退订。Anthropic 后续回应称是因独立 Bug 导致,绝非“故意降智”,但这场信任危机至今尚未完全平息。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500