OpenAI最新测试：GPT-5与Claude在部分工作中可媲美人类专家_财经评论(cjpl)股吧

股吧首页 > 财经评论吧 > 正文

最近访问：

财经评论吧

返回财经评论吧>>

- 重要股东股权质押数据全览

东方财富资讯君

发表于 2025-09-26 03:34:30 股吧网页版

OpenAI最新测试：GPT-5与Claude在部分工作中可媲美人类专家

来源：财联社

　　当地时间周四（9月25日），人工智能（AI）研究公司OpenAI发布了一项新的基准测试，用于比较其AI模型与各行业专业人士的工作表现。

　　这项测试名为GDPval，是一次初步尝试，旨在评估OpenAI的系统距离在经济价值工作上超越人类有多近。而经济价值工作是OpenAI开发通用人工智能（AGI）的关键环节。

　　OpenAI周四表示，其GPT-5模型以及竞争对手Anthropic公司的Claude Opus 4.1“已经接近行业专家的工作质量”。

　　这并不意味着OpenAI的模型会立刻取代人类工作。尽管一些CEO预测AI在几年内就会取代人类，但OpenAI承认GDPval目前只涵盖人们实际工作中有限的一部分任务。不过，这是该公司用来衡量AI向这一里程碑迈进的最新方式之一。

　　GDPval基于美国GDP贡献最大的九个行业，包括医疗、金融、制造业和政府等领域。测试覆盖了44种职业，从软件工程师到护士再到记者。

　　在首个版本GDPval-v0中，OpenAI邀请资深专业人士对比AI生成的报告与其他专业人士的成果，并挑选出更优者。

　　例如，某项任务要求投行人员为“最后一公里配送行业”制作竞争格局分析，并与AI生成的报告进行对比。OpenAI随后将AI模型在全部44个职业中对抗人类报告的“胜率”进行平均计算。

　　结果显示，GPT-5-high（高算力版本GPT-5）在40.6%的情况下被评为优于或与行业专家持平。

　　而Anthropic的Claude Opus 4.1模型则在49%的任务中被评为不输于行业专家，这一表现超过了OpenAI的模型。

　　OpenAI对此解释称，之所以Claude得分更高，部分原因是其倾向于生成更美观的图表，而非纯粹性能更优。

　　需要说明的是，大多数职业的工作远不止提交研究报告，而这却是GDPval-v0所测试的全部内容。OpenAI承认这一点，并计划在未来开发更全面的测试，涵盖更多行业和交互式工作流程。

　　尽管如此，OpenAI仍认为GDPval的进展具有重要意义。

　　OpenAI首席经济学家Aaron Chatterji在接受采访时表示，GDPval的测试结果表明，这些岗位上的人们可以利用AI模型节省时间，从而专注于更有意义的工作。

　　“因为模型在某些事情上已经变得很擅长，随着能力的提升，人们可以越来越多地把部分工作交给模型，去做潜在更有价值的事情，”Chatterji说。

　　OpenAI评估负责人Tejal Patwardhan表示，她对GDPval的进步速度感到鼓舞。

　　Patwardhan指出，约15个月前发布的GPT-4o模型得分仅为13.7%（胜出或持平人类），而GPT-5的成绩几乎提高了三倍。她预计这一趋势还会继续。

（文章来源：财联社） [点击查看原文]

郑重声明：用户在财富号/股吧/博客等社区发表的所有信息（包括但不限于文字、视频、音频、数据及图表）仅代表个人观点，与本网站立场无关，不对您构成任何投资建议，据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容，远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息，谨防上当受骗！

评论该主题

帖子不见了！怎么办？

作者：您目前是匿名发表登录 | 5秒注册作者：，欢迎留言退出发表新主题

温馨提示： 1.根据《证券法》规定，禁止编造、传播虚假信息或者误导性信息，扰乱证券市场；2.用户在本社区发表的所有资料、言论等仅代表个人观点，与本网站立场无关，不对您构成任何投资建议。用户应基于自己的独立判断，自行决定证券投资并承担相应风险。《东方财富社区管理规定》