21世纪经济报道记者陈归辞
近日,斯坦福大学人类中心人工智能研究所发布2026年AI指数报告(下称“报告”),对全球AI技术的发展及影响进行了全面评估,涉及AI能力发展、中美竞争格局、AI投资、能耗、劳动力冲击、权力与黑箱等众多议题。
报告指出,人工智能能力的发展速度已超越用于衡量它的基准测试水平,并正在超越人类表现。在专为考验 AI、更利于人类专家而设计的“人类终极测试”(Humanity's Last Exam)基准上,前沿模型仅用一年时间就将得分提升了 30 个百分点。原本预计数年都具备挑战性的评估任务,短短数月便被 AI攻克,大幅压缩了基准测试用于追踪技术进展的有效周期。
报告也指出,前沿模型在博士级科学问题、多模态推理、竞赛数学等项目上,已经达到或超越人类水平。一些过去表现不佳的领域也取得了巨大进步。例如,根据Terminal-Bench的评估,AI智能体处理现实世界任务的成功率已从2025年的20%提升至如今的77.3%;而在网络安全领域,AI智能体解决问题的成功率为93%,2024年仅为15%。
在其他任务上,AI仍落后于人类,包括从视频中学习、生成连贯逼真的视频、报时、多步骤规划、财务分析,以及回答某些专家级别的学术考试题目。机器人在处理家务方面还有很长的路要走——在折叠衣物、洗碗等真实家务任务中,它们的成功率仅为12%。
与此同时,开源与闭源模型之间的性能差距在2024年短暂收窄后,在2025年再度拉大。截至2026年3月,顶尖闭源模型领先顶尖开源模型3.3%,而这一差距在2024年8月曾一度缩小至 0.5%。目前,Arena Leaderboard前十名中,有六个是闭源模型。
报告指出,中美AI模型性能差距已趋于抹平。自2025年初以来,中美模型在性能排行榜首位多次易主。2025年2月,DeepSeek-R1曾短暂追平美国的顶尖模型。截至2026年3月,美国Anthropic的顶尖模型仅领先2.7%;过去一年中,这一差距在过去一年间持续波动。美国在顶尖AI模型产出和高影响力专利方面仍保持领先地位;而中国则在论文发表总量、引用量、专利申请总数以及工业机器人安装量上居于领先。

中美顶尖模型在竞技场测评中的表现,图源:斯坦福2026年AI指数报告
与此同时,值得重视的是,报告显示,AI对于劳动力市场的冲击已经开始显现,呈现不均匀特征。
报告指出,AI带来的生产力提升的许多领域,正同时是那些初级岗位就业开始收缩的领域。在美国,AI生产力提升最显著的软件开发领域,22至25岁的开发人员就业人数较 2024年下降了近20%,而与此同时,资深开发人员的人数却在持续增长。这种模式在其他AI暴露程度较高的职业(如客户服务)中也在上演。

2021–2025 年软件开发人员与客服岗位按年龄组划分的标准化用工趋势,图源:斯坦福2026年AI指数报告
企业层面调研数据显示,三分之一的机构预计AI将在未来一年缩减其员工规模,尽管目前整体就业数据尚未出现大规模的失业潮。近半数受访机构预计用工情况基本不会发生变化。服务运营、供应链和软件工程是预期减员比例最高的领域。根据麦肯锡的调研,几乎在所有职能部门中,企业预期的岗位缩减规模,均将高于过去一年已出现的减员幅度。

由 AI 导致的各职能部门员工规模过去一年的实际变化 vs.未来一年的预期变化,图源:斯坦福2026年AI指数报告
还值得重视的是,报告指出,当今性能最强的前沿AI模型,透明度反而处于最低之列。超大规模的顶尖模型高度集中在头部 AI 企业手中,而这些企业对训练代码、数据集规模、模型参数等核心信息愈发保密。
基础模型透明度指数(The Foundation Model Transparency Index)评估了主流 AI 企业在模型训练数据、算力、性能、风险及使用政策等方面的信息公开程度,该指数的平均分从去年的58分降至40分。该指数发现,性能最强的模型,披露的信息往往最少。

2025年基础模型透明度指数各核心维度得分,图源:斯坦福2026年AI指数报告