“P800已经在百度内部得到了充分验证,我们现在绝大多数的推理任务跑在P800上。”11月13日的百度世界大会上,百度集团执行副总裁、百度智能云事业群总裁沈抖披露了百度自研芯片在公司内部的应用情况,并称未来5年昆仑芯每年都会推出新产品。
P800是百度自研芯片业务昆仑芯的第三代芯片。今年9月,市场有传闻称百度已开始使用自主设计的芯片P800训练新版文心一言(Ernie)AI 模型。在该消息刺激下,百度股价大涨超10%,创下2024年10月以来新高。但当时百度并未回应。
除了推理任务,沈抖今日还透露自研芯片在模型训练方面的进展。他表示,百度已经基于一个P800的5000卡单一集群,高性价比地训练出了一个多模态模型;现在训练集群已经扩展到万卡以上,并且正在训练更大的模型。
不只百度内部,昆仑芯也在互联网金融、能源制造、交通和教育等行业落地。沈抖介绍,昆仑芯已有包括招商银行、南方电网、吉利汽车、Vivo,以及一家互联网大厂和一家超头部运营商等上百家客户,交付规模从几十卡到万卡以上。
百度自研芯片最早追溯到2011年,当时主要是为了深度学习运算的需要。直到2021年,昆仑芯业务独立为“昆仑芯(北京)科技有限公司”,并完成融资。该公司最新一轮融资于今年7月完成,投资方包括上河动量基金、山证投资、国新资本等,天眼查显示百度持股比例为59.45%。
在应用方面,今年上半年,百度曾透露成功点亮国内自研P800万卡集群,可同时承载多个千亿参数大模型训练。8月时,基于昆仑芯的AI服务产品中标中国移动十亿级集采项目,为其提供AI通用计算推理型设备,这也是国产AI芯片在大型基础设施项目中的一次突破。
百度今日透露了下一代自研芯片的时间表。其中,昆仑芯M100 针对大规模推理场景优化设计,将于2026年上市;昆仑芯M300面向超大规模多模态模型的训练和推理需求,将于2027年上市。
单颗芯片的强大只是一个技术条件,现在大模型的训练和推理都是多颗芯片协同工作,尤其在目前流行的MoE架构下,卡和卡之间的通信量会急剧增加,需要把几十张几百张卡组成一个超节点,让这些卡像一个超级芯片一样紧密连接在一起,大幅度提高卡间的通讯。但“超节点”方案考验AI infra厂商在芯片、内存、通信、供电、冷却上的全栈协同能力。
今日百度还发布了基于昆仑芯P800的天池256超节点与天池512超节点,二者将分别在明年上半年和下半年正式上市。其中对比同等卡数的P800集群,天池256超节点在主流大模型的推理任务上,单卡吞吐提升超过3.5倍;单个天池512超节点能够完成万亿参数模型训练。
此外,据记者了解,基于百度新发布的昆仑芯M系列,百度也在研发千卡级别的超节点。从2027年开始,百度还将陆续推出相应的千卡和4000卡的超节点。截至记者发稿,今日百度港股股价涨超1.27%至127.8港元。