新华财经上海5月24日电(记者高少华)面壁智能23日联合清华大学、OpenBMB开源社区正式发布新端侧模型(BitCPM-CANN)——中国首个完全基于国产算力平台训练并开源的三值(1.58-bit)大模型。
该模型从量化算子、训练算法到全链路框架,均在华为昇腾AI处理器上完成,并以开源形式发布涵盖5亿参数至80亿参数的全套模型版本。这意味着中国大模型研发团队在“算力自主+模型高效”双轮驱动上,首次跑通了世界级低比特(小于2比特)端侧大模型的完整闭环。
作为国内端侧大模型领先企业,面壁智能近年来提出“密度定律”并推动轻量化大模型的全球开源;华为昇腾则提供从芯片到框架的全栈AI算力平台,是中国自主AI算力的核心底座。双方自2024年深度合作以来,持续在端侧大模型、低比特量化训练等领域开展联合创新。
据面壁智能AI基础架构技术负责人、清华大学计算机系高性能所博士后李宇轩介绍,这一成果的快速落地,得益于面壁智能与华为的长期深度协同——从轻量化端侧大模型MiniCPM全面适配到推理深度优化,面壁智能已成为华为在端侧大模型领域重要的技术合作伙伴之一。
作为当前全球低比特领域的开源三值模型,BitCPM-CANN(参数量10亿比特-80亿比特)在同等参数规模下,相对全精度模型的中英双语通用能力保留率高达95%至97%。
今年以来,大模型及很多产业都在经历“内存危机”,行业被迫在“模型能力”和“内存预算”之间做取舍:要么缩小模型、牺牲智能,要么承受高昂的内存成本、限制部署规模。更为关键的是,低比特大模型的核心技术路线和标杆模型此前几乎全部来自国外,国内既缺乏系统性的工程验证,也缺少自主可控的训练底座。
BitCPM-CANN模型的发布将改变这一格局:它在完全国产的华为昇腾平台上,实现了1.58比特极低位宽下接近全精度的能力保留。这一技术价值已经转化为可量产的工程价值,在端侧,BitCPM-CANN相比传统16位脑浮点格式,推理侧可释放约6倍实际显存容量,并有望在未来结合混合专家模型(MoE)和算力卸载/显存卸载(Offloading)等技术,把60比特的大模型装入手机,打破“端侧模型要么太小能力不足、要么太大跑不动”的两难困境。
对华为昇腾而言,这将为其AI芯片在手机、个人计算机、汽车、物联网等海量场景中提供“杀手级应用”;对中国AI产业而言,它开辟了一条不依赖国外高端芯片、用高效模型和自主算力实现端侧智能的新路径。
面壁智能同时表示,将秉承全面开源理念,让开发者、企业、科研机构都能基于BitCPM-CANN模型,零门槛体验国产算力在低位宽场景下的真实性能。BitCPM-CANN模型将有效提升国产算力与国产模型的协同影响力,降低全行业对国外AI软硬件的依赖,构建属于中国自己的低位宽大模型生态高地。未来,面壁智能与华为也将继续携手,让AI能力以更低成本、更低功耗运行在更多终端设备上。