在人工智能训练和推理加速的竞赛中,浮点数(Floating Point)的表示方式正成为关键突破口。
随着DeepSeek-V3.1的发布,算力“破壁人”——深度求索(DeepSeek)在这方面更进一步:继成功训练出世界首个使用FP8(8位浮点数)精度的开源大模型DeepSeek-V3后,在DeepSeek-V3.1中又使用了UE8M0 FP8 Scale的参数精度,并置顶留言“UE8M0 FP8是针对即将发布的下一代国产芯片设计的”。
UE8M0 FP8是什么?下一代国产芯片又是什么?这个充满谜团的声明带火了UE8M0 FP8,也迅速传导至A股资本市场,国产芯片及半导体上市公司股价应声大涨,其中寒武纪(688256.SH)一路高歌猛进,总市值已跃居科创板头名。
《中国经营报》记者注意到,DeepSeek V3/R1、Kimi-K2等主流开源大模型均原生态支持FP8的低精度格式,这代表了低精度量化在未来AI大模型领域中的重要性。
“DeepSeek距离上次的版本发布已经有段时间了,所以这一轮的发布特别受到关注。UE8M0 FP8指的是为中国市场而特别定制的模型格式,此格式对中国的芯片厂商比较友好,基于它们的芯片规格而设置。”行业研究机构Omdia人工智能首席分析师苏廉节告诉记者。
事实上,DeepSeek已经成为一个游戏规则的改变者,改变了大模型竞赛“谁拥有算力谁才能胜出”的游戏规则。
对于DeepSeek针对下一代国产芯片引入UE8M0 FP8 Scale参数精度的意义,摩尔线程方面表示,意义在于“能够充分发挥已量产的国产芯片架构特性,通过国产大模型和国产芯片协同设计优化,实现1+1>2”。
东莞证券在研报中指出,该格式通过更高的灵活度支持复杂模型推理,提升芯片的解码效率与运算能力,为国产芯片适配更大模型提供技术路径,国产AI算力生态有望加速成型。
实现两倍的浮点算力提升
计算机里的小数是用科学计数法表示,只不过不是10的次方,而是2的次方。浮点数则是计算机用于表示小数的核心手段,由符号位(Sign)、指数(Exponent)和尾数(Mantissa)三部分构成。其中,符号位决定正负,指数决定小数点的位置,尾数影响精度。
在AI计算领域,数据精度格式长期被国际巨头所主导。比如眼下被业内推崇的FP8(FP代表浮点数,8代表数据用8bit即8位0、1),是一种较新的数据格式,能显著降低显存占用和计算资源需求,同时保持较高的计算精度。
DeepSeek在开源社区Hugginface放出信息:DeepSeek-V3.1使用UE8M0 FP8缩放数据格式进行训练,以确保与微缩放数据格式兼容。这里所谓“微缩放数据格式”,即业界的Microscaling FP8(MXFP8)标准。这是Open Compute Project在2023年发布的Microscaling(MX)Formats Specification v1.0里定义的8bit微缩块格式。
UE8M0是FP8的一种特殊的数字表示格式。U表示没有符号,E8表示8位指数,M0表示没有尾数。DeepSeek在V3.1模型中提出的UE8M0 FP8,相当于一条别人没走过的路。有观点认为,DeepSeek-V3.1把原本只在硬件/内核实现层面存在的scale表达方式,提升到模型部署和训练标准,并适配国产下一代芯片,需要说明的是,UE8M0 FP8并非DeepSeek独创,但DeepSeek通过DeepGEMM开源库实现了工程化突破,为整个国产生态在大模型中的落地提供了可能。
摩尔线程方面表示,UE8M0是指无符号8位指数的FP8格式,用于对FP8张量数据进行分块缩放,提升表达精度;通过提升FP8张量表达精度,来提升大模型训练推理的精度。
“摩尔线程旗舰AI训推产品MTT S5000是国内首批原生支持FP8并已大规模量产的GPU。”摩尔线程方面表示,其MUSA架构原生支持硬件FP8张量加速计算,能完美支持UE8M0 FP8 Scale,利用硬件原生FP8,相对于传统的FP16计算能够实现两倍的浮点算力提升、访存和通信带宽效率提升和存储容量利用率提升,同时最优化张量表达精度。
苏廉节指出,UE8M0 FP8是特别为中国芯片厂商准备的,尽管它的精度没常规的FP8高,也更依赖于训练、量化、校准等算法补偿和硬件支持。
截至目前,记者了解到,寒武纪、华为昇腾、海光、沐曦、摩尔线程等芯片公司支持FP8。
国产算力生态协同的积极进展
曾几何时,“大模型需大力出奇迹”“精度不能降低,否则模型会崩”的论调左右着行业认知,彼时业内多采用如FP32、FP16或BF16这样的传统浮点格式。
然而,在AI训练和推理方面,高精度格式向低精度格式过渡的趋势已经出现。比如,英伟达开发者论坛上发布的一篇技术博客展示了FP8格式的高效性,它能够在不牺牲性能的情况下将显存占用率减半。
值得一提的是,英伟达多年来也一直用低精度数字表示法提升推理和训练效率,并具有强大的生态推动力,包括DeepSeek使用的FP8和微软使用的FP4,都是由英伟达率先产品化并推向市场。
据壁仞研究院研究人员观察,自OpenAI开源首个原生态支持FP4格式的GPT-OSS系列大模型,AI领域实际上已进入低精度计算时代。
“在AI领域中,特别是大模型场景下,模型普遍对数值精度不敏感,不像HPC领域中需要FP64甚至更高的精度格式。从实践来看,模型的参数量规模远比高精度带来的收益要大,这一点在如今混合专家大模型的时代得到很好的验证,包括目前大部分的主流开源大模型均采用MoE的结构。”壁仞研究院研究人员这样总结。
DeepSeek对UE8M0的调整其实提供了FP8格式的变体,可以进一步降低对计算能力、存储和带宽的需求。有观察人士表示,中国的人工智能产业正在进入一个软硬件紧密合作的新时期。中国芯片公司可以逐步建立自己的FP8生态系统。UE8M0 FP8的设计能“最大限度地利用硬件计算能力”。
“这是国产算力生态协同的积极进展的体现。”清程极智CEO汤雄超表示。
汤雄超还指出,过去,企业大模型落地的一大痛点是“最先进的模型与最难获取的硬件绑定”,目前这个情况已经获得一定程度的改善。
其中一点得益于国产算力芯片、国产开源模型以及国产推理引擎的生态协同。他还提到,中国工程院院士、清华大学教授郑纬民在今年WAIC(世界人工智能大会)上提到,大模型推理引擎是人工智能产业竞争的关键,因为推理引擎是最终决定什么模型能够部署什么芯片的关键一环。
今年年初,清程极智推出的赤兔推理引擎率先实现了国产算力运行FP8原生精度Deepseek-V3模型;而本次最新发布的Deepseek-V3.1模型,赤兔推理引擎也在发布当天实现了昇腾、沐曦、海光等国产算力芯片的适配。
“本次DeepSeek新模型使用UE8M0数据格式有利于充分发挥下一代国产算力芯片的潜能。我们相信随着中国人工智能行业的不断发展,国产芯片+国产引擎+国产模型的生态协同将不断深化,最终让用户第一时间用上部署在国产算力上的国产大模型。”汤雄超表示。