• 最近访问:
发表于 2025-08-30 05:06:40 股吧网页版
DeepSeek的一小步 国产AI芯片生态突围的一大步
来源:中国经营网 作者:李玉洋

  在人工智能训练和推理加速的竞赛中,浮点数(Floating Point)的表示方式正成为关键突破口。

  随着DeepSeek-V3.1的发布,算力“破壁人”——深度求索(DeepSeek)在这方面更进一步:继成功训练出世界首个使用FP8(8位浮点数)精度的开源大模型DeepSeek-V3后,在DeepSeek-V3.1中又使用了UE8M0 FP8 Scale的参数精度,并置顶留言“UE8M0 FP8是针对即将发布的下一代国产芯片设计的”。

  UE8M0 FP8是什么?下一代国产芯片又是什么?这个充满谜团的声明带火了UE8M0 FP8,也迅速传导至A股资本市场,国产芯片及半导体上市公司股价应声大涨,其中寒武纪(688256.SH)一路高歌猛进,总市值已跃居科创板头名。

  《中国经营报》记者注意到,DeepSeek V3/R1、Kimi-K2等主流开源大模型均原生态支持FP8的低精度格式,这代表了低精度量化在未来AI大模型领域中的重要性。

  “DeepSeek距离上次的版本发布已经有段时间了,所以这一轮的发布特别受到关注。UE8M0 FP8指的是为中国市场而特别定制的模型格式,此格式对中国的芯片厂商比较友好,基于它们的芯片规格而设置。”行业研究机构Omdia人工智能首席分析师苏廉节告诉记者。

  事实上,DeepSeek已经成为一个游戏规则的改变者,改变了大模型竞赛“谁拥有算力谁才能胜出”的游戏规则。

  对于DeepSeek针对下一代国产芯片引入UE8M0 FP8 Scale参数精度的意义,摩尔线程方面表示,意义在于“能够充分发挥已量产的国产芯片架构特性,通过国产大模型和国产芯片协同设计优化,实现1+1>2”。

  东莞证券在研报中指出,该格式通过更高的灵活度支持复杂模型推理,提升芯片的解码效率与运算能力,为国产芯片适配更大模型提供技术路径,国产AI算力生态有望加速成型。

  实现两倍的浮点算力提升

  计算机里的小数是用科学计数法表示,只不过不是10的次方,而是2的次方。浮点数则是计算机用于表示小数的核心手段,由符号位(Sign)、指数(Exponent)和尾数(Mantissa)三部分构成。其中,符号位决定正负,指数决定小数点的位置,尾数影响精度。

  在AI计算领域,数据精度格式长期被国际巨头所主导。比如眼下被业内推崇的FP8(FP代表浮点数,8代表数据用8bit即8位0、1),是一种较新的数据格式,能显著降低显存占用和计算资源需求,同时保持较高的计算精度。

  DeepSeek在开源社区Hugginface放出信息:DeepSeek-V3.1使用UE8M0 FP8缩放数据格式进行训练,以确保与微缩放数据格式兼容。这里所谓“微缩放数据格式”,即业界的Microscaling FP8(MXFP8)标准。这是Open Compute Project在2023年发布的Microscaling(MX)Formats Specification v1.0里定义的8bit微缩块格式。

  UE8M0是FP8的一种特殊的数字表示格式。U表示没有符号,E8表示8位指数,M0表示没有尾数。DeepSeek在V3.1模型中提出的UE8M0 FP8,相当于一条别人没走过的路。有观点认为,DeepSeek-V3.1把原本只在硬件/内核实现层面存在的scale表达方式,提升到模型部署和训练标准,并适配国产下一代芯片,需要说明的是,UE8M0 FP8并非DeepSeek独创,但DeepSeek通过DeepGEMM开源库实现了工程化突破,为整个国产生态在大模型中的落地提供了可能。

  摩尔线程方面表示,UE8M0是指无符号8位指数的FP8格式,用于对FP8张量数据进行分块缩放,提升表达精度;通过提升FP8张量表达精度,来提升大模型训练推理的精度。

  “摩尔线程旗舰AI训推产品MTT S5000是国内首批原生支持FP8并已大规模量产的GPU。”摩尔线程方面表示,其MUSA架构原生支持硬件FP8张量加速计算,能完美支持UE8M0 FP8 Scale,利用硬件原生FP8,相对于传统的FP16计算能够实现两倍的浮点算力提升、访存和通信带宽效率提升和存储容量利用率提升,同时最优化张量表达精度。

  苏廉节指出,UE8M0 FP8是特别为中国芯片厂商准备的,尽管它的精度没常规的FP8高,也更依赖于训练、量化、校准等算法补偿和硬件支持。

  截至目前,记者了解到,寒武纪、华为昇腾、海光、沐曦、摩尔线程等芯片公司支持FP8。

  国产算力生态协同的积极进展

  曾几何时,“大模型需大力出奇迹”“精度不能降低,否则模型会崩”的论调左右着行业认知,彼时业内多采用如FP32、FP16或BF16这样的传统浮点格式。

  然而,在AI训练和推理方面,高精度格式向低精度格式过渡的趋势已经出现。比如,英伟达开发者论坛上发布的一篇技术博客展示了FP8格式的高效性,它能够在不牺牲性能的情况下将显存占用率减半。

  值得一提的是,英伟达多年来也一直用低精度数字表示法提升推理和训练效率,并具有强大的生态推动力,包括DeepSeek使用的FP8和微软使用的FP4,都是由英伟达率先产品化并推向市场。

  据壁仞研究院研究人员观察,自OpenAI开源首个原生态支持FP4格式的GPT-OSS系列大模型,AI领域实际上已进入低精度计算时代。

  “在AI领域中,特别是大模型场景下,模型普遍对数值精度不敏感,不像HPC领域中需要FP64甚至更高的精度格式。从实践来看,模型的参数量规模远比高精度带来的收益要大,这一点在如今混合专家大模型的时代得到很好的验证,包括目前大部分的主流开源大模型均采用MoE的结构。”壁仞研究院研究人员这样总结。

  DeepSeek对UE8M0的调整其实提供了FP8格式的变体,可以进一步降低对计算能力、存储和带宽的需求。有观察人士表示,中国的人工智能产业正在进入一个软硬件紧密合作的新时期。中国芯片公司可以逐步建立自己的FP8生态系统。UE8M0 FP8的设计能“最大限度地利用硬件计算能力”。

  “这是国产算力生态协同的积极进展的体现。”清程极智CEO汤雄超表示。

  汤雄超还指出,过去,企业大模型落地的一大痛点是“最先进的模型与最难获取的硬件绑定”,目前这个情况已经获得一定程度的改善。

  其中一点得益于国产算力芯片、国产开源模型以及国产推理引擎的生态协同。他还提到,中国工程院院士、清华大学教授郑纬民在今年WAIC(世界人工智能大会)上提到,大模型推理引擎是人工智能产业竞争的关键,因为推理引擎是最终决定什么模型能够部署什么芯片的关键一环。

  今年年初,清程极智推出的赤兔推理引擎率先实现了国产算力运行FP8原生精度Deepseek-V3模型;而本次最新发布的Deepseek-V3.1模型,赤兔推理引擎也在发布当天实现了昇腾、沐曦、海光等国产算力芯片的适配。

  “本次DeepSeek新模型使用UE8M0数据格式有利于充分发挥下一代国产算力芯片的潜能。我们相信随着中国人工智能行业的不断发展,国产芯片+国产引擎+国产模型的生态协同将不断深化,最终让用户第一时间用上部署在国产算力上的国产大模型。”汤雄超表示。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500