DeepSeek的一小步国产AI芯片生态突围的一大步_财经评论(cjpl)股吧

股吧首页 > 财经评论吧 > 正文

最近访问：

财经评论吧

返回财经评论吧>>

- 重要股东股权质押数据全览

东方财富资讯君

发表于 2025-08-30 05:06:40 股吧网页版

DeepSeek的一小步国产AI芯片生态突围的一大步

来源：中国经营网作者：李玉洋

　　在人工智能训练和推理加速的竞赛中，浮点数（Floating Point）的表示方式正成为关键突破口。

　　随着DeepSeek-V3.1的发布，算力“破壁人”——深度求索（DeepSeek）在这方面更进一步：继成功训练出世界首个使用FP8（8位浮点数）精度的开源大模型DeepSeek-V3后，在DeepSeek-V3.1中又使用了UE8M0 FP8 Scale的参数精度，并置顶留言“UE8M0 FP8是针对即将发布的下一代国产芯片设计的”。

　　UE8M0 FP8是什么？下一代国产芯片又是什么？这个充满谜团的声明带火了UE8M0 FP8，也迅速传导至A股资本市场，国产芯片及半导体上市公司股价应声大涨，其中寒武纪（688256.SH）一路高歌猛进，总市值已跃居科创板头名。

　　《中国经营报》记者注意到，DeepSeek V3/R1、Kimi-K2等主流开源大模型均原生态支持FP8的低精度格式，这代表了低精度量化在未来AI大模型领域中的重要性。

　　“DeepSeek距离上次的版本发布已经有段时间了，所以这一轮的发布特别受到关注。UE8M0 FP8指的是为中国市场而特别定制的模型格式，此格式对中国的芯片厂商比较友好，基于它们的芯片规格而设置。”行业研究机构Omdia人工智能首席分析师苏廉节告诉记者。

　　事实上，DeepSeek已经成为一个游戏规则的改变者，改变了大模型竞赛“谁拥有算力谁才能胜出”的游戏规则。

　　对于DeepSeek针对下一代国产芯片引入UE8M0 FP8 Scale参数精度的意义，摩尔线程方面表示，意义在于“能够充分发挥已量产的国产芯片架构特性，通过国产大模型和国产芯片协同设计优化，实现1+1>2”。

　　东莞证券在研报中指出，该格式通过更高的灵活度支持复杂模型推理，提升芯片的解码效率与运算能力，为国产芯片适配更大模型提供技术路径，国产AI算力生态有望加速成型。

　　实现两倍的浮点算力提升

　　计算机里的小数是用科学计数法表示，只不过不是10的次方，而是2的次方。浮点数则是计算机用于表示小数的核心手段，由符号位（Sign）、指数（Exponent）和尾数（Mantissa）三部分构成。其中，符号位决定正负，指数决定小数点的位置，尾数影响精度。

　　在AI计算领域，数据精度格式长期被国际巨头所主导。比如眼下被业内推崇的FP8（FP代表浮点数，8代表数据用8bit即8位0、1），是一种较新的数据格式，能显著降低显存占用和计算资源需求，同时保持较高的计算精度。

　　DeepSeek在开源社区Hugginface放出信息：DeepSeek-V3.1使用UE8M0 FP8缩放数据格式进行训练，以确保与微缩放数据格式兼容。这里所谓“微缩放数据格式”，即业界的Microscaling FP8（MXFP8）标准。这是Open Compute Project在2023年发布的Microscaling（MX）Formats Specification v1.0里定义的8bit微缩块格式。

　　UE8M0是FP8的一种特殊的数字表示格式。U表示没有符号，E8表示8位指数，M0表示没有尾数。DeepSeek在V3.1模型中提出的UE8M0 FP8，相当于一条别人没走过的路。有观点认为，DeepSeek-V3.1把原本只在硬件/内核实现层面存在的scale表达方式，提升到模型部署和训练标准，并适配国产下一代芯片，需要说明的是，UE8M0 FP8并非DeepSeek独创，但DeepSeek通过DeepGEMM开源库实现了工程化突破，为整个国产生态在大模型中的落地提供了可能。

　　摩尔线程方面表示，UE8M0是指无符号8位指数的FP8格式，用于对FP8张量数据进行分块缩放，提升表达精度；通过提升FP8张量表达精度，来提升大模型训练推理的精度。

　　“摩尔线程旗舰AI训推产品MTT S5000是国内首批原生支持FP8并已大规模量产的GPU。”摩尔线程方面表示，其MUSA架构原生支持硬件FP8张量加速计算，能完美支持UE8M0 FP8 Scale，利用硬件原生FP8，相对于传统的FP16计算能够实现两倍的浮点算力提升、访存和通信带宽效率提升和存储容量利用率提升，同时最优化张量表达精度。

　　苏廉节指出，UE8M0 FP8是特别为中国芯片厂商准备的，尽管它的精度没常规的FP8高，也更依赖于训练、量化、校准等算法补偿和硬件支持。

　　截至目前，记者了解到，寒武纪、华为昇腾、海光、沐曦、摩尔线程等芯片公司支持FP8。

　　国产算力生态协同的积极进展

　　曾几何时，“大模型需大力出奇迹”“精度不能降低，否则模型会崩”的论调左右着行业认知，彼时业内多采用如FP32、FP16或BF16这样的传统浮点格式。

　　然而，在AI训练和推理方面，高精度格式向低精度格式过渡的趋势已经出现。比如，英伟达开发者论坛上发布的一篇技术博客展示了FP8格式的高效性，它能够在不牺牲性能的情况下将显存占用率减半。

　　值得一提的是，英伟达多年来也一直用低精度数字表示法提升推理和训练效率，并具有强大的生态推动力，包括DeepSeek使用的FP8和微软使用的FP4，都是由英伟达率先产品化并推向市场。

　　据壁仞研究院研究人员观察，自OpenAI开源首个原生态支持FP4格式的GPT-OSS系列大模型，AI领域实际上已进入低精度计算时代。

　　“在AI领域中，特别是大模型场景下，模型普遍对数值精度不敏感，不像HPC领域中需要FP64甚至更高的精度格式。从实践来看，模型的参数量规模远比高精度带来的收益要大，这一点在如今混合专家大模型的时代得到很好的验证，包括目前大部分的主流开源大模型均采用MoE的结构。”壁仞研究院研究人员这样总结。

　　DeepSeek对UE8M0的调整其实提供了FP8格式的变体，可以进一步降低对计算能力、存储和带宽的需求。有观察人士表示，中国的人工智能产业正在进入一个软硬件紧密合作的新时期。中国芯片公司可以逐步建立自己的FP8生态系统。UE8M0 FP8的设计能“最大限度地利用硬件计算能力”。

　　“这是国产算力生态协同的积极进展的体现。”清程极智CEO汤雄超表示。

　　汤雄超还指出，过去，企业大模型落地的一大痛点是“最先进的模型与最难获取的硬件绑定”，目前这个情况已经获得一定程度的改善。

　　其中一点得益于国产算力芯片、国产开源模型以及国产推理引擎的生态协同。他还提到，中国工程院院士、清华大学教授郑纬民在今年WAIC（世界人工智能大会）上提到，大模型推理引擎是人工智能产业竞争的关键，因为推理引擎是最终决定什么模型能够部署什么芯片的关键一环。

　　今年年初，清程极智推出的赤兔推理引擎率先实现了国产算力运行FP8原生精度Deepseek-V3模型；而本次最新发布的Deepseek-V3.1模型，赤兔推理引擎也在发布当天实现了昇腾、沐曦、海光等国产算力芯片的适配。

　　“本次DeepSeek新模型使用UE8M0数据格式有利于充分发挥下一代国产算力芯片的潜能。我们相信随着中国人工智能行业的不断发展，国产芯片+国产引擎+国产模型的生态协同将不断深化，最终让用户第一时间用上部署在国产算力上的国产大模型。”汤雄超表示。

（文章来源：中国经营网） [点击查看原文]

郑重声明：用户在财富号/股吧/博客等社区发表的所有信息（包括但不限于文字、视频、音频、数据及图表）仅代表个人观点，与本网站立场无关，不对您构成任何投资建议，据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容，远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息，谨防上当受骗！

评论该主题

帖子不见了！怎么办？

作者：您目前是匿名发表登录 | 5秒注册作者：，欢迎留言退出发表新主题

温馨提示： 1.根据《证券法》规定，禁止编造、传播虚假信息或者误导性信息，扰乱证券市场；2.用户在本社区发表的所有资料、言论等仅代表个人观点，与本网站立场无关，不对您构成任何投资建议。用户应基于自己的独立判断，自行决定证券投资并承担相应风险。《东方财富社区管理规定》