降低传统路径依赖，华为推出AI推理新技术_财经评论(cjpl)股吧

股吧首页 > 财经评论吧 > 正文

最近访问：

财经评论吧

返回财经评论吧>>

- 重要股东股权质押数据全览

东方财富资讯君

发表于 2025-08-12 21:54:10 股吧网页版

降低传统路径依赖，华为推出AI推理新技术

来源：第一财经作者：李娜

　　8月12日，华为在一场会议中对外推出AI推理新技术UCM（推理记忆数据管理器，Unified Cache Manager），这是一款以KV Cache和记忆管理为中心的推理加速套件，通过推理框架、算力、存储三层协同，优化Tokens在各业务环节中流转的效率，以降低每Token的推理成本。

　　华为公司副总裁、数据存储产品线总裁周跃峰在演讲中表示，AI时代，模型训练、推理效率与体验的量纲都以Token数为表征，Token经济已经到来。“但在一定时间内推理的Token数上，中国头部互联网公司与海外头部互联网公司仍有差距。”

　　根据华为会上公布的数据，国外主流模型的单用户输出速度已进入200 Tokens/s区间（时延5ms），而我国普遍小于60Tokens/s（时延50 - 100ms），因此，如何解决推理效率与用户体验的难题迫在眉睫。目前，包括华为在内，各大科技企业都会在调度KV Cache基础上，研发优化推理过程的技术。

　　以高带宽内存（HBM）为例，在AI推理进程中，本应是数据顺畅流转的 “高速通道”，但现实是资源常常紧缺。一旦HBM资源不足，AI推理便会出现任务卡顿、响应迟缓等问题。UCM的研发方向主要在于不再单纯依赖HBM这一 “独木桥”，而是在存储层面构建起一个多层级、可灵活调配的资源体系，使得推理过程中的数据能够在不同存储介质间合理流动，充分利用各级存储的优势。

　　根据华为的测试验证，UCM可将首Token时延最高降低90%，系统吞吐最大提升22倍，实现10倍级上下文窗口扩展。

　　但从技术上看，尽管国内厂商在AI推理的硬件层面，如算力芯片等方面取得了一定进展，但在以KV Cache为核心的软件体系构建上，尚未形成完整、成熟且具有广泛适用性的解决方案。而在国外，已经有一些较为成熟的基于KV Cache的推理加速软件框架与工具，能够很好地与各类硬件平台适配。

　　华为在会上表示，希望联合产业界的力量，推进以记忆数据管理为中心的AI推理生态。

　　“目前业界缺乏一套在各种场景下都能普适适用的框架、加速机制与算法，我们希望通过将部分成果开放，促进框架厂商、存储厂商以及GPU厂商共同加速这一框架机制的成熟，最终解决当前AI行业落地过程中的效率与成本问题。”华为数据存储产品线AI存储首席架构师李国杰表示，华为计划在今年9月正式开源UCM。

　　中国信息通信研究院人工智能研究所平台与工程化部主任曹峰表示，“系统级的推理架构优化已经形成主流，但不是单点技术的突破，我们要从整个芯片级的、软件级的，再到上层的框架级的进行协同考虑，形成整个推理架构，这也是未来产业的发展重点。”

（文章来源：第一财经） [点击查看原文]

郑重声明：用户在财富号/股吧/博客等社区发表的所有信息（包括但不限于文字、视频、音频、数据及图表）仅代表个人观点，与本网站立场无关，不对您构成任何投资建议，据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容，远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息，谨防上当受骗！

评论该主题

帖子不见了！怎么办？

作者：您目前是匿名发表登录 | 5秒注册作者：，欢迎留言退出发表新主题

温馨提示： 1.根据《证券法》规定，禁止编造、传播虚假信息或者误导性信息，扰乱证券市场；2.用户在本社区发表的所有资料、言论等仅代表个人观点，与本网站立场无关，不对您构成任何投资建议。用户应基于自己的独立判断，自行决定证券投资并承担相应风险。《东方财富社区管理规定》