• 最近访问:
发表于 2025-07-29 22:53:51 股吧网页版
浪潮存储发布国内首款推理加速存储AS3000G7
来源:上海证券报·中国证券网

  上证报中国证券网讯(记者李雁争)近日,浪潮存储营销总监张业兴在2025(第二届)产融合作大会上发表主题演讲,并发布国内首款推理加速存储AS3000G7。该产品以“以存代算”技术创新,破解KV Cache重复计算导致的算力与时延难题,加速大模型在金融、科研等领域规模化落地。

  当前,大模型应用已渗透到千行百业,推动产业效能跃升与社会智能化升级。随着技术发展,行业关注点从模型训练转向推理。IDC数据显示,未来5年智能算力规模将增1.7倍,推理工作负载占比将从2023年的40%升至2027年的70%以上,推理成大模型应用焦点。

  然而,大模型推理依赖昂贵的GPU服务器,其利用率直接决定大模型落地速度。推理效率面临吞吐量(Tokens/s)和时延两大瓶颈:吞吐量反映单位时间处理能力,数值越高成本越低;时延影响用户体验,其中首字时延(TTFT)是长文本交互核心指标。

  大模型推理分预填充(Prefilling)和解码(Decode)两阶段。预填充阶段生成的KV Cache缓存于GPU显存,为解码阶段提供支撑。但超76%的多轮对话会产生大量KV Cache,受GPU显存容量限制,这些缓存常被丢弃,下轮对话需重新计算,导致时延增加、吞吐量下降。

  AS3000G7通过创新架构将KV Cache缓存至存储层,实现“以存代算”,具备四大优势:TTFT降低90%,大幅提升响应速度;同等时延下吞吐量提升5倍,支撑更多并发请求;单Token功耗下降60%,降低整机能耗;兼容多平台与主流大模型,优化推理体验。

  根据某头部客户测试数据,1台GPU服务器搭配AS3000G7,可稳定支撑500+并发对话,TTFT降90%,吞吐量提升5倍,单token功耗降70%,单位算力成本降60%。

  AS3000G7的推出,突破了KV Cache重计算瓶颈,为AI规模化应用奠定存储基础。未来,“以存代算”有望成为降本增效的核心竞争力,为智能时代推理存储树立新基准。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500