上证报中国证券网讯(记者李雁争)近日,浪潮存储营销总监张业兴在2025(第二届)产融合作大会上发表主题演讲,并发布国内首款推理加速存储AS3000G7。该产品以“以存代算”技术创新,破解KV Cache重复计算导致的算力与时延难题,加速大模型在金融、科研等领域规模化落地。

当前,大模型应用已渗透到千行百业,推动产业效能跃升与社会智能化升级。随着技术发展,行业关注点从模型训练转向推理。IDC数据显示,未来5年智能算力规模将增1.7倍,推理工作负载占比将从2023年的40%升至2027年的70%以上,推理成大模型应用焦点。
然而,大模型推理依赖昂贵的GPU服务器,其利用率直接决定大模型落地速度。推理效率面临吞吐量(Tokens/s)和时延两大瓶颈:吞吐量反映单位时间处理能力,数值越高成本越低;时延影响用户体验,其中首字时延(TTFT)是长文本交互核心指标。
大模型推理分预填充(Prefilling)和解码(Decode)两阶段。预填充阶段生成的KV Cache缓存于GPU显存,为解码阶段提供支撑。但超76%的多轮对话会产生大量KV Cache,受GPU显存容量限制,这些缓存常被丢弃,下轮对话需重新计算,导致时延增加、吞吐量下降。
AS3000G7通过创新架构将KV Cache缓存至存储层,实现“以存代算”,具备四大优势:TTFT降低90%,大幅提升响应速度;同等时延下吞吐量提升5倍,支撑更多并发请求;单Token功耗下降60%,降低整机能耗;兼容多平台与主流大模型,优化推理体验。
根据某头部客户测试数据,1台GPU服务器搭配AS3000G7,可稳定支撑500+并发对话,TTFT降90%,吞吐量提升5倍,单token功耗降70%,单位算力成本降60%。
AS3000G7的推出,突破了KV Cache重计算瓶颈,为AI规模化应用奠定存储基础。未来,“以存代算”有望成为降本增效的核心竞争力,为智能时代推理存储树立新基准。