• 最近访问:
发表于 2025-09-29 21:03:11 股吧网页版
DeepSeek,新版本
来源:中国证券报

  9月29日,DeepSeek发布DeepSeek-V3.2-Exp模型版本。据介绍,这是一个实验性(Experimental)版本,在此前版本V3.1-Terminus的基础上引入DeepSeek Sparse Attention(一种稀疏注意力机制),针对长文本的训练和推理效率进行探索性的优化和验证。目前,DeepSeek的App、网页端、小程序均已同步更新为DeepSeek-V3.2-Exp。同时,得益于新模型服务成本的大幅降低,API价格也相应下调。在新的价格政策下,开发者调用DeepSeek API的成本将降低50%以上。

  记者注意到,9月29日晚,寒武纪在“寒武纪开发者”公众号发文称,公司已同步实现对深度求索公司最新模型DeepSeek-V3.2-Exp的适配,并开源大模型推理引擎vLLM-MLU源代码。开发者可以在寒武纪软硬件平台上第一时间体验DeepSeek-V3.2-Exp的亮点。

  寒武纪表示,公司一直高度重视大模型软件生态建设,支持以DeepSeek为代表的所有主流开源大模型。借助于长期活跃的生态建设和技术积累,寒武纪得以快速实现对DeepSeek-V3.2-Exp这一全新实验性模型架构的day 0适配和优化。此前,公司对DeepSeek系列模型进行深入的软硬件协同性能优化,达成了业界领先的算力利用率水平。针对本次的DeepSeek-V3.2-Exp新模型架构,寒武纪通过Triton算子开发实现快速适配,利用BangC融合算子开发实现极致性能优化,并基于计算与通信的并行策略,再次达成业界领先的计算效率水平。

  “华为计算”公众号发文称,昇腾已快速基于vLLM/SGLang等推理框架完成适配部署,实现DeepSeek-V3.2-Exp 0day支持,并面向开发者开源所有推理代码和算子实现。华为昇腾在DeepSeek-V3.2-Exp一发布开源即实现DeepSeek-V3.2-Exp BF16模型部署,并在CANN平台上完成对应的优化适配,整体部署策略沿用DeepSeek的大EP并行方案,针对稀疏DSA结构,叠加实现长序列亲和的CP并行策略,兼顾时延和吞吐,在128K长序列下能够保持TTFT低于2秒、TPOT低于30毫秒的推理生成速度。

  近日,DeepSeek持续推进模型迭代。8月21日,DeepSeek宣布发布DeepSeek-V3.1。一个月后,9月22日,DeepSeek宣布DeepSeek-V3.1已更新至DeepSeek-V3.1-Terminus版本,在保持模型原有能力的基础上,针对用户反馈的问题进行改进,包括语言一致性方面,缓解了中英文混杂、偶发异常字符等情况。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500