近日,DeepSeek正式发布了DeepSeek-V3.1,引发了业内关注。
DeepSeek方面称,本次升级包含以下主要变化:混合推理架构让一个模型同时支持思考模式与非思考模式;相比DeepSeek-R1-0528,DeepSeek-V3.1-Think能在更短时间内给出答案,让模型拥有更高的思考效率;通过Post-Training优化,让新模型有更强的Agent能力,在工具使用与智能体任务中的表现有较大提升。
据悉,官方App与网页端模型已同步升级为DeepSeek-V3.1。用户可以通过“深度思考”按钮,实现思考模式与非思考模式的自由切换。
就此,速途研究院院长丁道师告诉《中国经营报》记者,这次版本的升级,性能更强大了,更好用了。但核心还不是这些升级,而是针对国产芯片的优化,这个才是重中之重。
性能升级
DeepSeek API也已同步升级,DeepSeek-chat对应非思考模式,DeepSeek-reasoner对应思考模式,且上下文均已扩展为128K。同时,API Beta接口支持了strict模式的Function Calling,以确保输出的Function满足schema定义。
另外,新版本增加了对Anthropic API格式的支持,可以轻松将DeepSeek-V3.1的能力接入Claude Code框架。
爱分析首席李喆告诉,360集团创始人周鸿祎对此表示,DeepSeek官网流量下降是因为DeepSeek没有花心思,但现在很多第三方云服务上都有DeepSeek的服务,用了DeepSeek的大模型流量一直很高。在中国,许多公司包括360智能体的基座模型等都使用DeepSeek来改,相当于很多公司的“武器装备”都是DeepSeek提供的。
比如,Kimi K2就用了MOE架构,总参数1T,激活参数32B。另外,阿里巴巴通义千问发布新版Qwen3系列模型,包括2个MoE模型和6个dense模型,参数量从0.6B到235B。