4月2日,智谱发布面向视觉编程打造的原生多模态Coding基座模型——GLM-5V-Turbo。这标志着大模型Coding正式进入"视觉原生"时代。
目前,GLM-5V-Turbo已通过智谱MaaS平台开放接入。据了解,该模型最大突破在于深度融合视觉与编程能力,能够原生处理文本、图片、视频等多模态信息,同时擅长编程、长程规划、操作执行等复杂任务。
这背后,智谱在模型架构、训练方法、数据构造、工具链四个层面进行了系统性升级。其中,在模型架构层面,智谱研发了新一代CogViT视觉编码器,在通用物体识别、细粒度理解、几何与空间感知上均达最优,也设计了兼容多模态输入且推理友好的MTP结构,在多模态场景下实现了较高的推理效率。
因此,GLM-5V-Turbo在多模态Coding、Agent等核心基准上均取得领先表现,引入视觉能力的同时,纯文本编程与推理能力保持了同等水准。
在AutoClaw等龙虾Agent中接入GLM-5V-Turbo后,龙虾具备了真正的视觉能力,能看懂屏幕上的信息。模型在衡量龙虾Agent任务执行质量的PinchBench、ClawEval和ZClawBench上取得优异成绩,验证了其在复杂任务执行场景中的综合能力。
近日,智谱发布了2025年全年业绩,其全年收入超7.24亿元,同比增长132%,是国内收入规模最大的大模型公司;全年综合毛利率41%,远超行业水准。截至2026年3月,智谱的平台注册企业及用户突破400万,服务全球超过218个国家及地区。
2025年,智谱完成从氛围编程(Vibe Coding)到智能体工程(Agentic Engineering)的行业范式跨越。陆续发布GLM-4.5、4.6、4.7到GLM-5、5-Turbo等新模型,并取得了较好的反响。
智谱CEO张鹏指出,智能上界的提升,是大模型AGI时代唯一的"第一性"。并表示,2026公司将进一步探索智能上界的突破,引领范式创新以及作为底座持续输出高质量Token。