阿里开源视觉理解模型Qwen3-VL Agent和空间感知能力大幅增强
来源:上海证券报·中国证券网
上证报中国证券网讯(记者杨翔菲)在9月24日举行的2025云栖大会上,阿里开源新一代视觉理解模型Qwen3-VL。该模型在视觉感知和多模态推理方面实现重大突破,在32项核心能力测评中超过Gemini2.5-Pro和GPT-5。同时,Qwen3-VL大幅提升了视觉Agent、视觉编程和空间感知等关键能力,不但可调用抠图、搜索等工具完成“带图推理”,也可以凭借一张设计草图或一段小游戏视频直接“视觉编程”,所见即所得地复刻图表、网页和复杂程序。
Qwen3-VL可支持扩展百万tokens上下文,视频理解时长扩展到2小时以上。这意味着,无论是几百页的技术文档、整本教材,还是长达数小时的会议录像或教学视频,都能完整输入、全程记忆、精准检索。Qwen3-VL还能根据时间戳精确定位“什么时候发生了什么”,比如“第15分钟穿红衣服的人做了什么”“球从哪个方向飞入画面”等,都能准确回答。
据了解,千问视觉理解模型已实现广泛落地,比如国家天文台联合阿里云发布的全球首个太阳大模型“金乌”,正是基于Qwen-VL等模型以超过90万张太阳卫星图像为样本完成微调训练。未来,Qwen3-VL模型还将开源更多尺寸版本。即日起,用户可在通义千问QwenChat上免费体验Qwen3-VL,也可通过阿里云百炼平台调用API服务。
郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
评论该主题
帖子不见了!怎么办?作者:您目前是匿名发表 登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》