阿里开源视觉理解模型Qwen3-VL Agent和空间感知能力大幅增强_阿里巴巴-W(hk09988)股吧

股吧首页 > 阿里巴巴-W吧 > 正文

最近访问：

阿里巴巴-W吧

返回阿里巴巴-W吧>>

- 重要股东股权质押数据全览

阿里巴巴-W资讯

发表于 2025-09-24 14:43:40 股吧网页版

阿里开源视觉理解模型Qwen3-VL Agent和空间感知能力大幅增强

来源：上海证券报·中国证券网作者：杨翔菲

　　上证报中国证券网讯（记者杨翔菲）在9月24日举行的2025云栖大会上，阿里开源新一代视觉理解模型Qwen3-VL。该模型在视觉感知和多模态推理方面实现重大突破，在32项核心能力测评中超过Gemini2.5-Pro和GPT-5。同时，Qwen3-VL大幅提升了视觉Agent、视觉编程和空间感知等关键能力，不但可调用抠图、搜索等工具完成“带图推理”，也可以凭借一张设计草图或一段小游戏视频直接“视觉编程”，所见即所得地复刻图表、网页和复杂程序。

　　Qwen3-VL可支持扩展百万tokens上下文，视频理解时长扩展到2小时以上。这意味着，无论是几百页的技术文档、整本教材，还是长达数小时的会议录像或教学视频，都能完整输入、全程记忆、精准检索。Qwen3-VL还能根据时间戳精确定位“什么时候发生了什么”，比如“第15分钟穿红衣服的人做了什么”“球从哪个方向飞入画面”等，都能准确回答。

　　据了解，千问视觉理解模型已实现广泛落地，比如国家天文台联合阿里云发布的全球首个太阳大模型“金乌”，正是基于Qwen-VL等模型以超过90万张太阳卫星图像为样本完成微调训练。未来，Qwen3-VL模型还将开源更多尺寸版本。即日起，用户可在通义千问QwenChat上免费体验Qwen3-VL，也可通过阿里云百炼平台调用API服务。

（文章来源：上海证券报·中国证券网） [点击查看原文]

郑重声明：用户在财富号/股吧/博客等社区发表的所有信息（包括但不限于文字、视频、音频、数据及图表）仅代表个人观点，与本网站立场无关，不对您构成任何投资建议，据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容，远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息，谨防上当受骗！

评论该主题

帖子不见了！怎么办？

作者：您目前是匿名发表登录 | 5秒注册作者：，欢迎留言退出发表新主题

温馨提示： 1.根据《证券法》规定，禁止编造、传播虚假信息或者误导性信息，扰乱证券市场；2.用户在本社区发表的所有资料、言论等仅代表个人观点，与本网站立场无关，不对您构成任何投资建议。用户应基于自己的独立判断，自行决定证券投资并承担相应风险。《东方财富社区管理规定》