• 最近访问:
发表于 2026-06-30 14:13:31 股吧网页版
Om AI联汇科技发布端侧流式多模态模型系列VLX 提出“流式多模态”模型架构
来源:上海证券报·中国证券网 作者:王子霖

  上证报中国证券网讯(记者王子霖)6月29日,Om AI联汇科技正式发布全球首个面向物理世界的端侧流式多模态模型系列——VLX,并提出“流式多模态”这一全新模型架构。区别于传统视频理解模型将整段视频切帧后一次性离线处理的方式,VLX系列面向物理世界中持续涌入的视频流,以流式编码与缓存增量推理实现毫秒级实时感知,并首次在端侧打通“持续感知→精准定位→行动决策”的完整闭环。

  VLX系列由三款模型协同构成,围绕实时物理智能构建完整能力体系:VLX-Flow负责持续感知,通过增量编码与缓存推理机制,让模型像人一样持续观察环境而非被动等待提问,新画面随时吸收,提问瞬间响应。VLX-Seek负责精准定位,创新性地将坐标生成转化为区域检索——不是让模型“猜坐标”,而是从候选区域中“选区域”,为端侧设备提供可靠的空间感知能力。VLX-Go负责行动执行,将视觉理解直接转化为机器人可执行的短时航点与运动轨迹,而非输出文本建议,让设备自主完成跟随、避障与导航。

  在这一全新范式下,视觉信息不是以“截一帧”的方式进入模型,而是以“连续流”的方式持续进入。模型不是“看完再说”,而是“边看边理解、必要时主动行动”。这对应的不是“更好的人机对话体验”,而是“AI自主工作能力的质变”。

  据了解,VLX系列完全围绕实时视频流与端侧设备原生构建——不是将云端模型压缩后塞进终端,而是从架构层面为端侧具身智能重新设计——以“快(流式推理,单路延迟最低0.06秒)、小(轻量化选型,覆盖0.6B至10B规格)、准(细粒度定位)、行(感知执行闭环)”四大优势,实现从持续感知到行动决策的端侧闭环。

  Om AI联汇科技认为,当多模态模型从“看图答题”走向“持续感知”,当AI从屏幕走向真实的物理世界,VLX端侧流式多模态模型系列为物理AI的演进提供了一种全新的架构范式——让每一台终端都能拥有持续理解、即时决策、自主行动的能力,这才是物理世界AI应有的样子。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500