• 最近访问:
发表于 2025-09-20 06:46:20 股吧网页版
在世界模型分岔口 李飞飞与谷歌新模型给出了不同答案
来源:蓝鲸新闻

K图 GOOGL_0

K图 GOOG_0

  蓝鲸新闻9月19日讯(记者武静静)在生成式 AI 的叙事进入深水区后,业界的焦点逐渐从文本和图像生成转向“世界模型”。与传统的内容生成不同,世界模型试图让 AI 对真实的物理环境有更完整的理解与预测能力,它不仅回答“看到的世界长什么样子”,还要回答“接下来世界中会发生什么”。

  生成式 AI 的下一轮竞争中,“世界模型”正在成为各方押注的核心方向。最近,李飞飞教授团队创立的公司 World Labs 发布了全新产品 Marble,这是一款基于图像到3D生成技术的升级版工具,强调在空间结构和几何一致性上的突破。与此同时,此前,谷歌 DeepMind 发布了其世界模型项目 Genie 3,侧重交互和物理规律的推演。

图:Marble生成的内容的一张截图,右上角为动态视频中的小地图

  虽然,Marble与谷歌 DeepMind 发布的 Genie 3 看上去都是世界模型,但是背后的技术路径和认知则截然不同。

  Marble与Genie 3,对世界模型不同技术路线的实践

  World Labs 成立于 2024 年 4 月,短短几个月就吸引了硅谷顶级投资机构 a16z 和 Radical Ventures 的下注。资本的快速进入,本质上是对“空间智能”这一全新技术方向的认可。

  Marble 目前处于测试阶段,它的特点是可以通过一张图片或一句文字,生成一个完整、可自由探索的三维虚拟世界。生成的环境不会随时间消失或出现形变,整体保持高度的一致性和几何连贯性。用户进入后,可以像在游戏里一样用鼠标自由游览。

  有创作者用 Marble 搭建了一个可导航的舞台,并在其中规划镜头和场景,就像拍摄电影一样。而 World Labs 方面则强调,Marble 不仅能生成规模更大、风格更丰富的环境,还能提供更清晰的三维几何细节。它更适合构建舞台、房间或广阔的自然景观,而不是单一的物体或角色。

  在 Marble 的官网上,已经有人用它创造出奇幻的房屋、海底世界和森林地图,看起来颇有“头号玩家”式的沉浸感。创作者们还能对场景进行缩放、拼接和多代迭代,从而得到更复杂、更持久的世界。无论是动漫风、卡通风,还是照片级的真实画面,它都能支持,这让电影人、游戏开发者和数字艺术家都可能成为它的用户。

  资深的AI应用用户Jason 在亲自体验了一个月 Marble AI 后表示,李飞飞教授的团队选择了一条与主流完全不同的路径,去探索、“空间智能”。和 Genie3 这种强调交互、实时生成的视频模型不同,Marble 更关注空间结构本身的合理性与关联性。

  他提到,Marble 不是实时生成的,但可以被实时探索。他用 plus 版大约十分钟就能生成一个完整的空间环境,里面可以前进、探索,具备物理空间结构,而不仅仅是视频帧或深度贴图。

  不过,由于还是早期版本,Marble 生成的只是一个“世界空间的壳”,画面精度有限,局部模糊,也缺乏光影变化或物理现象的交互。他强调,这并不是大家口中常说的“世界模型”,因为智能更多体现在生成过程中,而非交互环节。

  “它谈不上颠覆,但确实展示了另一种可能性。”Jason 说。他认为,Marble 最大的价值在于从空间维度去探索世界生成,在空间合理性和物理关联上开了一个新口子。

  与 Marble 强调空间几何不同,谷歌 DeepMind 推出的 Genie 3 代表了另一种逻辑:它关心的是“空间里正在发生什么”。

  Genie 3 可以通过文本提示生成动态环境,并以每秒 24 帧、720p 的分辨率运行数分钟。它的独特之处在于,不依赖动作标签,而是通过视频训练推断潜在的交互逻辑。例如,给它一张游戏截图或一幅火柴人草图,它能自动推断出谁是玩家角色,哪些元素可以跳跃、移动或互动。这让 Genie 3 更像一个“交互物理模拟器”,而非几何建模工具。

  换句话说,如果 Marble 是“舞台布景师”,Genie 3 就是“规则设定者”。前者提供一个逼真的空间容器,后者让容器内的角色与事件真正“活起来”。

  一位AI领域资深投资人告诉蓝鲸科技,一个真正完整的虚拟世界,需要两者结合:既要有稳定连贯的空间,也要有动态交互的逻辑。如果说 Marble 提供的是“眼见为实”的真实感,Genie 3 代表的则是“身临其境”的互动感。

  Marble 背后有 a16z 这样的科技长期主义者,他们看重的是空间智能可能带来的平台化机会——未来或许可以成为下一代虚拟环境构建工具。Genie 3 的意义则在于强化谷歌在世界模型上的前沿地位,借此推进具身智能和通用 AI 的研究。两家机构背后的发心不同,路径选择也不同,

  不过他认为,从商业化角度来看,Marble 的短期路径更清晰,直接面向内容生产行业。而 Genie 3 则更偏科研和前沿探索,距离可规模化应用还有一定距离。

  世界模型的产业化路径

  与硅谷的探索不同,中国创业公司正在尝试让世界模型快速落地。极佳科技就是其中的代表。极佳科技团队曾在自动驾驶仿真领域积累多年,帮助多家车企构建虚拟测试环境。公司去年开始转向具身智能领域。他们发布了基于世界模型训练的 VLA(视觉-语言-动作模型)—— GigaBrain,其世界模型平台 GigaWorld 也将在近期上线,提供更开放的仿真环境。

  极佳科技联合创始人朱政指出,不同领域对“世界模型”的定义差异很大:在计算机视觉(CV) 领域,研究者更关注视频生成与画面一致性;在强化学习(RL) 领域,重点是为 agent 提供一个足够逼真的环境,以便进行动作决策;在具身智能方向,则强调如何让机器人通过世界模型理解环境、执行任务。

  “无论哪种定义,核心价值都在于预测未来。”他解释说,“给定一个动作序列,世界模型需要告诉我们环境会如何变化。这种预测能力可以应用于文生视频、自动驾驶,也可以体现在机器人动作规划中。”

  在他的规划中,世界模型的产业化大致经历三个阶段:数据生成阶段:用世界模型扩展训练数据,降低真实采集成本;仿真阶段:为智能体提供闭环仿真环境,提高训练效率;智能进化阶段:最终成为下一代 VLA,具备推理与行动能力,成为通用智能的核心。

  相比谷歌等大厂的科研导向,中国创业公司的优势在于“贴近场景”。自动驾驶、工业仿真、VR 内容生产,这些应用都有明确的市场需求。世界模型可以在这些场景中直接发挥价值,从而更快地形成商业闭环。

  不过,挑战同样存在,生成和训练世界模型需要极大算力,创业公司难以长期独立承担;此外,目前行业对世界模型没有统一标准,不同技术路线之间缺乏可比性。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500