• 最近访问:
发表于 2025-10-24 01:05:11 股吧网页版
生成式世界模型成色几何?
来源:中国经营报

  近日,知名华人AI科学家李飞飞创立的科技公司World Labs推出全新实时生成式世界模型——RTFM(Real-Time Frame Model,实时帧模型),引发业内对世界模型的新一轮关注和讨论。

  AIGCLINK发起人、微软MVP占冰强接受《中国经营报》记者采访时表示:“李飞飞推出的生成式世界模型RTFM,其最大优势是持续且保持一致性实时帧渲染,采用Posed Frames as Spatial Memory和context juggling来实现持久且一致的目标,为世界模型的技术路线提供了一种新的思路,同时运行它只需要一张H100即可推理,这将为影视、游戏、元宇宙等3D渲染制作场景提升10倍以上的效率且大大降低成本。”

  世界模型

  世界模型是人工智能领域一个至关重要的概念,它让AI系统能够像人类一样在内部构建对外部物理世界的模拟和理解,从而进行有效的规划和决策。

  据了解,李飞飞团队发布的是一款在大型视频数据上进行端到端训练的自回归扩散Transformer模型。RTFM是一款全新的实时生成世界模型,能够与用户交互时实时生成视频,并遵循三大核心设计原则——效率、可扩展性、持久性。

  据World Labs官方博客,RTFM能够仅依靠一个H100 GPU进行高效的实时推理,主要得益于其高效的神经网络架构、创新的自回归扩散Transformer、空间记忆技术和上下文切换机制。

  这些设计使得RTFM能够减少计算资源的消耗,并实现大规模3D世界的持久建模,确保其可以在单一硬件上长期运行。

  World Labs方面表示,强大的世界模型将能够实时重建、生成,并模拟具有持久性、交互性且物理精度高的虚拟世界。这类模型将彻底改变从媒体到机器人技术乃至更广泛领域的产业格局。

  不过,也有观点认为,世界模型的核心是让AI内部构建一个可交互的世界,要理解物理规则、模拟未来状态、预测动作结果。实现从静态图像、视频生成,逐步走向多模态、带动作控制的视觉语言动作模型。

  在人工智能研究的脉络中,“世界模型”并不是一个全新的概念。早在2018年,谷歌大脑研究科学家David Ha与瑞士AI实验室IDSIA负责人Jürgen Schmidhuber在经典论文《World Models》中提出,智能体要想高效学习,就必须在大脑中构建世界的内部模型。这种模型能够通过感知输入,去预测外部世界在未来的变化,在内部“想象”出一系列可能的结果,从而据此选择行动。

  随着算力的提升和多模态学习的成熟,世界模型的内涵被重新定义,从在仿真环境里学习,演进为让AI自己生成并理解环境。比如谷歌DeepMind在Dreamer系列工作中,让智能体能够在潜在空间中对未来进行滚动预测,从而无须真实环境就能完成策略优化。这种思路,被视为世界模型的早期成熟版本,也让预测未来成为机器学习的新边界。

  相比视频生成模型,世界模型不仅生成图像或视频,还能够理解和预测环境的动态,支持智能体做出决策。

  简而言之,世界模型能更真实地反映动态变化,并为Agent提供决策支持;而仿真和视频生成模型更多是静态的或单向生成的内容。

  World Labs指出,RTFM展示了在现有硬件上部署高效世界模型的愿景,其技术核心是将世界模型定义为端到端、数据驱动的渲染器。该框架具备良好的扩展性,未来可模拟动态世界并支持用户交互。当前模型目标是在单张H100 GPU上实时运行,而更大规模的模型将持续优化性能。

  未来发展

  RTFM可将单张图像渲染成3D场景,一个模型可处理多种场景类型、视觉风格和效果,包括反射、光泽表面、阴影和镜头光晕。该模型已以预览版形式开放给用户体验。

  此前,谷歌发布的Genie 3再次让所有人对世界模型充满期待,它能以每秒20—24帧的速度,实时生成720p画面。

  还有之前昆仑万维发布的,首次具备了“从一图入实境”的构建能力,让世界模型得到了进化。

  艾媒咨询CEO张毅告诉本报记者:“李飞飞团队发布的实时生成式世界模型RTFM,还是有一定的创新性的。它的核心特点就是高效、可拓展和持久性,因为在实时生成式世界模型这块,它的高效主要还是在于它让一些单块的H100的GPU实现交互式帧率运行,这种实时推理,应该说效率还是提升很多。另外可拓展这方面,主要就是不需要构建显示3D表征,通过学习型的渲染器,对大数据视频数据进行端到端的处理,对于拓展数据和算力的增长是一种扩充。同时它形成这种记忆空间,空间记忆的机制,这使得生成的世界具有持续的存在能力,用户可以反复进入和离开。”

  张毅认为,从创新的角度来看,这种模式是会打破重建和生成的界限,也就是说大量输入视图的时候,它会倾向于重建,而视图较小的时候,它就会做外推和想象。通过观察视频,对于学会三维的几何反射阴影这些复杂物理现象进行建模,效果还是不错的。所以基于这样的因素,理论上来讲,它的应用场景还是会比较多的,尤其对于降低一些游戏场景的搭建成本来说,可以提供更自由真实的游戏世界,同时提高影视制作的效率和创意。

  “对于持续存在的虚拟空间,提供不同的时间角度,可以让更多用户产生直观感受空间布局和设计效果。就是说,从应用的场景来看,未来在游戏开发、机器人自动驾驶、教育培训,可能还有影视制作、军事等方面,都会有很多应用的场景。”张毅说,另外在医疗尤其像手术场景教学方面,也可以有不错的应用机会。但目前整个技术相对来说还是处于比较早期的阶段,所以当前需要解决的问题还是会比较多。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500