4月16日,中国证券报·中证金牛座记者获悉,阿里巴巴发布可实时构建和交互的世界模型产品HappyOyster(中文名:快乐生蚝)。该模型基于原生多模态架构研发,支持多模态理解与音视频联合生成。目前产品可实现漫游(Wander)和导演(Direct)两大核心能力,用户可以实时构建可互动、可演绎、可探索的AI数字世界。同时,用户生成的数字世界,不仅能被完整保存,还能开放给其他用户进行二次创作。该产品由阿里ATH创新事业部团队研发,与HappyHorse同属一个团队。
相较于大语言模型相对成熟的模型架构和技术范式,世界模型仍属于前沿探索阶段。阿里的HappyOyster与谷歌的Genie 3同属于世界模拟器流派。区别于传统文生视频模型输入提示词、等待渲染、获得成片的被动流程,这一流派采用长时间跨度上的世界演化建模方式。通过学习海量长视频数据,以及文本、动作指令、图像参考等多样控制信号,模型能够主动理解空间、物理与因果规律,预测情节和画面的演变,从而把“被动生成内容”转变为“主动模拟世界演化”,为构建可交互的通用世界模拟器提供了关键技术路径。
相比谷歌,阿里发布的HappyOyster采用了时间跨度更长的世界演化建模方式,使得模型能够保持高保真、长时序的动态场景生成。在产品能力上,HappyOyster不仅能支持漫游探索,还提供实时导演功能,用户可通过自然语言指令随时介入世界演化、调度角色事件,实现从被动探索到主动创作的跨越。通过漫游和导演的双模式,HappyOyster能够为用户带来沉浸式的世界交互体验。
具体来看,在漫游模式中,用户仅需一句话或一张图,即可生成具备物理一致性的完整空间,物体位置稳定、场景持久存在,视角与光照也能跟随第一人称视角持续移动;此外,用户能自由切换方向与镜头运动,突破初始画框的边界,体验无限延展的探索乐趣。在导演模式中,用户能够在视频的任意节点,通过文字、语音或图像等多模态输入,随时实现镜头切换、剧情改写、角色调度,在充分的交互中生成一个光照、重力、角色动作与场景因果持续演化的世界,并能选择题材风格。HappyOyster的导演模式支持连续生成3分钟以上的480p或720p实时画面。
不过,当前,漫游与导演两大模式尚未完全打通,但阿里方面表示,未来用户有望在漫游过程中直接与世界深度互动、实时改写场景规则,真正实现边探索、边创造的无缝融合体验。世界模型的发展仍处于早期阶段,但在实际应用中,HappyOyster已在改变传统的内容创作模式和交互体验,如游戏领域、影视创作以及文旅、教育领域都有应用空间。未来,HappyOyster还能应用于线下智能空间或娱乐场景,例如与穿戴设备等智能硬件结合,根据人的位置、动作与语言动态,实时生成沉浸式内容,让数字世界与现实共振。