从Runway、Pika到Sora,AI(人工智能)视频工具不断刷新想象空间,而在国内,实践者们开始探索更深层次的问题——AI如何真正融入内容产业,形成可持续的生产模式。
百度副总裁、移动生态商业体系负责人陈一凡在接受包括《每日经济新闻》记者在内的媒体记者采访时将这一节点比作通信史上“3G到4G”的转折期——从“能生成”迈向“可实时互动”。
陈一凡认为,实时交互被低估了,“如果只是生成,可能只是做了一个类似AI版的抖音”。他表示,AI视频竞争的下半场,正在从技术比拼转向门槛之争,谁能让更多人更低成本地参与创作,谁就能在生态中积累更大的势能。
百度视频生成大模型迭代:押注实时交互
在AI视频生成的快速演进中,技术的焦点似乎正在悄然转移,从“能生成”迈向“能交互”。
陈一凡将这一节点比作通信史上3G到4G变革的前夜,“没有3G,就没有移动互联网的繁荣;没有4G,就不会有短视频的爆发”。在他看来,生成模型的能力已趋近成熟,下一阶段的突破不在于更大的参数或更高的分辨率,而在于让生成变得实时、可控、可互动。
百度商业研发首席架构师李双龙也认为,人类创作的过程并不是一次性做成的,而是一个边写边改、不断思考与修正的过程。他指出,当前许多视频生成产品仍停留在“盲盒式”体验——用户等待模型一次性生成10秒或20秒片段,再判断结果是否可用,这种反射性生成方式并不符合真实的创作逻辑。
为了实现可打断和可修改的实时交互,百度“蒸汽机”选择将整个架构从窗口式扩展升级为自回归流式扩展架构。“这未必是颠覆性的创新,但它是更符合人性的创作过程。”李双龙说。
在谈及如何实现交互式生成时,李双龙坦言,这一方向背后存在大量技术挑战,传统的窗口式扩散生成方式无法支撑长视频创作,因为它以10秒为单位生成,出现问题时无法局部修改,只能重来。为此,团队对底层架构进行了升级,从“窗口扩散”转向“自回归流式扩展生成”。
但该机制也带来了新的问题,例如累积误差和一致性挑战。对此,李双龙介绍,团队通过采用历史帧和稳定锚点帧技术等优化手段,来全局管理一致性,解决自回归带来的问题。
陈一凡认为,实时交互的需求是被低估了,“如果只是生成,可能只是做了一个类似AI版的抖音”,这当然也有很大的空间,但可互动性之所以重要,在于它提升了信息密度,将传统的单向、写好剧本的内容消费转变为双向互动。
这能让用户拥有不同的情景体验,极大地提升娱乐性。从浅层应用来看,实时交互能提升广告线索质量;从深层应用来看,它能完成整个咨询或服务过程的深度交互,例如在心理咨询等场景中,数字人可以实时感知用户表情并作出反馈,实现与传统广告截然不同的深度。
在百度内部,“蒸汽机”承担着模型、工具、产品三层结构的中枢角色:底层是模型层,中层是工具层,上层是产品层。在这种布局之下,百度在视频生成模型方面的打法,更偏向于构建一个AI内容生态的基础设施。
视频生成竞争转向:从技术比拼到门槛之争
放眼全球,AI视频生成模型领域竞争的激烈程度和变化速度远超想象。
OpenAI的Sora 2模型一经发布,凭借“电影级”的短视频生成能力和对物理、人物塑造的巨大突破,其驱动的创作应用“Sora”迅速登上美区应用商店下载榜首,证明了其在To C(面向用户)端强大的市场号召力。紧随其后,谷歌的Veo 3.1迅速更新,不仅新增了音频生成功能,支持为视频添加背景音乐和音效,更在对象控制、视频分辨率与时序连贯性上实现技术升级,提升了高质量内容创作的适用性。
这场全球范围内的技术竞赛正以前所未有的速度向前推进,但与此同时,底层架构和技术路径日益趋同。对于行业终局和应对策略,陈一凡认为,创新和用户体验将成为核心突破口。
陈一凡指出,从技术发展历程来看,视频生成行业经历了“从想法到实现,再到反思优化”的阶段。初期技术迭代主要集中在算法性能上,但随着DIT架构等方案成熟,算力需求和生成时间呈几何级增长,限制了大规模应用。
“创新在这个阶段尤为重要。以前大家会关注技术性能,现在更多关注如何降低使用门槛,让玩法更丰富。”陈一凡表示,降低门槛意味着用户能够即时获得互动体验,而非等待延迟结果,这也是目前很多大模型在应用上仍然存在短板的环节。
在具体实践中,百度通过升级流式架构提升生成效率,实现了大规模的视频生产与分发。陈一凡透露,平台视频生成量级已经从百万级提升到千万级,“当门槛降低、玩法丰富,自然会吸引更多用户涌入,最终的目标是让用户知道怎么玩、愿意玩”。
对于近期热门产品如Sora 2的技术表现,陈一凡认为,其底层模型在一致性和运镜丰富度上有所提升,但尚未达到基础模型级别的突破。
在商业化的思考上,百度“蒸汽机”当前阶段的重点仍是内部赋能,即通过技术能力支撑内部产品,提升To C端的价值。陈一凡坦言,当前最明显的收益是C端整个的用户留存和使用时长的提升,这直接带来了百度原有商业化模式收入的增长。
据透露,目前,营销相关和内容创作是“蒸汽机”调用量最大的两大落地场景。营销相关调用量占到约一半。
对于未来是主攻To C还是To B,陈一凡表示,目前两侧都在投入。To B端,主要满足内部技术业务库的需求,以及应对外部客户的定制化需求,如专有云应用等,需要针对稳定性等进行微调;To C端,侧重于结合百家号等生态,将创作者生态做大。