8月21日,百度蒸汽机(MuseSteamer)音视频一体化模型完成重大升级,Turbo版、Lite版、Pro版,及有声版全面开放,在行业内首次实现多人有声音视频一体化生成。
据介绍,百度蒸汽机是全球首个中文音视频一体化生成的I2V模型,不仅支持环境音效,更支持多角色语音的一体化生成。
这背后依托于百度蒸汽机视频模型的五大核心技术突破:行业首次实现多人有声音视频一体化生成,语音与唇形、表情、动作的毫秒级精准对齐,复杂场景下依然稳定;首创多模态潜在空间规划技术(Latent Multi-Modal Planner),自主协调多角色身份、情感与互动逻辑,保障电影级叙事连贯性;中文场景深度适配,以超98%的还原度精准呈现中文语音细节与情感表达;端到端电影级画质生成,通过精准主体动态刻画,打造真实细腻的人物表现力;大师级运镜控制,内置数十种专业镜头语言,精准响应文本指令,实现视觉细节与创意意图的完美对齐。
随着百度蒸汽机全系版本开放,百度同步公布了极具竞争力的价格体系。针对不同需求用户,平台提供了梯度会员服务,价格低至行业同类产品的70%。
不同于业界的模型发展多由技术催生,百度蒸汽机的研发是由应用驱动模型研发的新范式。来自百度各业务场景的、旺盛的应用需求,推动着百度蒸汽机模型快速发展,而模型技术的迭代,也在反哺着应用生态的创新,包括搜索生态、内容生态、商业生态以及云生态等。AIGC的涌现,大大打开了多模态内容创作的自由度,提高了视频生成质量和效率,并大幅降低了视频制作成本。目前,百度蒸汽机已在百度生态广泛使用。
在百度搜索中,用户只需点击视频创作即可轻松完成从脚本到视频免费生成,普通用户也可获得简单而惊喜的AI创作体验;在内容创作领域,百度蒸汽机模型与创作工具结合,正在百家号平台上为创作者打破专业壁垒,释放个体创作自由;在商业生态,百度蒸汽机视频生成技术为营销客户提供了高质量、低成本的营销创作新路径。
目前,百度智能云千帆大模型平台已全面接入百度蒸汽机模型服务,为企业提供高性能、低成本、安全可控的视频生成解决方案。通过按量后付、预付费资源量包、批量计算等极致的资源利用和灵活的计费模式,助力企业及开发者低成本用好视频生成模型。支持企业在商业营销、影视创作、创意特效等五大场景快速落地,实现企业级AI视频即开即用。