百度蒸汽机,盯上长视频生成实时交互
来源:21世纪经济报道
AI视频生成模型的进化与竞争,终局尚远。
“多模态这块的竞争仍然焦灼。大家在技术上都没有绝对优势,或许有短期优势,但能领先一两年的这种长期优势,是不太现实的。现在比的,就是执行力,要快。”百度商业研发首席架构师李双龙向《21CBR》记者表示。
近期,Open AI发布最新多模态视频生成模型Sora 2,国内一众AI视频玩家,亦频频更新动态。
10月15日,百度旗下视频生成模型,百度蒸汽机(文心专精)再次升级,这一次的重点,放在了交互体验上。
百度称,蒸汽机模型实现实时交互生成AI长视频,突破传统10秒左右的时长限制。
具体而言,用户上传一张图片+一段提示词,即可启动视频生成流程,并能实时预览模型推理全部内容。在生成过程中,用户可随时暂停、或在任意节点修改提示词,实现对视频剧情、画面、转场的实时控制,全程干预。
为延长视频时长,业内普遍采用的是“首尾帧续写”技术,或者视频延长的简单续写能力,虽能填补时长空白,但易导致视频缺乏连贯性。
“创作是个反复思考、反复修改的过程。我们提供可交互、可编辑的支持能力,目的也在于更好地顺应创作者需求。”
李双龙向《21CBR》记者提到,实现这一点,有很多技术挑战,蒸汽机团队升级改造基础架构,引入自回归扩散模型(Autoregressive Diffusion Models),同时着手消除训推偏差、优化一致性等。
自7月蒸汽机模型发布至今,其基本保持按月重大更新的迭代频率。百度商业体系商业研发总经理刘林透露,百度蒸汽机的APP,正在规划之中。
郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
评论该主题
帖子不见了!怎么办?作者:您目前是匿名发表 登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》