值得买与中国人民大学高瓴人工智能学院联合取得AIGC研究成果
来源:证券日报
6月11日至6月15日,2025国际计算机视觉与模式识别会议(CVPR2025)召开。北京值得买科技股份有限公司(以下简称“值得买”)与中国人民大学高瓴人工智能学院在多模态领域的最新联合研究成果《图像转有声视频》(《Animate and Sound an Image》)成功入选。
该成果首次提出了一种从静态图像直接生成同步音视频内容的生成框架JointDiT(Joint Diffusion Transformer),实现了从图像到“动态视频+声音”的高质量联合生成。这不仅展现了双方在AIGC领域的技术创新突破,也为AI多模态的高质量发展提供了新的思路与启发。
据介绍,《图像转有声视频》首次提出并系统定义了图像到有声视频生成(Image-to-Sounding-Video,I2SV)这一新任务:让静态图像“动”起来的同时,生成与之语义匹配、时间同步的音频内容。同时还提出了一种新颖的内容生成框架JointDiT(Joint Diffusion Transformer),并具体阐述了如何利用两个强大的单模态预训练扩散模型(一个视频生成器,一个音频生成器),构建统一的联合生成框架,实现多模态协同生成。
人大高瓴人工智能学院长聘副教授宋睿华表示:“接下来,研究团队计划将JointDiT扩展至图像、文本、音频、视频四模态的联合建模,为构建更通用、更智能的多模态生成系统奠定基础。”
郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
评论该主题
帖子不见了!怎么办?作者:您目前是匿名发表 登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》