• 最近访问:
发表于 2025-11-10 07:40:40 股吧网页版
高拟真数字人直播带货有多强
来源:科技日报

  当直播时长逼近6个小时、大多数电商主播显露疲态时,百度直播间里的主播“罗永浩”和搭档“朱萧木”仍然可以情绪饱满地回答观众提问,时不时还能讲两句“段子”,吸引观众下单。这两位主播并非真人,而是百度借助剧本驱动多模协同数字人技术打造的数字人主播。

  在2025年世界互联网大会乌镇峰会上,由百度自主研发的剧本驱动多模协同的高拟真数字人技术获得世界互联网大会领先科技奖。

  随着人工智能技术快速发展,大模型向多模态加速演进,数字人成为融合大语言模型与多模态技术的创新应用,电商直播是数字人落地的极佳场景。数字人技术使商家无需投入大量人力、物力进行现场直播,能显著降低场地租赁、设备采购、人员培训等费用。同时,数字人可以24小时不间断直播,进一步增加商品曝光时间和销售机会,提升经济效益。

  但传统数字人生成技术常面临语音、语言、视觉多模态割裂的问题,表现为台词生硬、语音语调与台词情感匹配不佳、表情手势单一等。百度首席技术官王海峰说,针对数字人应用痛点,百度创新研发了剧本驱动多模协同的高拟真数字人技术。

  剧本的基础是台词。台词生成不仅是内容输出,还要贴合主播人设与语言风格,确保语言表达的个性化与一致性;在多主播场景中,还需实现语义逻辑、语调节奏和情感风格的整体协调。同时,为提升台词的内容深度,还要引入内容规划、知识增强与事实校验机制,以降低人工智能幻觉风险。基于台词,大模型可以直接生成一份数字人直播剧本。剧本自带“视觉标签”和“语音标签”,它能够告诉系统,对应台词人物要做出哪些动作。

  互动性强是电商直播场景的一大特点。在与观众互动过程中,语音合成的自然度是决定用户沉浸感的关键因素。观众希望听到主播有情绪、有起伏的声音,而不是生硬机械的朗读。王海峰介绍,针对这一需求,百度提出了“文本自控的语音合成”方案。文本自控的语音合成大模型不仅具备高复原的语音合成能力,还能够结合直播台词及主播个人特征,把这些文本内容转化为自然、有感染力的声音,让数字人不仅能发出声音,更能精准传递出调侃、得意、强调等细微情绪。

  除了要和用户交互,数字人主播在直播时还要与商品和所在空间进行符合物理逻辑的互动。如何做到这一点?高一致性超拟真数字人长视频生成技术,能对输入的历史视频数据、剧本脚本、语音信息以及骨骼驱动等多模态信号进行分析与理解,并基于此分别生成高表现力片段、复杂“人—物—场”交互片段以及大动作大表情片段。系统能够对这些片段在较长时间跨度上进行统一调度,确保语音、口型、表情与动作始终保持高度一致且同步。

  如今,数字人正逐渐从实验室走向各类应用场景,商业化进程显著加快。可以预见,随着深度思考、多模态交互等关键能力的跃升,还将有越来越多数字人出现在屏幕上,走进人们的生活中。同时,业内专家提醒,《直播电商监督管理办法(征求意见稿)》提出,使用人工智能等技术生成的人物图像、视频从事直播营销活动的,直播间运营者应当在直播页面进行显著标识,持续向消费者提示该人物图像、视频属于人工智能等技术生成,以与自然人名义或者形象进行明显区分。

  中国科学院信息工程研究所正高级工程师韩冀中说,人们在拥抱数字人技术的同时,也需设立清晰的边界,必须防止利用高拟真技术以假乱真进行欺诈或虚假宣传。技术的发展必须与法律、伦理的约束并行,确保创新在正确的轨道上行稳致远。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500