在当下的AI产业语境里,“语音”常被视作一个不起眼的模态。相比文本生成、图像生成、视频换脸这些风口,纯语音似乎既不炫技,也难出圈。但就在这个看似“低关注度”的领域里,一个不到20人的团队,却用一项“声音克隆”技术打通了影视、短剧、教育、电商、文旅甚至国家宣传的跨语种市场,悄然跑出数百万美元的全球营收。
我们访谈了VMEG联合创始人宋开发。这支团队专注于让一个人“用自己的声音,说出从未说过的语言”,并实现声音情绪、语速、语调、气息的精准拟人化还原。听起来简单,实则是极难的“纳米级”情感克隆工程。
我们在一次深度对话中,聊到了他们如何抓住短剧与影视内容出海的浪潮,如何与德国电视台、南印度影视公司、日本地方文旅局达成合作,又是如何将技术打磨到“AI配音没有80分,只有99.9分”的专业标准。从一个偶然接触大理石厂商的定制需求出发,到如今站在全球内容跨语种传播的关键节点,宋开发和他的团队,正在用“声音”重构AI出海的认知边界。
一场关于声音的全球化实验
大多数AI出海的故事都离不开流量红利:用AI做图、写文案、改视频,卖给最先拥抱工具的新用户群。但VMEG做的事反其道而行。他们没有去追大模型、也没有卷多模态,而是从一个大理石厂商的需求起步——“把我的声音变成阿拉伯语”。这听上去像是一个不起眼的定制请求,却意外打开了声音人格跨语言迁移的想象空间。
他们没有做传统字幕、也没有用数字人,而是执着地“复刻你本人”——保留原声的情绪密度、语气起伏、气息强弱,甚至在0.1秒内还原“悄悄话”的呼吸感。这种程度的拟人化,让声音从“传递内容”变成了“重构身份”。换句话说,是你说了那句话,即便你从未学过那种语言。
这不是翻译,这是拟态。不是工具,这是人格。
而且最重要的是——用户愿意为此付高价。VMEG的海外客户中,有人为十分钟视频支付上百美元,只因为他们不想要“听起来像”,他们要“听起来是我”。这份需求并不情绪化,反而极具商业价值。因为对于全球内容创作者来说,这是一场身份延展的革命。
本地化的尽头,是情感的保留
语言本身并不是障碍,障碍在于你在翻译的过程中丢失了谁。
当你把一个印度明星的声音翻译成另一种方言,他不是不愿意被翻译,而是不愿被替换。VMEG抓住的正是这个细节——翻译不是让你“听懂”,而是让你“仍然是你”。
比如德国人几乎不看英语内容,一定要有德语配音;南印度观众拒绝北方方言,要听地道的本地语调;泰国文旅宣传片的企业主坚持用“自己本人的声音”介绍公司;印度电影公司不接受通用配音,只要明星的原声情绪被完整迁移……这是文化自尊与本地情感的高度绑定,也是所有“简单字幕翻译”无法解决的深层问题。
而AI声音克隆,恰好成为了最精巧、最低侵入的解决方案。
它既没有破坏本人的身份感,也不强行替换,而是用技术延展出一个“情感不缺席”的多语言人格版本。这种“软入侵式”的跨文化表达,正是中国AI公司极少触达的全球语言市场空白。
隐形扩张,不靠流量靠精准场景
相比于卷模型、卷视频生成的AI创业者,VMEG的路线安静而有效。他们没有用补贴换数据,也没有靠热点营销,而是用“场景爆破”的方式,一点点打开了声量。
短剧、影视、教育、电商、广告、文旅,每一个垂直场景都像一个音频工坊,源源不断地产出有价值的定制需求。而配音这种服务,有天然的标准化维度(时长、语种、情绪强度),又有个性化的非标要求(语速控制、哭腔表达、老人小孩音色)。这让他们能清晰定价,也能精准打穿。
比如一位YouTube博主拥有200万粉丝,每天发布39种语言的视频,其中19种语言用的是VMEG服务,每日产生400分钟翻译配音内容,单一客户年订单就能达数十万美元。
再比如印度、韩国、日本的一线IP内容公司,已经开始将内容制作外包至中国,然后通过VMEG翻译全球发行。这是一条极具“中国供应链优势”的文化内容反向外包路径,正在被声音AI悄然承载。
投资人应该看见的,是判断标准的清晰度
宋开发分享了一个极具洞察力的观点:创业最难的,不是做出一个产品,而是找不到“谁能判断你的产品好不好”。
AI视频营销的好坏,取决于流量与转化,变量太多。但声音克隆的好坏,只需要一个母语者一听即可判断。正是这份“清晰的可评价性”,让他们在定价、筛选客户、迭代产品时极其高效,也更容易达成正循环。
更重要的是,语音AI的本质并不是一个ToC的消费工具,而是一个介于技术能力与文化资产之间的ToB服务——它的价值不在于“生成”,而在于“连接”:连接你和你不懂的语言,连接内容和新的观众,连接品牌与陌生市场。
这是最隐形、也最稳健的一种全球化。
AI全球化,不一定要“破圈”,也可以“入心”
在AI出海的热浪中,有人选择做工具平台,有人选择卷大模型能力,还有人选择贴近终端用户做体验优化。但VMEG用声音告诉我们:还有一条更小的路,那就是让每个人,在任何语言中,依然能用自己的声音说话。
这是一种新的全球化方式——它不是喊得更响,而是听得更像自己。
也许未来的内容不是用字幕通全球,也不是用数字人吸引流量,而是用一段声音,悄无声息地连接一个遥远的市场,让他们说:“你听,他在说我们的话。”
这场静悄悄的扩张,也许比你想象的,更有力量。
访谈Q&A精选
Q1: 素动科技(VMEG)的核心业务是什么?它主要解决了什么问题?
宋开发:VMEG的核心业务是为音视频内容提供AI翻译和配音服务。它主要解决的是内容全球化过程中的语言障碍问题,但并非简单地添加字幕或使用标准的AI播音腔,而是通过声音克隆技术,用内容创作者或演员“本人”的声音,生成不同语言的配音。这使得最终的作品能保留原声的情感、语气和特质,为海外观众提供更沉浸、更真实的观看体验。主要服务的客户群体包括影视、动漫、短剧、教育、广告和电商等领域。
Q2: 素动科技的声音克隆技术有哪些具体优势?它和市面上其他的AI配音有何不同?
宋开发:其技术优势主要体现在“高度拟人化”和“细节还原”上。
覆盖全年龄段和性别:不同于多数AI配音只能提供标准的成年男女声,VMEG可以复刻包括老人、小孩在内的各种声音。
情感和语气还原:技术能够捕捉并还原哭泣、呐喊、甚至低声耳语等复杂情绪和特殊说话方式,这对于影视和短剧等注重情感表达的内容至关重要。
技术细节处理:他们会对声音的波形、声调、语速和节奏进行精细化处理,确保声音的真实感。宋开发先生提到,他们的标准是做到“99.9分”,而不是“80分”,因为只有这样才能赢得高要求客户的认可。
Q3: 为什么说素动科技找到这个细分市场带有“碰运气”的成分?
宋开发:公司最早的业务方向是AI营销视频出海,这是一个竞争激烈的领域,且效果很难量化。一次偶然的机会,一位福建做大理石生意的老板提出了一个特殊需求:他不需要制作新的营销视频,而是希望用自己的声音说阿拉伯语和印度语,以便在海外参展时拉近与当地客户的距离。VMEG为他实现后,效果出奇地好。这个“天使客户”的成功案例,让他们意识到声音克隆在内容本土化上的巨大潜力,从而自然而然地将业务重心转移到了这个方向。
Q4: 素动科技的定价模式是怎样的?客户愿意为此付费的关键原因是什么?
宋开发:VMEG目前主要按照音视频的“时长”来计费,以分钟为单位。最初海外定价约为每分钟3美金,后来根据合作深度调整至0.7到1美金不等。如果一个视频需要翻译成多种语言,费用则按语言数量翻倍。客户愿意付费的核心原因是他们对内容质量有高要求,追求的是情感连接和艺术表达的真实性,而不仅仅是信息的传达。例如,印度电影明星希望在不同方言的影片中依然使用自己的声音,YouTube大V为了核心粉丝区的观看体验而选择高质量配音,这些都是普通字幕或标准AI配音无法满足的需求。
Q5: 在全球市场中,哪些国家或地区是素动科技的主要客户来源?他们各自有什么特点?
宋开发:目前,欧洲是最大的市场,其中德国客户最多。德国观众有强烈的观看德语内容的习惯,因此当地媒体和MCN机构有大量将英语内容翻译成德语配音的需求。其次是印度,特别是南印度,其影视产业发达,且存在多种方言,电影明星有强烈的跨方言配音需求。此外,日韩市场也在快速增长,日本的旅游局、IP公司和动漫公司希望借助这项技术将内容推广到全球。
Q6: 面对如此分散的全球客户,素动科技是如何进行海外市场推广和获客的?
宋开发:由于翻译配音属于专业需求,他们的推广策略也更具针对性,而非追求泛娱乐化的“出圈”。主要方式包括:
搜索引擎营销:通过谷歌进行SEO(搜索引擎优化)和SEM(搜索引擎营销),精准触达有主动搜索需求的用户。
红人与达人合作:与海外YouTube等平台上的内容解说类博主合作。这些博主本身就有多语言内容的需求,通过为他们提供优惠甚至免费的服务,换取他们的使用和推荐,实现“带货”效果。
品牌合作:未来计划与大型机构或知名IP进行合作,提升品牌影响力。
Q7: 在技术层面,除了声音克隆,素动科技还解决了哪些传统翻译配音的难题?
宋开发:一个重要的技术挑战是处理不同语言间的“信息密度”差异,并同步视频时长。例如,中文信息密度高,几个字就能表达复杂含义,而西班牙语则相对啰嗦。在将中文视频翻译成西班牙语时,既要保证在原有时长内说完所有内容,又要让语速听起来自然,不能过快或过慢。这就需要对翻译后的语言在语速和节奏上进行智能调整,同时保持原说话人的声音特征,这是一个非常精细且复杂的技术活。
Q8: 除了影视、短剧等领域,素动科技还在探索哪些新的应用场景?
宋开发:我们正在积极探索的一个新方向是“歌曲翻译”。世界上有很多音乐天赋极高但受困于小语种的歌手,他们的音乐很难被世界听懂。VMEG希望通过AI技术,将这些小语种歌曲“翻唱”成英语、中文等主流语言,同时保留原唱的音色和演唱风格。这不仅能帮助优秀音乐人走向世界,也蕴含着巨大的商业潜力。
Q9: 对于同样想利用AI技术出海的创业者,宋开发先生提出了哪两条核心建议?
宋开发:
选择一个规模足够大的市场:创业要看市场的“天花板”(Upside)。他以全球音视频内容时长为例,这是一个高达上亿分钟的巨大市场,足以容纳多家公司共同发展。创业者应选择一个有足够想象空间的赛道。
建立清晰、可量化的产品评价标准:你的产品或服务的好坏,必须能被客户简单、清晰地判断。像他们的配音,找个母语者一听便知优劣。如果评价标准模糊,最终只会陷入拼渠道、拼价格的红海竞争,并且很难筛选出真正的“有效客户”,导致创业过程非常焦灼。
Q10: 在与客户的沟通中,他们发现客户最关心的是“声音”还是“唇形”的同步?
宋开发:绝大多数客户更关心“声音”本身的还原度。唇形的同步虽然也有技术实现,但重要性排在声音之后。客户认为声音是传递情感和建立连接的最核心要素,只要声音足够真实、自然,即使唇形不完全精准匹配,也是可以接受的。