2021年2月,特斯拉CEO马斯克在Clubhouse语音聊天,Clubhouse服务商Agora, Inc(声网母公司,以下简称“声网”)一炮而红。四年间,声网股价有涨有跌,近日声网创始人兼CEO赵斌宣布,声网年度服务分钟数首次突破1万亿分钟,同时发布多款新品,这个在多模态大模型、音频应用等背后的公司再获曝光度。多模态大语言模型的出现让计算机具备了类人的实时语音对话能力,Deepgram 和 Opus Research 调研显示,67%的企业已将语音 AI 智能体置于战略核心位置,84%的企业计划在未来一年增加相关投入。2024年四季度以来,声网连续三个季度扭亏,这一系列数据是声网的利好信号,不过技术层面的挑战和巨头的挤压也客观存在。

“2024年5月,OpenAI称很快的时间内释放多模态交互的Agent(智能体)进入ChatGPT。秋季,全球所有用户基本上都可以使用给ChatGPT打电话的功能,这就是对话式人工智能体to C(用户)的场景。”
“10月,OpenAI和Agora联合推出全球第一个Realtime API(一款低延迟语音交互API),这就是对话式人工智能体to B(企业)的原点。”声网AI RTE(实时互动技术)产品线负责人姚光华以实例介绍对话式AI的场景和toB结合模式。
一年前,声网常将生成式AI挂在嘴边,一年后将对话式AI作为长期的战略投入,OpenAI的风向是其做此选择的原因之一。
从技术的层面,MiniMax开放平台解决方案高级总监冯雯解读了对话式AI的框架:“Voice (声音)Agent探测对方是否在说话,获得这样的信息后,交给ASR(自动语音识别)识别对方说的是什么内容,再交给大语言模型进行处理,不同场景会有不一样的要求,通过文字转语音,然后播报语音。随着大家对大语言模型、对话式AI更多地畅想和场景的要求,每个环节都有许多技术升级。”
近日,声网推出的多款产品也围绕对话进行。
其中对话式 AI 引擎 2.0让AI更懂开口对话的时机,能分辨是谁在讲话,支持更多ASR和TTS(文本转语音)供应商,用户可根据自己的需求选择想要的语种和音色,也可进行电话外呼;对话式AI Studio是针对对话式AI引擎进行编排的平台,声网对话式 AI 模型评测平台会向客户推荐延时、成本最符合需求的产品,用户可以通过API(应用程序编程接口)集成,也可以通过Studio编排;发布对话式AI开发套件,是为了让客户和开发者更快地集成Convo AI(对话式AI)。
反观用户端,根据声网发布的对话式AI场景热力榜单,AI语音助手、AI社交和陪伴、AI潮玩是排名前三的场景。AI语音助手领域包括ChatGPT、豆包、智谱清言、MiniMax等;AI社交和陪伴领域包括Talkie、Grok 4、Soul等;AI潮玩包括珞博-Fuzozo、赋之-EBO Air 2 Plus等。
和其他技术一样,在支持对话式AI发展的过程中,RTE仍有进步空间。“目前对话式AI存在800毫秒的端到端语音延迟是合理的目标,要做到更极致的话,未来还会继续努力。”冯雯说。
行业数据显示,仅21%的用户对现有 AI 对话体验满意,部分服务的用户流失率高到“不可接受”。究其根源,人类对话中仅有7%的信息来自语言内容,超过90%的信息感知依赖于语调、表情和肢体语言等非语言要素。要实现真正的“类人对话”,企业必须系统性攻克低延迟响应、自然打断、上下文管理、情感理解与表达等复杂挑战。
“对话式AI将成为下一代AI Infra(人工智能基础设施)的重要部分”,赵斌表示。以AI 陪伴为例,ARK Invest 预测这一赛道有机会从3000万美元上涨到700亿—1500亿美元,声网对话式 AI 相关用量在2025年第三季度实现151%的环比增长。
这是一个全新市场,但如何将其转化为实实在在的营收和利润,需要时间,机会和挑战同时摆在声网和同行面前。2025年二季度声网营收3430万美元,同比增长0.5%,净利润150万美元,同比扭亏。