大模型接下来的发展趋势如何?如何进行商业化落地?选择开源还是闭源?一系列问题在刚刚闭幕的2025世界人工智能大会(WAIC)上备受各方关注。
“大模型的技术发展到今天,可以说在繁花似锦的背后,也进入了一个十字路口。在技术路径的各个不同的层面有很多不同的声音。”商汤科技联合创始人、执行董事、首席科学家林达华如是说道。
《中国经营报》记者了解到,林达华所说的“十字路口”实际是指大模型发展至当下在四个维度上呈现了道路的分化,涵盖预训练与强化学习、真实数据与合成数据、基础模型与Agent(智能体)、开源与闭源,简单总结起来,集中表现为技术路径选择和商业落地路径的探索。
技术路径的选择与演进
林达华指出,大模型在最近半年里发生了范式性的转移,即从原来由OpenAI开创的以预训练为主、监督学习为辅,逐渐转移到通过强化学习显著提升推理的范式。
阶跃星辰首席科学家张祥雨表示,预训练的本质是“行为克隆”,其固有缺陷无法用扩大数据或模型的方式解决。强化学习则让模型拥有了带反思的思维链,解决了仅靠压缩语料无法完成的推理难题。他预测下一阶段关键的路径是强化学习将接受自然语言反馈,实现“测试时训练”(Test-Time Training,指边测试,边学习),让模型像人一样在真实世界中自主探索。
记者注意到,本届WAIC大会期间,阶跃星辰推出新一代基础大模型Step3,并在7月31日面向全球开源,主打多模态推理能力,官方称利用国产芯片32K上下文推理效率最高可达DeepSeek R1的300%。除此之外,阿里巴巴、腾讯、京东、商汤、月之暗面等公司纷纷展示了最新的大模型成果。
上海人工智能实验室青年领军科学家、“书生”大模型负责人陈恺在认可强化学习大放异彩的同时,也提醒了强化学习面临的“确定性奖励”局限与基础设施(指探索学习需消耗海量算力)挑战。
值得注意的是,在大模型技术范畴内,如何突破数据瓶颈成为业界关注的重点问题。智谱华章总裁王绍兰指出:“从预训练的结果来看,数据质量对模型的输出影响巨大,包括我们看到未来的推理,数据质量对推理正确路径的生成将起到至关重要的作用。”
对于业内有关“互联网数据耗尽”的声音,王绍兰表示,所谓“数据耗尽”是一个“量”的概念,更重要的还有“质”的问题。数据质量对于预训练模型的输出质量影响巨大,而且对于推理正确路径的生成也起到至关重要的作用。
在王绍兰看来,行业数据在未来的行业模型应用中将发挥重要作用,而目前大量的行业数据还没有被训练,行业数据将成为垂直型应用公司的最大壁垒。
“数据短缺将成为关键难题,尤其是那些难以获取、成本高昂、涉及伦理争议或敏感隐私的数据。”英伟达全球开发者生态副总裁Neil Trevett认为,解决这一问题的有效途径是利用物理模拟生成训练场景。英伟达的做法是由基础模型Cosmos生成逼真场景,采集高精度标注数据,这尤其适合训练一些极端或罕见场景——如重大车祸事故、机器人发生异常等,这些场景在真实世界几乎无法采集或难以复现。需要注意的是,模拟仿真数据还要结合真实场景进行基准测试和验证、校准训练过程,以减少合成数据的缺陷与偏差。
据新华社报道,截至目前,我国已发布了1509个大模型,在全球已发布的3755个大模型中以40%的占比位居首位,我国人工智能产业发展有望迎来新的突破。
商业化落地的探索
随着大模型应用的深入,业内提出了一个“向左走还是向右走”的问题,向左走是指继续加大投入去做基础模型的研发,这需要巨额的资金资源,向右走即快速地去构建商业闭环,能够将模型能力实现深入的落地,如何平衡两者的关系成为当前行业的一个重要议题以及企业面临的生存考验。
王绍兰介绍,智谱既在做基座模型的研发,也在推进大量行业应用。这主要是因为,基础模型仍在早期发展阶段,如果按照类比自动驾驶的分级,通往AGI的道路连一半都还没到,所以基础模型仍需要持续投入研发迭代。与此同时,大模型的价值在于实际应用,不能仅仅停留在纯理论研究层面,大模型需要通过商业化的落地来验证其对产业的改造能力。王绍兰呼吁,希望各个行业的领军企业共同参与大模型的应用推广,用大模型的思维来改变世界,推动整个社会的进步。
范式集团联合创始人、首席科学家陈雨强表示,从范式集团服务企业大模型落地应用的实践中,能够看到当前学界的一些大模型与行业落地之间存在着一定的鸿沟。他以金融领域的反欺诈场景为例,高敏感场景甚至需要独立训练基座模型,企业需要建立统一的开源/闭源调度平台,既吸收前沿的技术能力,又保护数据安全。
无论是大模型厂商,还是企业的大模型应用,开源还是闭源同样是商业化道路上的一道选择题。记者了解到,在国内大模型企业中,包括阿里巴巴、智谱、月之暗面、阶跃星辰等大模型主流参与者都加入了开源的队伍中。
“开源在现在的大模型时代发挥了非常重要的作用。”陈恺认为,“开源不一定能够拿出最好的模型,但开源一定能够促使大家把更多的资源合理化地调配和应用,避免重复投入。如果你的闭源模型做不过开源模型,那还有什么存在的意义和价值?”
Neil Trevett表示,在AI时代之前,开源就已经成为推动行业发展的重要工作和机制,英伟达高度重视确保每个行业都能取得成功,特别是在开源领域。不过,对于企业来说,在是否选择开源方面必须权衡利弊——采用开源是否能真正节省人力成本、提升业务效率?将自己的技术成果开源是否会削弱自身的竞争优势?这些问题并没有绝对正确的答案。行业企业最终要在开源与闭源、权衡利弊之间找到最佳平衡点。展望未来,Neil Trevett认为,未来的状态将是开放权重、部分闭源和混合架构长期共存,企业或采取混合架构的模式——部分组件开源构建生态,而核心模块则采用闭源以保护商业利益最大化。