9月21日,青海数据要素生态大会在西宁举行,本次大会以“激活数据要素价值,赋能青海高质量发展”为核心主题,会聚了众多行业领袖与专家,共同探讨数据要素与区域经济的深度融合路径。
会议期间,中国信息通信研究院人工智能研究所平台与工程化部副主任李荪,以“站在AI产业与企业端”的务实视角,结合团队研究实践,深入剖析了数据在人工智能领域的关键地位及未来趋势。
近年来,人工智能的发展有目共睹,AI大模型的创新应用也逐步进入日常生产生活。随着人工智能的模型训练及可信AI的研究实践加速深入,人工智能领域正在经历一场深刻的范式变革。
转向“以数据为中心”
自2022年开始,人工智能研究和应用重点逐步从“模型为中心”(Model-centricAI,MCAI)转向“数据为中心”(Data-centricAI,DCAI)。也就是说,在模型相对固定的前提下,通过提升数据的质量和数量来提升整个模型的训练效果。
“人工智能每次阶段性的进步,数据都扮演着重要角色,尤其在大模型时代,海量、高质量、多样化的数据集,成为拉开模型能力差距的关键要素。”李荪认为,人工智能持续演进对数据集提出了新要求,而且,大模型技术对数据集质量和工程路线也提出了更高要求。
在技术层面,大模型对数据集的要求主要体现在三个方面,包括规模可扩展性增强、多任务适应性增强以及能力可塑性增强。
具体来说,参数规模和计算量的增加带来了模型性能的持续提升,而一个模型能同时支持多种任务和多个模态,甚至实现跨模态,已成为新的技术追求。为了实现这些目标,迫切需要强化四类数据集的供给,包括多模态数据集、具身智能数据集、推理思维链数据集和长视频数据集。
李荪表示,这些数据集将使模型更加全面和精准地理解和处理任务,增强机器人在多样化环境和任务中的适应性和决策智能,并促进模型推理能力的大幅提升。
此外,大模型的研究训练中,进一步强化学习新范式聚焦于高质量推理型数据集,通过收集大量的推理相关训练样本和非推理训练样本,推理训练监督微调数据占比大幅减少,从而提高了模型的推理能力。
高质量数据集建设
数据产业和人工智能的发展离不开政策的助力,近年来,国家部委和地方政府加大对“人工智能+高质量数据集”的支持,政策协同效应开始显现。
作为数据要素领域的行动指南,《“数据要素×”三年行动计划》,强调打造高质量人工智能大模型训练数据集。2025年国务院国资委发布首批30项央企高质量数据集,覆盖了能源、物流等关键领域。
同时,《关于促进数据标注产业高质量发展的实施意见》的落地,提出通过提升数据集质量、扩大应用场景、强化技术创新等举措,为人工智能产业发展提供关键支撑。截至2025年3月底,沈阳、保定等7个数据标注基地建设高质量数据集335个。
而且,从地方层面的实践来看,高质量数据集建设已经在各地开花。比如,上海市明确“2025年形成1000个高质量数据集”的目标,苏州市发布首批30个工业、交通领域数据集,北京市、山东省等11个地区则通过奖补政策激励数据建设等。
李荪提出,“AI与数据的融合,最终要形成产业‘飞轮’”,优质数据集能支撑企业研发出更优行业大模型,而大模型应用落地后,又会采集到更多真实场景数据,反哺数据集迭代。基于此,她认为,未来拥有高质量数据的企业,会持续拉开与同行的差距。
不过,在AI与数据的融合落地实践中,仍存在一些问题。李荪指出,当前企业在构建数据集时普遍面临目标定位模糊、实施路径碎片化以及技术底座薄弱等挑战。许多企业陷入“为数据而数据”的误区,未能将数据工程目标与核心业务指标深度绑定,导致数据价值难以转化为模型性能的实际提升。
展望未来,李荪表示,随着技术的不断进步和应用场景的持续拓展,数据与人工智能的深度融合将成为不可逆转的趋势。