国家数据局近期公布数据显示,我国已建成高质量数据集总量超500PB(拍字节,计算机存储容量单位),赋能人工智能模型不断提升性能、创新持续加速。
国家数据局局长刘烈宏在2025科创大会上表示,高质量数据集是数智创新的关键资源,国家数据局联合26个部委共同制定政策文件,以场景应用为导向,推动各行业领域高质量数据集建设。
在数字化浪潮席卷全球的当下,数据已成为驱动社会经济发展的核心生产要素之一,数据如同工业时代的石油,为人工智能、大数据分析、机器学习等前沿技术提供源源不断的动力。高质量数据集作为数据的精华集合,其建设工作也成为国家数据局今年的重点之一。
今年2月份,国家数据局在北京召开高质量数据集建设工作启动会,提出加快推动形成一批标志性成果,赋能行业高质量发展;6月份,国家数据局综合司发布《关于征集高质量数据集典型案例的通知》,总结各地区、各领域在高质量数据集建设、运营和应用过程中取得的成效,遴选推广先进做法;8月份,在2025中国国际大数据产业博览会上,国家数据局启动高质量数据集建设先行先试工作,在国家数据局指导下,发布了《高质量数据集建设指引》。
中国移动通信联合会教育与科学技术研究院执行院长陈晓华对记者分析,高质量数据集的建设将促进人工智能技术的普及和应用,推动技术生态的繁荣发展。一方面,随着高质量数据集的不断丰富和完善,人工智能算法将不断优化和改进,性能将得到进一步提升,从而吸引更多的企业和开发者参与到人工智能技术的研发和应用中来,形成良性循环。另一方面,高质量数据集的建设也将催生新的技术和服务模式,如数据标注、数据清洗、数据管理等数据服务产业将迎来发展机遇,为数据集的建设提供专业支持。
陈晓华说:“人工智能,尤其是深度学习算法,对数据有着极高的依赖性,高质量数据集是训练和优化人工智能模型的基础,其丰富性、准确性和多样性直接决定了模型的性能上限。”
今年9月份,国家数据局公布高质量数据集典型案例名单,104个典型案例入选。典型案例重点在数据的赋能与创新应用,如中节能太阳能科技(镇江)有限公司申报的“节能光伏一体化综合能源高质量数据集建设”中,通过节能光伏一体化综合能源高质量数据集建设,将综合能源系统从“经验驱动、局部优化”的传统模式,升级为“数据驱动、全局最优”的智能体,重点建设构建光伏行业开放共享、多场景的一体化高质量可信数据管理业务全流程与应用生态场景建设,为行业客户提供一体化的绿色低碳运营场景和交付服务能力。
萨摩耶云科技集团首席经济学家郑磊在接受《证券日报》记者采访时表示,高质量数据集的应用将提高生产效率、降低生产成本、创新商业模式,为企业创造更大的经济效益。例如,在电子商务领域,基于用户行为数据构建的高质量数据集能够帮助企业实现精准营销,提高用户转化率和购买力,从而增加企业的销售额和利润。在制造业领域,高质量数据集的应用能够实现生产过程的智能化和自动化,提高产品质量和生产效率,降低生产成本,增强企业的市场竞争力。
郑磊认为,发展高质量数据集不仅是驱动人工智能技术实现跨越式发展、催化产业迭代升级与结构转型、强化社会治理效能、赋能科学研究革新的核心,亦将对技术生态体系、宏观经济走势、社会文化格局等维度产生深刻且广泛的影响。随着政策强化技术革新与专业人才培养,健全相关法律规制与准则框架,推动高质量数据集构建迈向稳健且可持续的发展轨道,高质量数据集的打造有望成为撬动经济增长的新引擎。