财联社8月29日讯(记者付静)“当前各方都普遍认为,数据资源非常重要,现在大家都愿意为模型、算力买单,我们也希望各行各业在推动行业大模型的应用过程中,也加大对数据资源的投入。再次呼吁全社会强化数据要素的价值认同,加快价值共创,共同培育为优质数据买单的共识。”8月28日开幕的2025数博会期间,国家数据局党组书记、局长刘烈宏呼吁。
近两年人工智能产业尤以算力方向受关注,但财联社记者在2025数博会现场注意到,人工智能数据亦受到热议。28日下午,由国家数据局主办,中国信息通信研究院、中国移动通信集团承办的高质量数据集主题交流活动现场颇为火爆,不仅是“一座难求”,开场前数十位从业者站在舞台一侧,期待国家数据局的最新发声。
全国高质量数据集累计交易额达40亿元
本周国务院印发《关于深入实施“人工智能+”行动的意见》,持续加强人工智能高质量数据集的建设。国家数据局会同有关方面共同推动高质量数据集的建设和应用,亦已取得积极成效。
财联社记者最新从国家数据局方面了解到,今年上半年,全国各地已建设高质量数据集超过了3.5万个,总体量超过300PB。截至目前,全国各地高质量数据集累计交易额已达40亿元,交易机构挂牌3364个高质量数据集,总规模达到246PB。
国家数据局方面透露,为推进高质量数据集的建设,国家数据局布局建设成都、沈阳等七个数据标注基地,目前国内多数模型训练使用的中文数据占比达到了60-80%,中文高质量数据的开发和供给能力显著增强。
同时,人工智能模型训练正推动数据交易需求上升。以北京数交所为例,高质量数据集占交易总量的比例从去年10%左右提升到目前的近80%。上海、天津、安徽等地正在试点“数据语料作价入股”模式,引导企业将高质量数据集折算为股权投入新企业。
此外,国家数据局强调高质量数据集建设基础保障。通过建立健全数据基础制度,加快建设数据基础设施,推进公共数据开发利用,布局攻关数据领域核心技术,完善数字人才培养体系等一系列组合拳和体系化的布局,持续推进数据要素市场化改革和“人工智能+”行动同频共振,联合各部门创新工作模式,构建部门协同的工作制度,协同发力,联合施策,积极引导做好高质量数据集建设工作。
国家数据局称,下一步将加快打造重点领域,以及具身智能、低空经济、生物制造等领域数据高地。
财联社记者了解到,大模型能力边界几乎完全由数据的质量、规模和安全性来定义,数据是提升模型能力的关键和模型训练的基础,也是拓展智力上限和性能优化的支撑,高质量数据将有效降低模型幻觉。
“很多专家说当前的技术条件下,人工智能的发展体现出很强的数据驱动特色。数据决定了大模型的性能上限。”刘烈宏表示。
多家企业布局高质量数据集
目前,多家企业的业务布局也顺应着这一趋势。
此次数博会,财联社记者注意到,在智算服务器领域表现突出的超聚变2024年起发力数据层面,目前已构建了统一的资产与数据安全管理体系。
超聚变CIO、城企数智事业部总裁蓝文广表示,新一代AI+数据技术改变了从业务到数智化的生产方式、业务设计与数智化实施方法框架并重构所有的业务及应用。据悉,在企业服务领域,超聚变推出的xIBT业务变革与数智化转型解决方案,依托100+场景智能体,将企业业务流程深度融入智能体架构。
财联社记者从中国电科集团旗下的中国司法大数据研究院有限公司(以下简称“中国法研”)方面了解到,研究院为我国公共数据资源授权运营的先行先试单位,在司法领域高质量数据集建设方面,组织法律专业知识专家、法律从业者和高校法律学生共同组成数据标注团队,构建了基于法律知识体系指引的数据标注系统,通过“人机协同”方式,开展了专业领域数据标注。
中国法研以积累的“法律法规、司法解释、指导案例、公开文书”等作为基础数据源,结合司法领域专业知识和应用场景需要,归纳和整理形成“法律问答、法条推荐、案件认知”等在内的27类司法语料库,共计600万对精调语料;同时,针对检索增强生成,基于法律实务(文书)和专家观点数据,构建了超2亿条法律行业知识。
公开信息显示,作为产业链“链主”,目前三大运营商以数据专业公司为立脚点,致力于构建高质量数据集。其中中国移动已建成覆盖32个行业、超3500TB通用高质量数据集。
高质量数据集建设仍面临挑战
值得关注的是,中国信息通信研究院院长余晓晖在数博会期间发布了《高质量数据集建设指引》。
财联社记者了解到,在上述《指引》发布背后,高质量数据集的建设仍面临诸多挑战。
余晓晖称,目前全国已建成超过3.5万个数据集,Token消耗量呈高速增长态势,中央、地方和行业层面也在积极推动相关工作。然而,实践中仍面临诸多挑战,如数据供给、技术、治理体系和标准等问题亟待解决。
中国法研总经理专项助理李晓智在采访中告诉财联社记者,现实应用中,数据的合法性和数据保护问题客观上增加了数据集建设的难度,技术瓶颈仍然存在,当前的算法和工具仍无法有效解决数据标注的高成本和低效率问题,尤其是在人力资源有限的情况下,如何高效、准确地完成大规模数据集的标注和清洗仍是关键问题。
据悉,高质量的领域语料建设,是一项领域知识密集型工作,需投入大量的领域专业人员。李晓智介绍,虽然现在中国法研已经形成一套人机结合的语料构建、质量检测方法,但是人工劳动还是占语料构建30%+以上的工作量。后续中国法研考虑基于法律大模型联盟形成“数据伙伴”团队以及中国法研CNAS测评团队,共同进行行业语料集建设和评价,希望国家相关部门能够予以顶层指导和政策支持。
吴世忠研究员亦在其演讲中提到了数据来源的合法性风险。
同时吴世忠表示,数据内容面临可靠性风险,现实中数据集经常面临低质噪声、失实性错误甚至价值观的偏差;数据供应链方面存在风险,“应高度关注篡改的隐患,数据集从采集、标注、实用多个环节,数据供应商,外包标注团队、云平台等等,任何漏洞都可能成为攻击的入口”;数据使用方面面临伦理风险,“严防滥用与失控潜在危险,即使数据集本身合法合规,如果缺乏对使用场景的约束,也可能引发问题及某些包含生物特征的数据,人脸照片,影音片断,生成类的大模型导致深度伪造方面的技术滥用,这方面的例子出现了很多。”