8月14日,国家发展改革委党组成员、国家数据局局长刘烈宏在国新办“高质量完成‘十四五’规划”系列主题新闻发布会上透露,今年将推出数据产权等10多项制度。
国家数据局高规格参加了这场发布会。国家数据局副局长沈竹林、副局长陈荣辉、副局长夏冰也同时现场出席,介绍“十四五”时期数字中国建设发展成就。据介绍,我国正不断完善数据基础设施和基础制度,已有20多个地方出台了数据条例;截至今年6月底已建设高质量数据集超3.5万个,支持人工智能发展;2024年数据产业规模达到5.86万亿元,较“十三五”末增长117%。

图自国新网(张馨摄)
数据基础设施年底覆盖80%省(区、市)
将推出数据产权等10多项制度
“十四五”时期,我国数智技术加速应用使人们的生产生活方式以及社会治理方式都发生了深刻改变。当前,我国网民数量达到11.23亿人,互联网普及率达到79.7%。在此背景下,我国数据规模持续扩大。据全国数据资源统计调查,2024年我国数据生产量达到41.06泽字节,比“十三五”末翻一番多,占全球数据总量达到26.67%。
数字经济蓬勃发展对数据流通利用和价值释放提出了新的要求。夏冰表示,为促进数据流通,国家数据局从去年开始启动数据基础设施建设工作,一方面抓规范、促共识,实现数据领域的“车同轨、书同文”,制定发布了《国家数据基础设施建设指引》;另一方面抓试点、重落地,确保设施建设“跑得通、用得好”。
截至目前,国家数据局已建成包含北上广深杭等25个城市在内的城市节点,布局了16个省(区、市)的数据基础设施架构,并在7月底全面完成互联互通。预计到今年底,节点城市规模将扩大到50个左右,覆盖80%的省(区、市),为数据规模化跨域流通奠定设施基础。此外,针对“找数用数难”“规模流通难”“跨域加工难”等共性难题,组织了数场、可信数据空间等6个技术路线的创新探索,加快推动关键技术攻关、典型应用场景适配以及统一标准验证工作。
在数据基础制度方面,自去年至今,国家数据局印发了《关于加快公共数据资源开发利用的意见》以及资源登记、授权运营、价格机制相关政策,形成了“1+3”的政策体系;《政务数据共享条例》也于今年8月1日起正式实施。各部门推出了50多项配套政策措施;省市两级制定公共数据授权运营相关政策超过87项,有20多个地方出台了数据条例,还有10个数据要素综合试验区也在积极探索。
对于市场普遍关心的数据产权制度问题,刘烈宏在发布会上透露,国家数据局今年将推出数据产权等10多项制度。
数据基础设施和基础制度的不断完善,带动数据流通市场日趋活跃。夏冰表示,“十四五”期间,数据基础设施建设吸引接入了包括数据交易所、数据开发商供数、治数、用数等各类主体超过2000家,吸纳了产学研1200余家单位参与设施标准制定;支撑政务治理、金融风控等上百个场景应用,上架了近万个数据产品。
沈竹林提到,全国一体化数据市场培育从无到有、逐渐深入,目前在北京、上海、浙江等地已经实现数据产品“一地上架、全国互认”,数据流通交易合同示范文本的发布也将大幅降低数据流通成本。
超3.5万个高质量数据集支持“人工智能+”
长三角成为数据产业重要增长极
我国是首个把数据作为生产要素的国家。对数据价值深度挖掘的需求,与我国人工智能应用的快速发展紧密相关。研究显示,2024年初,我国日均Token(处理文本的最小数据单元)消耗量为1千亿;截至今年6月底,这一数字已突破30万亿,增长了300多倍。我国人工智能专利数量已占全球总量的60%。
算力是“骨骼”、算法是“神经”、数据是“血液”,大模型训练对高质量数据集的需求也在同步增长。
刘烈宏在发布会上强调:“‘人工智能+’行动到哪里,高质量数据集的建设和推广就要到哪里。”他透露,截至今年6月底,我国已经建设高质量数据集超过3.5万个,总体量超过400PB。国内多数模型训练使用的中文数据占比已经超过了60%,有的模型已达到80%。此外,国家数据局还布局了成都、沈阳、合肥等7个数据标注基地,助力高质量数据集的建设。
人工智能模型的训练推动了数据交易需求的攀升。刘烈宏介绍,截至今年6月底,各地高质量数据集累计交易额近40亿元,数据交易机构挂牌的高质量数据集总规模达到246PB。以北京数交所为例,高质量数据集占交易总量的比例从去年的10%跃升到目前的近80%。
沈竹林也提到,监测数据显示,今年上半年,主要数据交易机构新上架的高质量数据集产品同比增长了2.8倍。上海、天津、安徽等地还在试点“数据语料作价入股”等新模式,引导企业将高质量数据集折算为股权投入到相关企业。
随着数据技术正从商业智能(BI)向人工智能(AI)演进,以数据深度挖掘和融合应用、算法算力和数据高度集成为主要特征的产业生态正在形成。
据国家数据发展研究院研究,2024年,全国数据企业数量超过40万家,数据产业规模达5.86万亿元,较“十三五”末增长117%,预计未来几年仍将保持较高的增长水平;上市数据企业平均研发投入较“十三五”末增长79%,年均增速达到15.7%。长三角是我国数据产业的重要增长极,2024年数据产业规模占全国的22.6%,集聚数据企业超过了10万家。北京、上海、广州、深圳、杭州等城市的产业生态化集聚趋势也较为明显。
越来越多的市场主体投入到了数据市场建设中来。沈竹林表示,据统计,仅今年二季度,主要数据交易机构新增供需主体达到2600多家;中央企业新成立数字科技类公司近500家,约有三分之二的龙头企业积极采购了物流、气象等数据。陈荣辉提到,基于气象数据开发的产品和服务超过了1.4万个,支撑了近13万个应用场景。