“数据决定大模型性能上限”！国家数据局呼吁全社会强化数据要素价值认同_财经评论(cjpl)股吧

股吧首页 > 财经评论吧 > 正文

最近访问：

财经评论吧

返回财经评论吧>>

- 重要股东股权质押数据全览

东方财富资讯君

发表于 2025-08-29 22:45:51 股吧网页版

“数据决定大模型性能上限”！国家数据局呼吁全社会强化数据要素价值认同

来源：财联社

　　财联社8月29日讯（记者付静）“当前各方都普遍认为，数据资源非常重要，现在大家都愿意为模型、算力买单，我们也希望各行各业在推动行业大模型的应用过程中，也加大对数据资源的投入。再次呼吁全社会强化数据要素的价值认同，加快价值共创，共同培育为优质数据买单的共识。”8月28日开幕的2025数博会期间，国家数据局党组书记、局长刘烈宏呼吁。

　　近两年人工智能产业尤以算力方向受关注，但财联社记者在2025数博会现场注意到，人工智能数据亦受到热议。28日下午，由国家数据局主办，中国信息通信研究院、中国移动通信集团承办的高质量数据集主题交流活动现场颇为火爆，不仅是“一座难求”，开场前数十位从业者站在舞台一侧，期待国家数据局的最新发声。

　　全国高质量数据集累计交易额达40亿元

　　本周国务院印发《关于深入实施“人工智能+”行动的意见》，持续加强人工智能高质量数据集的建设。国家数据局会同有关方面共同推动高质量数据集的建设和应用，亦已取得积极成效。

　　财联社记者最新从国家数据局方面了解到，今年上半年，全国各地已建设高质量数据集超过了3.5万个，总体量超过300PB。截至目前，全国各地高质量数据集累计交易额已达40亿元，交易机构挂牌3364个高质量数据集，总规模达到246PB。

　　国家数据局方面透露，为推进高质量数据集的建设，国家数据局布局建设成都、沈阳等七个数据标注基地，目前国内多数模型训练使用的中文数据占比达到了60-80%，中文高质量数据的开发和供给能力显著增强。

　　同时，人工智能模型训练正推动数据交易需求上升。以北京数交所为例，高质量数据集占交易总量的比例从去年10%左右提升到目前的近80%。上海、天津、安徽等地正在试点“数据语料作价入股”模式，引导企业将高质量数据集折算为股权投入新企业。

　　此外，国家数据局强调高质量数据集建设基础保障。通过建立健全数据基础制度，加快建设数据基础设施，推进公共数据开发利用，布局攻关数据领域核心技术，完善数字人才培养体系等一系列组合拳和体系化的布局，持续推进数据要素市场化改革和“人工智能+”行动同频共振，联合各部门创新工作模式，构建部门协同的工作制度，协同发力，联合施策，积极引导做好高质量数据集建设工作。

　　国家数据局称，下一步将加快打造重点领域，以及具身智能、低空经济、生物制造等领域数据高地。

　　财联社记者了解到，大模型能力边界几乎完全由数据的质量、规模和安全性来定义，数据是提升模型能力的关键和模型训练的基础，也是拓展智力上限和性能优化的支撑，高质量数据将有效降低模型幻觉。

　　“很多专家说当前的技术条件下，人工智能的发展体现出很强的数据驱动特色。数据决定了大模型的性能上限。”刘烈宏表示。

　　多家企业布局高质量数据集

　　目前，多家企业的业务布局也顺应着这一趋势。

　　此次数博会，财联社记者注意到，在智算服务器领域表现突出的超聚变2024年起发力数据层面，目前已构建了统一的资产与数据安全管理体系。

　　超聚变CIO、城企数智事业部总裁蓝文广表示，新一代AI+数据技术改变了从业务到数智化的生产方式、业务设计与数智化实施方法框架并重构所有的业务及应用。据悉，在企业服务领域，超聚变推出的xIBT业务变革与数智化转型解决方案，依托100+场景智能体，将企业业务流程深度融入智能体架构。

　　财联社记者从中国电科集团旗下的中国司法大数据研究院有限公司（以下简称“中国法研”）方面了解到，研究院为我国公共数据资源授权运营的先行先试单位，在司法领域高质量数据集建设方面，组织法律专业知识专家、法律从业者和高校法律学生共同组成数据标注团队，构建了基于法律知识体系指引的数据标注系统，通过“人机协同”方式，开展了专业领域数据标注。

　　中国法研以积累的“法律法规、司法解释、指导案例、公开文书”等作为基础数据源，结合司法领域专业知识和应用场景需要，归纳和整理形成“法律问答、法条推荐、案件认知”等在内的27类司法语料库，共计600万对精调语料；同时，针对检索增强生成，基于法律实务（文书）和专家观点数据，构建了超2亿条法律行业知识。

　　公开信息显示，作为产业链“链主”，目前三大运营商以数据专业公司为立脚点，致力于构建高质量数据集。其中中国移动已建成覆盖32个行业、超3500TB通用高质量数据集。

　　高质量数据集建设仍面临挑战

　　值得关注的是，中国信息通信研究院院长余晓晖在数博会期间发布了《高质量数据集建设指引》。

　　财联社记者了解到，在上述《指引》发布背后，高质量数据集的建设仍面临诸多挑战。

　　余晓晖称，目前全国已建成超过3.5万个数据集，Token消耗量呈高速增长态势，中央、地方和行业层面也在积极推动相关工作。然而，实践中仍面临诸多挑战，如数据供给、技术、治理体系和标准等问题亟待解决。

　　中国法研总经理专项助理李晓智在采访中告诉财联社记者，现实应用中，数据的合法性和数据保护问题客观上增加了数据集建设的难度，技术瓶颈仍然存在，当前的算法和工具仍无法有效解决数据标注的高成本和低效率问题，尤其是在人力资源有限的情况下，如何高效、准确地完成大规模数据集的标注和清洗仍是关键问题。

　　据悉，高质量的领域语料建设，是一项领域知识密集型工作，需投入大量的领域专业人员。李晓智介绍，虽然现在中国法研已经形成一套人机结合的语料构建、质量检测方法，但是人工劳动还是占语料构建30%+以上的工作量。后续中国法研考虑基于法律大模型联盟形成“数据伙伴”团队以及中国法研CNAS测评团队，共同进行行业语料集建设和评价，希望国家相关部门能够予以顶层指导和政策支持。

　　吴世忠研究员亦在其演讲中提到了数据来源的合法性风险。

　　同时吴世忠表示，数据内容面临可靠性风险，现实中数据集经常面临低质噪声、失实性错误甚至价值观的偏差；数据供应链方面存在风险，“应高度关注篡改的隐患，数据集从采集、标注、实用多个环节，数据供应商，外包标注团队、云平台等等，任何漏洞都可能成为攻击的入口”；数据使用方面面临伦理风险，“严防滥用与失控潜在危险，即使数据集本身合法合规，如果缺乏对使用场景的约束，也可能引发问题及某些包含生物特征的数据，人脸照片，影音片断，生成类的大模型导致深度伪造方面的技术滥用，这方面的例子出现了很多。”

（文章来源：财联社） [点击查看原文]

郑重声明：用户在财富号/股吧/博客等社区发表的所有信息（包括但不限于文字、视频、音频、数据及图表）仅代表个人观点，与本网站立场无关，不对您构成任何投资建议，据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容，远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息，谨防上当受骗！

评论该主题

帖子不见了！怎么办？

作者：您目前是匿名发表登录 | 5秒注册作者：，欢迎留言退出发表新主题

温馨提示： 1.根据《证券法》规定，禁止编造、传播虚假信息或者误导性信息，扰乱证券市场；2.用户在本社区发表的所有资料、言论等仅代表个人观点，与本网站立场无关，不对您构成任何投资建议。用户应基于自己的独立判断，自行决定证券投资并承担相应风险。《东方财富社区管理规定》