• 最近访问:
发表于 2025-08-29 22:45:51 股吧网页版
“数据决定大模型性能上限”!国家数据局呼吁全社会强化数据要素价值认同
来源:财联社

  财联社8月29日讯(记者付静)“当前各方都普遍认为,数据资源非常重要,现在大家都愿意为模型、算力买单,我们也希望各行各业在推动行业大模型的应用过程中,也加大对数据资源的投入。再次呼吁全社会强化数据要素的价值认同,加快价值共创,共同培育为优质数据买单的共识。”8月28日开幕的2025数博会期间,国家数据局党组书记、局长刘烈宏呼吁。

  近两年人工智能产业尤以算力方向受关注,但财联社记者在2025数博会现场注意到,人工智能数据亦受到热议。28日下午,由国家数据局主办,中国信息通信研究院、中国移动通信集团承办的高质量数据集主题交流活动现场颇为火爆,不仅是“一座难求”,开场前数十位从业者站在舞台一侧,期待国家数据局的最新发声。

  全国高质量数据集累计交易额达40亿元

  本周国务院印发《关于深入实施“人工智能+”行动的意见》,持续加强人工智能高质量数据集的建设。国家数据局会同有关方面共同推动高质量数据集的建设和应用,亦已取得积极成效。

  财联社记者最新从国家数据局方面了解到,今年上半年,全国各地已建设高质量数据集超过了3.5万个,总体量超过300PB。截至目前,全国各地高质量数据集累计交易额已达40亿元,交易机构挂牌3364个高质量数据集,总规模达到246PB。

  国家数据局方面透露,为推进高质量数据集的建设,国家数据局布局建设成都、沈阳等七个数据标注基地,目前国内多数模型训练使用的中文数据占比达到了60-80%,中文高质量数据的开发和供给能力显著增强。

  同时,人工智能模型训练正推动数据交易需求上升。以北京数交所为例,高质量数据集占交易总量的比例从去年10%左右提升到目前的近80%。上海、天津、安徽等地正在试点“数据语料作价入股”模式,引导企业将高质量数据集折算为股权投入新企业。

  此外,国家数据局强调高质量数据集建设基础保障。通过建立健全数据基础制度,加快建设数据基础设施,推进公共数据开发利用,布局攻关数据领域核心技术,完善数字人才培养体系等一系列组合拳和体系化的布局,持续推进数据要素市场化改革和“人工智能+”行动同频共振,联合各部门创新工作模式,构建部门协同的工作制度,协同发力,联合施策,积极引导做好高质量数据集建设工作。

  国家数据局称,下一步将加快打造重点领域,以及具身智能、低空经济、生物制造等领域数据高地。

  财联社记者了解到,大模型能力边界几乎完全由数据的质量、规模和安全性来定义,数据是提升模型能力的关键和模型训练的基础,也是拓展智力上限和性能优化的支撑,高质量数据将有效降低模型幻觉。

  “很多专家说当前的技术条件下,人工智能的发展体现出很强的数据驱动特色。数据决定了大模型的性能上限。”刘烈宏表示。

  多家企业布局高质量数据集

  目前,多家企业的业务布局也顺应着这一趋势。

  此次数博会,财联社记者注意到,在智算服务器领域表现突出的超聚变2024年起发力数据层面,目前已构建了统一的资产与数据安全管理体系。

  超聚变CIO、城企数智事业部总裁蓝文广表示,新一代AI+数据技术改变了从业务到数智化的生产方式、业务设计与数智化实施方法框架并重构所有的业务及应用。据悉,在企业服务领域,超聚变推出的xIBT业务变革与数智化转型解决方案,依托100+场景智能体,将企业业务流程深度融入智能体架构。

  财联社记者从中国电科集团旗下的中国司法大数据研究院有限公司(以下简称“中国法研”)方面了解到,研究院为我国公共数据资源授权运营的先行先试单位,在司法领域高质量数据集建设方面,组织法律专业知识专家、法律从业者和高校法律学生共同组成数据标注团队,构建了基于法律知识体系指引的数据标注系统,通过“人机协同”方式,开展了专业领域数据标注。

  中国法研以积累的“法律法规、司法解释、指导案例、公开文书”等作为基础数据源,结合司法领域专业知识和应用场景需要,归纳和整理形成“法律问答、法条推荐、案件认知”等在内的27类司法语料库,共计600万对精调语料;同时,针对检索增强生成,基于法律实务(文书)和专家观点数据,构建了超2亿条法律行业知识。

  公开信息显示,作为产业链“链主”,目前三大运营商以数据专业公司为立脚点,致力于构建高质量数据集。其中中国移动已建成覆盖32个行业、超3500TB通用高质量数据集。

  高质量数据集建设仍面临挑战

  值得关注的是,中国信息通信研究院院长余晓晖在数博会期间发布了《高质量数据集建设指引》。

  财联社记者了解到,在上述《指引》发布背后,高质量数据集的建设仍面临诸多挑战。

  余晓晖称,目前全国已建成超过3.5万个数据集,Token消耗量呈高速增长态势,中央、地方和行业层面也在积极推动相关工作。然而,实践中仍面临诸多挑战,如数据供给、技术、治理体系和标准等问题亟待解决。

  中国法研总经理专项助理李晓智在采访中告诉财联社记者,现实应用中,数据的合法性和数据保护问题客观上增加了数据集建设的难度,技术瓶颈仍然存在,当前的算法和工具仍无法有效解决数据标注的高成本和低效率问题,尤其是在人力资源有限的情况下,如何高效、准确地完成大规模数据集的标注和清洗仍是关键问题。

  据悉,高质量的领域语料建设,是一项领域知识密集型工作,需投入大量的领域专业人员。李晓智介绍,虽然现在中国法研已经形成一套人机结合的语料构建、质量检测方法,但是人工劳动还是占语料构建30%+以上的工作量。后续中国法研考虑基于法律大模型联盟形成“数据伙伴”团队以及中国法研CNAS测评团队,共同进行行业语料集建设和评价,希望国家相关部门能够予以顶层指导和政策支持。

  吴世忠研究员亦在其演讲中提到了数据来源的合法性风险。

  同时吴世忠表示,数据内容面临可靠性风险,现实中数据集经常面临低质噪声、失实性错误甚至价值观的偏差;数据供应链方面存在风险,“应高度关注篡改的隐患,数据集从采集、标注、实用多个环节,数据供应商,外包标注团队、云平台等等,任何漏洞都可能成为攻击的入口”;数据使用方面面临伦理风险,“严防滥用与失控潜在危险,即使数据集本身合法合规,如果缺乏对使用场景的约束,也可能引发问题及某些包含生物特征的数据,人脸照片,影音片断,生成类的大模型导致深度伪造方面的技术滥用,这方面的例子出现了很多。”

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500