• 最近访问:
发表于 2025-08-30 20:45:40 股吧网页版
中国科学院院士陈松蹊:企业可优先采用统计模型,再根据需求引入CNN等复杂AI模型
来源:财联社

  财联社8月30日讯 “在实际应用中,建议鉴于大模型训练成本高,且部分问题无需复杂模型,部分企业和行业可优先采用统计模型,再根据需求引入 CNN 等复杂人工智能模型。”

  2025中国国际大数据产业博览会召开期间,中国科学院院士、清华大学讲席教授陈松蹊接受财联社记者采访时表示。

  在智能时代,海量复杂的数据成为推动各行各业发展的关键要素,陈松蹊表示,各领域的数据存在显著共性,统计学是串联不同领域数据应用的核心基础。

  在多年深入各行各业的研究中,陈松蹊发现:“数据是相通的,我们可以统计学作为基础,把很多领域研究都串起来。”在大气环境研究中,陈松蹊团队通过密集空气质量监测站点的 PM10、PM2.5、二氧化硫、二氧化氮、臭氧等数据溯源沙尘暴变化;在医疗领域,陈松蹊团队发现脑电图是癫痫诊断与治疗的 A 类标准,研究发现沙尘暴发作与癫痫发作的数据虽有区别但在统计分析上具有共性。

  统计学与人工智能,二者存在联系但又互补。陈松蹊分析道,人工智能与统计学均基于数据,模型存在天然联系。人工智能模型的表示能力强于传统统计学中的基函数、核函数,但存在不确定性;统计学不仅能给出估计结果,还可提供不确定性的度量。目前,清华大学统计数据科学系将人工智能的统计学基础作为重要研究方向,核心是解决人工智能与统计方法的不确定性度量问题,通过区间估计等方式呈现不确定性,若估计不确定性过大,则结果无实际意义。

  在实际应用中,陈松蹊建议鉴于大模型训练成本高,且部分问题无需复杂模型,部分企业和行业可优先采用统计模型,再根据需求引入 CNN 等复杂人工智能模型。

  高质量数据集构建是一项复杂而关键的任务,需要了解模型应用场景和需求,进而开发、构建和维护数据资源,提供持续有效的高质量数据集。目前,陈松蹊团队正在构建的西太平洋高质量海洋数据集,取得了关键突破,并在测试中达到了国际水平,部分指标优于欧美国家。

  “在统计学上来讲,现在中国的研究实力已经基本上达到世界前沿了,从学理上、从应用场景上,我们不比其他国家差,所以我们现在有能力来做这个高质量数据集。”陈松蹊表示,目前国内很多科学家依赖国外数据集,且面临西方国家限制。但中国在统计学研究的学理与应用场景上已达世界前沿,具备自主构建高质量数据集的能力。

  此次参加数博会,陈松蹊表示,他很关心数据分析人才培养和隐私计算、隐私保护相关问题。在智能时代,海量复杂的数据成为推动各行各业发展的关键要素,学界对统计学人才培养问题也越发重视。统计学不仅用于政府统计,还广泛应用于商业、医学、工程、社会科学等领域。它以数据为研究对象,研究数据的采集、分析、推理等,数据科学即“统计学+应用场景”。因此,现在数据分析人才培养有很大缺口。2024年7月10日,清华大学成立统计与数据科学系,聚焦统计学核心课程体系与教材建设,培养统计学领域的拔尖创新人才。

  学界基于统计学假设检验方法提出差分隐私概念,通过加噪算法保护数据隐私,但加噪量与数据可用性存在矛盾 —— 加噪越多,隐私保护越强,但数据越可能失去意义,反之则隐私风险升高。对此,陈松蹊团队根据统计科学,提出一次性加噪算法(实际为两次加噪,涉及特殊技术原理),只需发布数据时告知噪音分布,即可普遍适用,且能在非光滑的目标函数、损失函数场景中应用。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500