日前,在2025金融街论坛年会上,《每日经济新闻》记者(以下简称“NBD”)现场采访到美国国家科学院院士、清华大学兴华卓越讲席教授、清华大学统计与数据科学系主任刘军教授。
他认为,AI(人工智能)要实现更高层次的发展,可能需要突破当前大模型靠统计概率“预测下一个词元(Token)”模式内在形成的潜在瓶颈。虽然现行方法对这一模式有各种细节上的改进,但还没有找到另一个更高级的主导模式。
刘军教授一直从事贝叶斯统计理论、蒙特卡洛方法、统计机器学习、状态空间模型和时间序列、生物信息学等方向的研究,并做出杰出贡献,对大数据处理和机器学习领域有深远影响。
刘军在采访中也谈到统计学自身发展。他指出,数十年来,生物医学和其他大规模数据生成技术的发展驱动了统计学基础学科持续前行。
记者了解到,刘军教授提出的“Gibbs保守串抽样和指针”曾是生物学者寻找DNA和蛋白序列中精巧模式的最流行的两种算法之一,在了解基因调控和蛋白同源性方面有非常成功的应用。

刘军教授演讲现场来源:每经记者张寿林摄
NBD:大型语言模型依托大数据与统计概率,通过持续预测下一个字生成语言回复,这与外界以为的AI按照语义来推理判断有很大不同。你如何看待这一问题?
刘军:如果认为大型语言模型理解语义,那就是浪漫叙事。大语言模型的基石就是“Next Token Prediction”,即一个字一个字地预测,并未真正“理解”语言本身,尽管DeepSeek、ChatGPT等工具经常会给出惊艳的结果。“Next Token Prediction”在统计专业上又叫“Auto Regressive Model”,即自回归模型,通过词语(时间)序列间的关联,一步步向前预测。从这个角度看,它有可能成为AI模型向更高层次发展的一个潜在瓶颈,因此,语言模型或许需要考虑下一步如何突破这种思路。
事实上,目前已有人在尝试新的思路,不再是一个字一个字地预测,而是可以一段一段地生成,类似于先搭建一个句子框架,再填充具体字词。
在这一思路下,训练时每一个字是隐码,即字码所在位置为空,相当于通过去噪的方式生成结果。据反映,这一方法的结果还不错,但目前看很难说比“Next Token Prediction”效果更好。
这种整体规划式生成语言的模式,更像人类思考和表达过程,这一模式的继续发展可能会带来新的惊喜,但其前景尚存在不确定性。
NBD:统计学基础领域发展至今,已相当成熟。当前,该学科基础领域还面临哪些待解问题?
刘军:统计学是一门开放学科,换言之,它并非有一套固定的问题等着去解决,也不会因某类问题的解决而宣告“完成发展”。
统计学科的很多问题源自实践。比如,由于大家关注大模型的相关问题,统计学中高维数据方面的问题也获得更多讨论,这就是应用驱导下的问题和方法探索。
回顾统计学最初发展,该学科主要受天文星象学研究和社会人口研究驱动。进入20世纪,由于遗传学发展、农业育种、工业实验设计发展等,统计学进一步发展。
以英国统计学家费希尔为例,他同时也是知名遗传学家。针对群体遗传研究的需求,他提出了著名的概率论进化模型;针对农业实验的需求,他又提出了随机拉丁方设计方法,以及方差分析等统计推断理论与方法。
数十年来,医学、生物学的快速发展驱动统计学不断前行。我自身也在从事生物信息学方面的研究。以分子生物学为例,基因芯片信息中隐含着细胞内基因的表达与否。通过分析这些基因的遗传与变异规律,可判断特定变异与疾病的关联,进而为针对性药物开发提供支持。这些过程均需要统计学不断更新自身方法以适配需求。
NBD:外界也比较关注统计学的另一个应用场景,即股票投资。这也是一个概率决策的过程。从这一角度,统计学专业背景的投资者能否在股票投资上表现更优?
刘军:据我所知,投资机构确实愿意雇用具有统计专业背景的人。但对于个人投资,统计学学得扎实并不意味着个人投资业绩一定就好,因为投资还需要研究宏观经济等多个方面,并且需要大量训练、大量资金和精力。因此,对于个人而言,精力上可能不足以应对,资金量也无法支持频繁买卖。整体看,还是大型头部投资机构和对冲基金在投资上表现更佳