• 最近访问:
发表于 2026-05-22 06:58:40 股吧网页版
现代AI系统通过图灵测试首获证实
来源:科技日报

  美国加州大学圣迭戈分校科学家开展了一项实证研究,首次证明现代人工智能(AI)系统通过了图灵测试。相关论文发表于新一期《美国国家科学院院刊》。

  这是首个严格采用图灵测试来评估大语言模型的研究。图灵测试由英国数学家、“计算机科学之父”阿兰·图灵于1950年提出,是检验机器能否逼真模仿人类对话、使人们无法将其与真人区分开来的重要科学基准。

  为获得更具代表性的结果,团队研究了两组人群:一组是美国加州大学圣迭戈分校本科生;另一组是通过Prolific平台招募的更广泛的在线样本。整个实验共有近500人参与。

  在随机对照试验中,参与者同时与另外两方聊天,一方是人类,另一方是大语言模型。实验涉及4种模型,包括目前最先进的GPT-4.5和LLaMa-3.1-405B,以及较旧的基线模型GPT-4o和ELIZA,后者是20世纪60年代基于规则的经典聊天机器人。

  结果显示,GPT-4.5在73%的情况下被判定为人类,这意味着参与者将其选为“人类”的频率,明显高于他们选择真实人类参与者的频率。在同样提示下,LLaMa-3.1-405B在56%的情况下被判定为“人类”,在统计学上与其所比较的真实人类没有显著区别。基线系统的表现则逊色得多:ELIZA和GPT-4o总体上分别只有23%和21%的情况被选为“人类”。

  若给予恰当的提示,先进大语言模型能表现出与人类无异的语气、直率、幽默,乃至易犯的错误。科学家此前已知道,大语言模型几乎可以轻松生成与任何主题相关的知识,但这项测试表明,它还能令人信服地展现社会行为特征,这对人们如何看待AI具有重大意义。

  团队表示,每个大语言模型都有“性格”,会采用特定的人物设定和沟通风格。大语言模型并非依靠展示知识的能力取胜,而是因其像人类一样会犯错而胜出。这些特征,与他们认为图灵所设想的那种数学与逻辑解题能力并不相同。

  不过,团队也发现,若无明确指示,这些模型被误认为人类的概率便会大打折扣:GPT-4.5的获选率降至36%,LLaMa-3.1降至38%,基线系统ELIZA和GPT-4o被选为人类的概率则更低。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500