越来越多人开始拿AI看病——身体不舒服、化验单看不懂,先问问AI,已经成了一种习惯。有大夫表示,“一上午30个门诊,25个带着AI来看病。” AI 的表现似乎也对得起这份信任:牛津大学的一项研究里,把整理好的完整病例直接交给顶尖通用大模型,诊断准确率高达94.9%,比很多医生还高。
但同一项研究的另一半,却很少被提起:当研究者让普通人拿着自己的病情去和同一个AI对话时,准确率一路暴跌到34.5%。问题不在模型聪不聪明,而在信息是怎么来的——完整病例是医生整理好的。可现实里,病人说不清哪里不对、不知道该讲什么,关键信息得靠大夫的一句句追问才能得到。通用大模型最不擅长的恰恰是主动追问,它默认你能完整准确地描述病情,一旦做不到,再流畅专业的回答,也只是建立在残缺信息上的幻觉。
6月22日,百川智能对外发布消息称,其近日与清华大学研究团队联合发布新一代医疗增强大模型 Baichuan-M4——它在 HealthBench 及其 Hard、Professional 三个榜单上同时位列世界第一,全面超越 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro,幻觉率低至 3.3%。
其中,在最考验复杂临床决策的Hard子集上,该模型领先达15.9分。事实性幻觉率降至3.3%,这些分数指向的不是考试能力,而是四项贴着临床走的核心能力:问诊、记忆、循证、调度。
问诊是看病的第一步。一名好医生的功力,往往就体现在问诊上——他能用一连串恰到好处的追问,引导患者把零散、模糊甚至自己都没在意的细节,一点点说成一条完整的病程。
百川智能介绍,M4会主动追问症状的性质与诱因,优先识别和排查危急重症,而不是被动等待用户提供完整信息,更不会为了尽快给出答案而跳过该问的关键病史。同时,其借鉴医学教育中长期使用的OSCE(客观结构化临床考试)方法,联合150多位一线医生,构建了动态问诊评测体系SCAN-bench。它不考查静态记忆,而是以真实临床经验为评分标准,通过多轮、动态的方式完整模拟医生从接诊到确诊的全过程。
真实的诊疗,很少在一次问诊里就结束。一次化验结果、一次用药后的反应、一个新冒出来的症状,都会随病情推进不断改写医生的判断——这意味着,谁能记住一个人完整的病史,谁才谈得上连续地看病。M4这一代推出的全病程记忆打通了历史病历、多轮问诊、化验趋势与用药反馈,让模型在多次对话中始终掌握患者是谁、既往有过哪些疾病、各项指标如何变化,而不必每次从零开始。
问诊、记忆、循证彼此割裂,单项再强,也拼不成一个能用的医疗系统。常见的做法是把多个能力按固定顺序人工调用,但患者并不会判断自己此刻该问诊、查指南还是复盘病史,衔接一旦错位,整套就卡在那里。这一步的编排,必须由模型自己完成。
承担这层编排的,是百川面向医疗场景构建的Baichuan-Harness。如果说M系列模型是医疗Agent的大脑,它就是调度这个大脑的中枢神经:何时追问、何时检索证据、何时调出既往病史,均由模型自主决定,无需人工逐步指令。同时,这套系统不是一次成型,而是在真实诊疗中持续迭代:线上的疑难案例、用户的追问、医生的纠偏,经脱敏与归因后回流,成为模型继续改进的依据。问诊、记忆、循证由此被编排成一个完整的整体,M4也从一个最强的医疗大脑,成为能独立完成连续诊疗的医疗智能体。
百川智能直言,从M1到M4,百川始终只做一件事:让AI真正能看病。这件事最难,但也最值得,它正在把原本只能满足少数人的优质诊疗资源,带到每一个普通人身边。