百川发布新一代医疗增强大模型 M4：登顶 OpenAI 医疗评测，超越 GPT-5.5

精选理由

百川发了医疗增强大模型 M4，在 HealthBench 碾压 GPT-5.5，幻觉率仅 3.3%，看病问诊更靠谱。

AI 摘要

百川智能与清华大学联合发布医疗增强大模型 Baichuan-M4。该模型在 HealthBench 综合得分 68.6，超越 GPT-5.5 超 10 分，幻觉率低至 3.3%。在 SCAN-bench 动态问诊评测中初诊 79.0、复诊 74.7，均领先 GPT-5.5、DeepSeek-V4-Pro 和 Claude Opus 4.7。M4 还具备全病程记忆功能，长上下文临床记忆得分 86.9，较上一代 M3 提升 21.1 分。其证据锚定机制使循证引用精度达到 90.0，远超 GPT-5.5 的 54.7。

AI 翻译 · 中文

IT之家IT之家 6 月 22 日消息，百川智能与清华大学研究团队今日联合发布新一代医疗增强大模型 Baichuan-M4 。该模型在 HealthBench 及其 Hard、Professional 三个榜单上同时位列世界第一，全面超越 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro，幻觉率低至 3.3%。在 OpenAI 提出的医疗评测 HealthBench 上，M4 综合得分 68.6，位列世界…

arXiv: OpenAI06-21 05:03原文
OpenAI Blog06-23 17:00原文
berryxia06-20 17:50原文
@koltregaskes06-21 19:49原文
shao__meng06-23 03:45原文
Aravind Srinivas06-23 04:30原文
marktechpost06-23 06:35原文
Decoder06-23 10:43原文
Gary Marcus06-23 16:48原文
orange.ai06-23 21:58原文

阅读原文