百川发布新一代医疗增强大模型 M4:登顶 OpenAI 医疗评测,超越 GPT-5.5

精选理由

百川发了医疗增强大模型 M4,在 HealthBench 碾压 GPT-5.5,幻觉率仅 3.3%,看病问诊更靠谱。

AI 摘要

百川智能与清华大学联合发布医疗增强大模型 Baichuan-M4。该模型在 HealthBench 综合得分 68.6,超越 GPT-5.5 超 10 分,幻觉率低至 3.3%。在 SCAN-bench 动态问诊评测中初诊 79.0、复诊 74.7,均领先 GPT-5.5、DeepSeek-V4-Pro 和 Claude Opus 4.7。M4 还具备全病程记忆功能,长上下文临床记忆得分 86.9,较上一代 M3 提升 21.1 分。其证据锚定机制使循证引用精度达到 90.0,远超 GPT-5.5 的 54.7。

AI 翻译 · 中文

百川智能与清华大学联合发布医疗增强大模型 Baichuan-M4。该模型在 HealthBench 综合得分 68.6,超越 GPT-5.5 超 10 分,幻觉率低至 3.3%。在 SCAN-bench 动态问诊评测中初诊 79.0、复诊 74.7,均领先 GPT-5.5、DeepSeek-V4-Pro 和 Claude Opus 4.7。M4 还具备全病程记忆功能,长上下文临床记忆得分 86.9,较上一代 M3 提升 21.1 分。其证据锚定机制使循证引用精度达到 90.0,远超 GPT-5.5 的 54.7。

IT之家IT之家 6 月 22 日消息,百川智能与清华大学研究团队今日联合发布 新一代医疗增强大模型 Baichuan-M4 。 该模型在 HealthBench 及其 Hard、Professional 三个榜单上 同时位列世界第一 ,全面超越 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro,幻觉率低至 3.3%。 在 OpenAI 提出的医疗评测 HealthBench 上,M4 综合得分 68.6,位列世界