精选理由
百川AI在多个关键基准上超越ChatGPT,做医疗AI或高可靠性应用的团队值得关注其低幻觉率表现。
百川AI在HealthBench、Hard、Hallucination和ScanBench等多项基准测试中取得领先成绩,其中HealthBench得分65.1,Hard得分44.4,幻觉率仅3.5%低于ChatGPT,ScanBench全站排名第一。这显示了百川AI在医疗、推理和抗幻觉方面的显著进步,对AI应用开发者具有重要参考价值。
AI 翻译 · 中文
百川AI在HealthBench、Hard、Hallucination和ScanBench等多项基准测试中取得领先成绩,其中HealthBench得分65.1,Hard得分44.4,幻觉率仅3.5%低于ChatGPT,ScanBench全站排名第一。这显示了百川AI在医疗、推理和抗幻觉方面的显著进步,对AI应用开发者具有重要参考价值。
📊 SOTA sweep: HealthBench 65.1 / Hard 44.4 🥇 Hallucination 3.5% (lower than ChatGPT) 🛡️✨ ScanBench all-stations #1: 74.9 / 72.1 / 74.4 🏆