多智能体互审提升LLM医学问答推理能力

精选理由

这篇论文让多个AI模型互相评审对方的思考过程，医学问答准确率比单模型高5个百分点，比投票集成也高3个百分点，有意思。

AI 摘要

提出一种多智能体互审推理方法，让多个LLM独立生成链式推理与候选答案，再互相评审事实正确性与逻辑合理性，选择最高分推理链输出最终答案。在Llama-3.1-8B、Qwen2.5-7B、Phi-4、DeepSeek-LLM-7B、GPT-oss-20B五个模型上对HeadQA、MedQA-USMLE、PubMedQA三个基准测试，平均准确率达0.820，超过单模型最佳0.777和多数投票集成最高0.789。评审可靠性高，能有效区分优质与低质推理链。

AI 翻译 · 中文

arXiv: DeepSeekObjective: To enhance the accuracy, interpretability, and robustness of large language models (LLMs) in medical question answering (MedQA). Method: We designed a multi-agent peer-reviewed reasoning method in which mult…

阅读原文