多智能体互审提升LLM医学问答推理能力

Let LLMs Judge Each Other: Multi-Agent Peer-Reviewed Reasoning for Medical Question Answering

精选理由

这篇论文让多个AI模型互相评审对方的思考过程,医学问答准确率比单模型高5个百分点,比投票集成也高3个百分点,有意思。

AI 摘要

提出一种多智能体互审推理方法,让多个LLM独立生成链式推理与候选答案,再互相评审事实正确性与逻辑合理性,选择最高分推理链输出最终答案。在Llama-3.1-8B、Qwen2.5-7B、Phi-4、DeepSeek-LLM-7B、GPT-oss-20B五个模型上对HeadQA、MedQA-USMLE、PubMedQA三个基准测试,平均准确率达0.820,超过单模型最佳0.777和多数投票集成最高0.789。评审可靠性高,能有效区分优质与低质推理链。

AI 翻译 · 中文

提出一种多智能体互审推理方法,让多个LLM独立生成链式推理与候选答案,再互相评审事实正确性与逻辑合理性,选择最高分推理链输出最终答案。在Llama-3.1-8B、Qwen2.5-7B、Phi-4、DeepSeek-LLM-7B、GPT-oss-20B五个模型上对HeadQA、MedQA-USMLE、PubMedQA三个基准测试,平均准确率达0.820,超过单模型最佳0.777和多数投票集成最高0.789。评审可靠性高,能有效区分优质与低质推理链。

arXiv: DeepSeekObjective: To enhance the accuracy, interpretability, and robustness of large language models (LLMs) in medical question answering (MedQA). Method: We designed a multi-agent peer-reviewed reasoning method in which mult