AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
精选
AI 自动挑选的高价值内容
全部模型产品行业论文技巧
标签:LLM评估×
5月20日
10:20
arXiv cs.AI@Hebin Hu, Renke Dai, Ah-Hwee Tan, Yilin Kang
精选58
研究团队提出一个框架,用于合成高质量、长期医疗对话数据集MediLongChat,以评估医疗AI代理的记忆和推理能力。该框架通过知识引导分解为三个阶段:构建具有多样疾病和并发症轨迹的患者档案、生成每次就诊的多轮对话、整合为连贯的纵向历史数据集。他们设立了三个基准任务(对话内推理、跨对话推理、合成推理)来测试医疗代理的记忆能力。实验表明,即使最先进的LLM在MediLongChat上也表现不佳,凸显了该基准的挑战性和开发定制方法的必要性。
论文医疗AI长期记忆对话系统数据集LLM评估

推荐理由:医疗AI开发者终于有了一个能真正测试长期记忆能力的基准——MediLongChat让跨会话推理变得可评估,做医疗对话系统的团队建议直接拿来跑跑看。
5月19日
12:49
arXiv: OpenAI@M. Mikail Demir, M. Abdullah Canbaz
精选47
该论文针对法律先例中负面处理的自动分类任务,提出了一种更稳健的评估框架。研究基于一个由专家标注的239个真实法律引用数据集,并引入新的平均严重性错误指标来衡量分类错误的实际影响。实验显示,Google的Gemini 2.5 Flash在高层次分类任务中准确率最高(79.1%),而OpenAI的GPT-5-mini在更复杂的细粒度分类中表现最佳(67.7%)。这项工作为法律领域的NLP任务建立了关键基线,并提供了新的评估工具。
论文法律NLPLLM评估分类任务Gemini 2.5 FlashGPT-5-mini

推荐理由:法律科技团队终于有了针对负面处理分类的专门评估框架——新指标和数据集能更真实反映错误风险,做法律文档自动化的开发者建议直接参考。