11:39arXiv cs.AI@Sangwoo Cho, Kushal Chawla, Pengshan Cai, Zefang Liu, Chenyang Zhu, Shi-Xiong Zhang, Sambit SahuBINEVAL将评估标准拆解为原子化的二元问题,由LLM独立回答后聚合为多维可解释分数。在SummEval、Topical-Chat和QAGS三个基准上,BINEVAL匹配或超越UniEval和G-Eval,尤其擅长事实一致性评估(QAGS上的表现突出)。其问题级反馈可用于迭代优化评估提示和生成提示,在IFBench的自我更新和跨模型更新设置中均有效。该方法无需训练、任务无关,且避免了现有LLM评判器的天花板效应。论文BINEVALLLM评估可解释性事实一致性自我改进推荐理由:BINEVAL把LLM评估拆成一堆“是/否”问题,结果好理解、易调试,在事实一致性上比UniEval还准,还能自己优化提示词。原文
13:03arXiv: DeepSeek@Johannes Moll, Jean-Philippe Corbeil, Jiazhen Pan, Martin Hadamitzky, Daniel Rueckert, Lisa Adams, Keno Bressem精选72°LLM智能体在结构化环境中常因操作失败而非对话失败,其可靠性依赖于对环境的程序性知识。现有自我改进方法会累积自然语言指导,但不检查新条目是否破坏已有正确行为,导致修复一个轨迹却使另一个退化。GRASP将智能体改进视为对有限技能库的编辑序列,仅当候选技能在平衡的保留测试集上产生净改进且不超过硬回归预算时才被接受。在五个基础模型和两个临床基准上,GRASP将gpt-oss-120b从40.6%提升至88.8%,超过最强基线21.0个百分点,并提升其他模型17.2至40.3个百分点。该方法还泛化到非临床环境,且技能库可在模型间迁移,强模型技能能提升弱模型表现,反之则不行。论文LLM智能体自我改进技能库回归预算门控机制推荐理由:做LLM智能体自我改进的团队终于有了一个不担心「修好一个、搞坏一个」的方案——GRASP用硬回归预算和门控机制确保每次改进都是净收益,临床场景提升显著,建议做智能体可靠性的开发者点开看看。原文