RubricsTree:面向个人健康代理的可扩展开放式评估框架

RubricsTree: Scalable and Evolving Open-Ended Evaluation of Personal Health Agents across Health Memory and Medical Skills

精选理由

RubricsTree用4000条真实查询构建100多条可验证规则,评估健康AI比LLM裁判更准,还能当训练奖励,让Gemini等模型性能飙升66%。

AI 摘要

RubricsTree是一个专家对齐的分层评估框架,包含超过100个可临床验证的原子布尔规则,这些规则从4000个真实用户查询中通过迭代人机协作提炼而成。框架使用上下文自适应路由器为每个查询激活相关子集,实现可扩展且与专家质量对齐的评估。在元评估中,RubricsTree在专家对齐上显著超过强基线,且可靠惩罚上下文退化的响应。作为结构化指令、文本反馈或训练奖励用于性能优化时,RubricsTree在HealthBench上为Gemini、GPT和Qwen系列模型带来高达约66%的相对提升。

AI 翻译 · 中文

RubricsTree是一个专家对齐的分层评估框架,包含超过100个可临床验证的原子布尔规则,这些规则从4000个真实用户查询中通过迭代人机协作提炼而成。框架使用上下文自适应路由器为每个查询激活相关子集,实现可扩展且与专家质量对齐的评估。在元评估中,RubricsTree在专家对齐上显著超过强基线,且可靠惩罚上下文退化的响应。作为结构化指令、文本反馈或训练奖励用于性能优化时,RubricsTree在HealthBench上为Gemini、GPT和Qwen系列模型带来高达约66%的相对提升。

arXiv cs.AIThe LLM-empowered personal health agents with user health (sensor) metrics have offered a promising pathway to alleviate global disparities in healthcare access. However, large-scale clinical deployment remains constrain