精选理由
RubricsTree用4000条真实查询构建100多条可验证规则,评估健康AI比LLM裁判更准,还能当训练奖励,让Gemini等模型性能飙升66%。
RubricsTree是一个专家对齐的分层评估框架,包含超过100个可临床验证的原子布尔规则,这些规则从4000个真实用户查询中通过迭代人机协作提炼而成。框架使用上下文自适应路由器为每个查询激活相关子集,实现可扩展且与专家质量对齐的评估。在元评估中,RubricsTree在专家对齐上显著超过强基线,且可靠惩罚上下文退化的响应。作为结构化指令、文本反馈或训练奖励用于性能优化时,RubricsTree在HealthBench上为Gemini、GPT和Qwen系列模型带来高达约66%的相对提升。
AI 翻译 · 中文
RubricsTree是一个专家对齐的分层评估框架,包含超过100个可临床验证的原子布尔规则,这些规则从4000个真实用户查询中通过迭代人机协作提炼而成。框架使用上下文自适应路由器为每个查询激活相关子集,实现可扩展且与专家质量对齐的评估。在元评估中,RubricsTree在专家对齐上显著超过强基线,且可靠惩罚上下文退化的响应。作为结构化指令、文本反馈或训练奖励用于性能优化时,RubricsTree在HealthBench上为Gemini、GPT和Qwen系列模型带来高达约66%的相对提升。
The LLM-empowered personal health agents with user health (sensor) metrics have offered a promising pathway to alleviate global disparities in healthcare access. However, large-scale clinical deployment remains constrain…