多级标注建模提升AI评估可重复性

精选理由

做AI评估和模型安全测试的团队，终于有了量化标注者偏差的方法论——多级建模直接告诉你需要多少标注才能得到可靠结论，建议做实验设计的点开看看。

AI 摘要

生成式AI模型（如LLM）的普及使系统安全性和可信度评估变得至关重要，但当前AI领域面临可重复性危机，主要源于不可靠的评估和不可重复的实验结果。人类评估者引入的偏见和主观意见加剧了这一问题，而现有评估实践通常每个项目仅使用3-5个标注，且缺乏持久评估者标识。该研究提出一种多级自助法（bootstrapping）来建模标注者行为，利用大量标注数据和持久评估者标识，分析项目数量（N）与每个项目响应数（K）之间的权衡，以达成统计显著性。这项工作为改进评估可重复性提供了方法论基础。

AI 翻译 · 中文

arXiv cs.LGAs generative AI models such as large language models (LLMs) become more pervasive, ensuring the safety, robustness, and overall trustworthiness of these systems is paramount. However, AI is currently facing a reproducib…

阅读原文