论文精选

法律先例分类新基准:LLM 在负面处理分类中的表现评估

Validate Your Authority: Benchmarking LLMs on Multi-Label Precedent Treatment Classification

精选理由

法律科技团队终于有了针对负面处理分类的专门评估框架——新指标和数据集能更真实反映错误风险,做法律文档自动化的开发者建议直接参考。

AI 摘要

该论文针对法律先例中负面处理的自动分类任务,提出了一种更稳健的评估框架。研究基于一个由专家标注的239个真实法律引用数据集,并引入新的平均严重性错误指标来衡量分类错误的实际影响。实验显示,Google的Gemini 2.5 Flash在高层次分类任务中准确率最高(79.1%),而OpenAI的GPT-5-mini在更复杂的细粒度分类中表现最佳(67.7%)。这项工作为法律领域的NLP任务建立了关键基线,并提供了新的评估工具。

AI 翻译 · 中文

该论文针对法律先例中负面处理的自动分类任务,提出了一种更稳健的评估框架。研究基于一个由专家标注的239个真实法律引用数据集,并引入新的平均严重性错误指标来衡量分类错误的实际影响。实验显示,Google的Gemini 2.5 Flash在高层次分类任务中准确率最高(79.1%),而OpenAI的GPT-5-mini在更复杂的细粒度分类中表现最佳(67.7%)。这项工作为法律领域的NLP任务建立了关键基线,并提供了新的评估工具。

arXiv: OpenAIAutomating the classification of negative treatment in legal precedent is a critical yet nuanced NLP task where misclassification carries significant risk. To address the shortcomings of standard accuracy, this paper int
  • berryxia05-19 16:09原文
  • Simon Willison’s Weblog05-19 22:40原文
  • IT之家05-15 23:21原文
  • AlphaSignal05-17 16:41原文
  • 向阳乔木05-18 00:29原文
  • DeepLearning.AI05-18 20:59原文
  • Greg Brockman05-19 19:32原文