精选理由
法律科技团队终于有了针对负面处理分类的专门评估框架——新指标和数据集能更真实反映错误风险,做法律文档自动化的开发者建议直接参考。
该论文针对法律先例中负面处理的自动分类任务,提出了一种更稳健的评估框架。研究基于一个由专家标注的239个真实法律引用数据集,并引入新的平均严重性错误指标来衡量分类错误的实际影响。实验显示,Google的Gemini 2.5 Flash在高层次分类任务中准确率最高(79.1%),而OpenAI的GPT-5-mini在更复杂的细粒度分类中表现最佳(67.7%)。这项工作为法律领域的NLP任务建立了关键基线,并提供了新的评估工具。
AI 翻译 · 中文
该论文针对法律先例中负面处理的自动分类任务,提出了一种更稳健的评估框架。研究基于一个由专家标注的239个真实法律引用数据集,并引入新的平均严重性错误指标来衡量分类错误的实际影响。实验显示,Google的Gemini 2.5 Flash在高层次分类任务中准确率最高(79.1%),而OpenAI的GPT-5-mini在更复杂的细粒度分类中表现最佳(67.7%)。这项工作为法律领域的NLP任务建立了关键基线,并提供了新的评估工具。
Automating the classification of negative treatment in legal precedent is a critical yet nuanced NLP task where misclassification carries significant risk. To address the shortcomings of standard accuracy, this paper int…