09:38arXiv cs.AI@Sercan Karakaş, Yusuf Şimşek该研究针对土耳其语中具有歧义的轻动词结构(LVC)进行分类,区分其字面义与习语义。研究者对比了监督学习模型(BERTurk)与三种指令微调大语言模型(LLM)在零样本、单样本和少样本提示下的表现。结果显示,零样本下LLM对LVC召回率低,单样本提示虽提升检测但引入模型特定偏差,而少样本提示能改善校准。最终,监督基线仍具竞争力,但精心设计的示例可使LLM在LVC分类上达到或超越监督模型。论文多词表达土耳其语上下文学习提示敏感性分类任务推荐理由:这项研究揭示了提示设计对多词表达分类的关键影响,做自然语言处理尤其是低资源语言语义分析的团队值得关注,直接参考其示例构建策略可提升模型效果。原文
12:49arXiv: OpenAI@M. Mikail Demir, M. Abdullah Canbaz精选该论文针对法律先例中负面处理的自动分类任务,提出了一种更稳健的评估框架。研究基于一个由专家标注的239个真实法律引用数据集,并引入新的平均严重性错误指标来衡量分类错误的实际影响。实验显示,Google的Gemini 2.5 Flash在高层次分类任务中准确率最高(79.1%),而OpenAI的GPT-5-mini在更复杂的细粒度分类中表现最佳(67.7%)。这项工作为法律领域的NLP任务建立了关键基线,并提供了新的评估工具。论文法律NLPLLM评估分类任务Gemini 2.5 FlashGPT-5-mini7 个信源在谈推荐理由:法律科技团队终于有了针对负面处理分类的专门评估框架——新指标和数据集能更真实反映错误风险,做法律文档自动化的开发者建议直接参考。原文