10:12arXiv cs.AI@Celestine Achi论文提出九维意义智能框架(MIF),用于尼日利亚公共话语的上下文感知评估。现有基准NaijaSenti和AfriSenti仅做三向情感分类。MIF在30项校准数据集上评估Gemini 2.5 Flash,零样本下注册分类准确率33.3%,使用MIF后升至73.3%。复合意义智能分数从73.2升至78.6。编码潜台词检测提升10点,战略行动推荐提升10.3点。框架、指南和校准集已开源。论文MIFGemini 2.5 FlashNaijaSenti情感分析尼日利亚话语推荐理由:这篇论文发现AI在尼日利亚话语中常误解真实意图,他们设计的MIF框架让Gemini 2.5 Flash的注册识别准确率从33%跳到73%,成果很实在。原文
12:49arXiv: OpenAI@M. Mikail Demir, M. Abdullah Canbaz精选该论文针对法律先例中负面处理的自动分类任务,提出了一种更稳健的评估框架。研究基于一个由专家标注的239个真实法律引用数据集,并引入新的平均严重性错误指标来衡量分类错误的实际影响。实验显示,Google的Gemini 2.5 Flash在高层次分类任务中准确率最高(79.1%),而OpenAI的GPT-5-mini在更复杂的细粒度分类中表现最佳(67.7%)。这项工作为法律领域的NLP任务建立了关键基线,并提供了新的评估工具。论文法律NLPLLM评估分类任务Gemini 2.5 FlashGPT-5-mini7 个信源在谈推荐理由:法律科技团队终于有了针对负面处理分类的专门评估框架——新指标和数据集能更真实反映错误风险,做法律文档自动化的开发者建议直接参考。原文