6月17日
10:43
10:43arXiv cs.AI@Henry Bodwell, Hong Yang, John C. Simeone, Kelvin Gorospe, Bella Sullivan, Lana Huang, Jessica Gephart, Sandy Aylesworth, Molly Masterton, Naren Ramakrishnan
论文提出IUU+DB系统,利用大语言模型(LLM)从异构文档中提取非法、未报告和未监管捕捞(IUU)及相关海鲜欺诈、劳工虐待事件信息。系统可分类是否相关,提取行为者、地点、物种、船舶、违规类型及执法结果等关键数据,并支持去重和趋势分析。案例验证表明,IUU+DB能帮助组织碎片化证据,识别地理和行为热点,为学术界、非政府组织、行业风险评估及政府政策执行提供支持。
推荐理由:这篇论文搞了个IUU+DB系统,用LLM自动从大量文档里挖出非法捕捞和海鲜欺诈的线索,能帮监管者和研究人员快速定位热点区域,挺实用的。
09:44
09:44arXiv cs.AI@Seyed Morteza Ahmadian, Paolo Monti, Carlos Natalino
光网络需要意图驱动的闭环智能体管理以提升自主性。该论文首次提出T-API兼容的推理与行动(ReAct)循环。实验使用领域特定复合工具实现了90%的oracle验证正确率。与通用工具相比,token消耗节省了三倍。
推荐理由:这篇论文首次把ReAct循环和T-API结合到光网络管理里,领域专用工具准确率更高还省token,值得一看。
09:37
09:37arXiv cs.AI@Guillermo Gil de Avalle, Laura Maruster, Shaina Raza, Christos Emmanouilidis
新基准DiagFlowBench包含50张工业诊断流程图,转化为1676轮多轮对话,对比合规与偏离流程的输入。评估10个商业和开源模型发现,模型在识别超范围输入时表现差异大,常见错误是选择真实但上下文不合适的步骤。该基准揭示了基于文档的对话系统在输入偏离时容易被看似合理但错误的建议误导的脆弱性。
推荐理由:DiagFlowBench这个新基准专门用来测语言模型在操作维护场景里,能不能识别用户问跑题的问题。10个模型测下来,差得挺大,而且那种看似合理但不对的答案最危险。论文值得一看。

仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。