6月17日
09:37
09:37arXiv cs.AI@Guillermo Gil de Avalle, Laura Maruster, Shaina Raza, Christos Emmanouilidis
新基准DiagFlowBench包含50张工业诊断流程图,转化为1676轮多轮对话,对比合规与偏离流程的输入。评估10个商业和开源模型发现,模型在识别超范围输入时表现差异大,常见错误是选择真实但上下文不合适的步骤。该基准揭示了基于文档的对话系统在输入偏离时容易被看似合理但错误的建议误导的脆弱性。
推荐理由:DiagFlowBench这个新基准专门用来测语言模型在操作维护场景里,能不能识别用户问跑题的问题。10个模型测下来,差得挺大,而且那种看似合理但不对的答案最危险。论文值得一看。
6月16日
12:19
12:19arXiv cs.LG@Gary P. T. Choi, Khanh Dao Duc, Shira Faigenbaum-Golovin, Karen Habermann, Emmanuel Hartman, Christoph von Tycowicz, Chi Zhang, Wenjun Zhao, Felix Zhou
这篇综述整理了形状空间分析的快速发展领域,提供了基于微分几何、统计学和机器学习的数学与计算框架。它围绕形状表示、鲁棒测地度量构建、形状空间统计分析和几何感知学习方法组织文献。应用涵盖亚细胞形态学和灵长类牙齿演化等多个生物组织尺度。文章最后指出了理论计算挑战以及由大规模几何数据集驱动的新机遇。
推荐理由:如果你处理非线性的几何数据(比如生物形态或3D模型),这篇综述总结了形状空间分析的核心方法,帮你理解如何比较和统计分析几何对象。
12:18
12:18arXiv cs.LG@Buqiang Xu, Zirui Xue, Dianmou Chen, Chenyang Fu, Chiyu Wu, Caiying Huang, Chen Jiang, Jizhan Fang, Xinle Deng, Yijun Chen, Yunzhi Yao, Xuehai Wang, Jin Shang, Gong Yu, Ningyu Zhang
TokenPilot提出了一种双粒度上下文管理框架,通过Ingestion-Aware Compaction稳定提示前缀并消除环境噪声,以及Lifecycle-Aware Eviction监控上下文段残余效用。在PinchBench和Claw-Eval基准测试中,TokenPilot在孤立模式下分别降低61%和56%的成本,连续模式下降低61%和87%,同时保持与先前系统相当的性能。该框架已集成到LightMem2中,可访问https://github.com/zjunlp/LightMem2。
推荐理由:想降低LLM智能体长会话的推理成本?看看TokenPilot,它通过智能管理上下文缓存,在三个基准上省了61%-87%的费用,性能还不掉队。
12:13
12:13arXiv cs.LG@Martino Bernasconi, Matteo Castiglioni, Andrea Celli, Alexandros Hollender
论文证明了在超立方体上计算二次多项式的近似稳定点是PPAD难的。即使在多项式为多重线性且每个变量出现在至多3个单项式的情况下,该结论依然成立。近似因子可达到逆多项式精度。作为直接推论,首次得到了两队零和多项矩阵博弈的PPAD困难性结果。
推荐理由:这篇论文告诉你,就算是最简单的二次多项式,求极小极大问题的近似解也是超级难的,还顺带证明了博弈论里某些游戏也是难到头。
12:10
12:10arXiv cs.LG@Nathan Gavenski, Juarez Monteiro, Francisco Galuppo, Adriano Veloso, Odinaldo Rodrigues
PACT是一种混合架构,结合快速反应式RL策略与慢速SLM规划器。它异步调用2B参数SLM生成候选动作计划,经仿真验证安全、可行、完整后直接执行,无需重训练RL策略。在三个难度递增的FrozenLake配置上,PACT超越所有基线,表明规划与反应协同比单独使用更强。
推荐理由:这篇论文提出了PACT,用一个小型语言模型来规划动作,再结合强化学习策略,在FrozenLake上比纯RL效果好,而且不用重训练。

仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。