6月17日
09:44
09:44arXiv cs.AI@Seyed Morteza Ahmadian, Paolo Monti, Carlos Natalino
光网络需要意图驱动的闭环智能体管理以提升自主性。该论文首次提出T-API兼容的推理与行动(ReAct)循环。实验使用领域特定复合工具实现了90%的oracle验证正确率。与通用工具相比,token消耗节省了三倍。
推荐理由:这篇论文首次把ReAct循环和T-API结合到光网络管理里,领域专用工具准确率更高还省token,值得一看。
09:37
09:37arXiv cs.AI@Guillermo Gil de Avalle, Laura Maruster, Shaina Raza, Christos Emmanouilidis
新基准DiagFlowBench包含50张工业诊断流程图,转化为1676轮多轮对话,对比合规与偏离流程的输入。评估10个商业和开源模型发现,模型在识别超范围输入时表现差异大,常见错误是选择真实但上下文不合适的步骤。该基准揭示了基于文档的对话系统在输入偏离时容易被看似合理但错误的建议误导的脆弱性。
推荐理由:DiagFlowBench这个新基准专门用来测语言模型在操作维护场景里,能不能识别用户问跑题的问题。10个模型测下来,差得挺大,而且那种看似合理但不对的答案最危险。论文值得一看。
6月16日
12:19
12:19arXiv cs.LG@Gary P. T. Choi, Khanh Dao Duc, Shira Faigenbaum-Golovin, Karen Habermann, Emmanuel Hartman, Christoph von Tycowicz, Chi Zhang, Wenjun Zhao, Felix Zhou
这篇综述整理了形状空间分析的快速发展领域,提供了基于微分几何、统计学和机器学习的数学与计算框架。它围绕形状表示、鲁棒测地度量构建、形状空间统计分析和几何感知学习方法组织文献。应用涵盖亚细胞形态学和灵长类牙齿演化等多个生物组织尺度。文章最后指出了理论计算挑战以及由大规模几何数据集驱动的新机遇。
推荐理由:如果你处理非线性的几何数据(比如生物形态或3D模型),这篇综述总结了形状空间分析的核心方法,帮你理解如何比较和统计分析几何对象。
12:18
12:18arXiv cs.LG@Buqiang Xu, Zirui Xue, Dianmou Chen, Chenyang Fu, Chiyu Wu, Caiying Huang, Chen Jiang, Jizhan Fang, Xinle Deng, Yijun Chen, Yunzhi Yao, Xuehai Wang, Jin Shang, Gong Yu, Ningyu Zhang
TokenPilot提出了一种双粒度上下文管理框架,通过Ingestion-Aware Compaction稳定提示前缀并消除环境噪声,以及Lifecycle-Aware Eviction监控上下文段残余效用。在PinchBench和Claw-Eval基准测试中,TokenPilot在孤立模式下分别降低61%和56%的成本,连续模式下降低61%和87%,同时保持与先前系统相当的性能。该框架已集成到LightMem2中,可访问https://github.com/zjunlp/LightMem2。
推荐理由:想降低LLM智能体长会话的推理成本?看看TokenPilot,它通过智能管理上下文缓存,在三个基准上省了61%-87%的费用,性能还不掉队。