X·KOLX:arXiv cs.LG (@Richard J. Young, Gregory D. Moody)
该论文指出,通用语言模型回答有害问题返回文本,而编程模型若遵从恶意请求可能返回可运行的武器(如键盘记录器、勒索软件)。因此,编程模型应比通用模型有更高的拒绝标准,但现有基准测试碎片化,无法有效衡量。作者整合了8个语料库(共6675条提示),通过5位评审共识协议分类,区分了可执行恶意代码请求(CODE)和有害安全知识请求(KNOWLEDGE)。最终发布了4748条CODE提示和1923条KNOWLEDGE提示,为评估编程模型对恶意代码的拒绝能力提供了可靠工具。
X·KOLX:arXiv cs.AI (@Jizhan Fang, Buqiang Xu, Zhixian Wang, Haoliang Cao, Xinle Deng, Baohua Dong, Hangcheng Zhu, Ruohui Huang, Gang Yu, Ying Wei, Guozhou Zheng, Feiyu Xiong, Haofen Wang, Huajun Chen, Ningyu Zhang)
现有记忆增强型LLM智能体通常将记忆视为静态仓库,在动态环境中表现脆弱。为此,研究者提出FluxMem框架,将记忆建模为异构图,并通过初始连接形成、反馈驱动精炼和长期巩固三个阶段逐步优化拓扑结构。在执行过程中,FluxMem能自动修复缺失链接、剪枝干扰、对齐抽象粒度,并将成功轨迹蒸馏为可复用的程序化回路。在LoCoMo、Mind2Web和GAIA三个基准测试中,FluxMem均取得最先进性能,展现出强大的适应性和泛化能力。代码已开源。
X·KOLX:arXiv cs.AI (@Kunhao Zheng, Pierre Chambon, Juliette Decugis, Jonas Gehring, Taco Cohen, Benjamin Negrevergne, Gabriel Synnaeve)
该研究探讨了在代码强化学习(RL)中,通过外推权重平均(extrapolative weight averaging)能否在不额外训练的情况下,扩展微调检查点之间的帕累托前沿。研究者针对竞争性编程任务,使用嵌套单元测试覆盖(从低覆盖到高覆盖)训练检查点,发现正确性与效率之间存在权衡:高覆盖奖励减少优化失败但增加正确性失败,整体解决率不变。通过低覆盖和高覆盖检查点的插值可恢复该前沿,而外推则能超越训练端点。该现象在纯推理、工具使用和智能体编码三种推理设置以及32B和7B两种模型规模下均成立。外推权重平均的集成方法在LCB/hard基准上,以相同样本预算将pass@250提升了3.3%。结果表明,嵌套单元测试覆盖诱导的前沿可通过外推权重平均进行导航、扩展和利用。
X·KOLX:arXiv cs.LG (@Krishnam Gupta)
研究发现视觉-语言-动作(VLA)模型在电机指令层面存在根本性、可预测的失败差异。通过对 VQ-BeT、Diffusion Policy 和 ACT 三种架构在 PushT 和 ALOHA 14-DOF 双臂操作任务上进行 450 次评估,发现方向反转率是通用失败预测指标(AUROC 最高 0.93),而急动度监控仅对离散令牌架构有效,速度监控在连续架构中几乎无效(AUROC 仅 0.41-0.52)。研究强调架构匹配的监控选择至关重要,并开源了 SafeContract 工具包。