6月16日
12:13
12:13arXiv cs.LG@Martino Bernasconi, Matteo Castiglioni, Andrea Celli, Alexandros Hollender
论文证明了在超立方体上计算二次多项式的近似稳定点是PPAD难的。即使在多项式为多重线性且每个变量出现在至多3个单项式的情况下,该结论依然成立。近似因子可达到逆多项式精度。作为直接推论,首次得到了两队零和多项矩阵博弈的PPAD困难性结果。
推荐理由:这篇论文告诉你,就算是最简单的二次多项式,求极小极大问题的近似解也是超级难的,还顺带证明了博弈论里某些游戏也是难到头。
12:10
12:10arXiv cs.LG@Nathan Gavenski, Juarez Monteiro, Francisco Galuppo, Adriano Veloso, Odinaldo Rodrigues
PACT是一种混合架构,结合快速反应式RL策略与慢速SLM规划器。它异步调用2B参数SLM生成候选动作计划,经仿真验证安全、可行、完整后直接执行,无需重训练RL策略。在三个难度递增的FrozenLake配置上,PACT超越所有基线,表明规划与反应协同比单独使用更强。
推荐理由:这篇论文提出了PACT,用一个小型语言模型来规划动作,再结合强化学习策略,在FrozenLake上比纯RL效果好,而且不用重训练。
11:46
11:46arXiv cs.AI@Aman Anifer, Vignesh Kumar Kembu, Vishnu M, Antonino Nocera, Vinod P., Amal Murali PK, Akshay S Rajan
研究者提出GAS-Leak-LLM,一种基于遗传算法的黑盒LLM越狱攻击方法。该方法无需访问模型参数或内部信息,在严格黑盒设置下通过选择、变异、交叉迭代搜索对抗性后缀。实验在多个主流LLM上验证了攻击成功率,暴露了现有安全对齐机制的缺陷。
推荐理由:想看看LLM安全到底有多脆弱吗?这个研究用遗传算法黑盒越狱,效果惊人,开发者应该留意。
11:12
11:12arXiv cs.LG@Matteo Cartiglia, Sandro Kuppel, Wouter Botermans Wannes Peeters, Natan Biesmans, Liam Vandekerckhove, Eric Beamish, Koen Ongena, Wouter Renckens, Pol Van Dorpe, Sanjin Marion
该研究提出用对比编码器将随机单分子信号映射到可解释分子坐标,编码器仅基于物理模型模拟信号训练。编码器对结构参数敏感,对采集条件和构象不变,允许跨设备数据整合。单次编码完成分子识别,计算成本比对齐方法降低三个数量级。实验验证了混合物定量、稀有变异检测和实时信号采集。
推荐理由:这篇论文用模拟信号训练编码器,把纳米孔信号转成可解释坐标,识别快了一千倍,实验也扎实。
11:08
11:08arXiv cs.LG@Patomporn Payoungkhamdee, Napat Laosaengpha, Jenta Wonglertsakul, Pittawat Taveekitworachai, Pume Tuchinda, Panjapong Poobanchuen, Ekapol Chuangsuwanich, Can Udomcharoenchaikit, Samuel Cahyawijaya, Peerat Limkonchotiwat, Sarana Nutanong
研究在多个大语言模型上分析了代码解释器推理的外在属性(关键token)和内在属性(代码认知行为)。发现较强模型的关键token和认知行为(验证、回溯、反向链)更突出。推理时添加关键token在数学、排序、优化任务上提升性能。训练时加入认知行为改进了三个模型中的两个的监督微调和强化学习效果。分析显示这些行为能减少错误回答的过度推理并提高token效率。
推荐理由:这篇论文分析了代码解释器推理的关键属性和认知行为,发现验证、回溯等能提升数学推理效率,适合关心LLM推理优化的人。