11:12arXiv cs.AI@Pengxin Wang, Lihao Guo, Yi Xie, Bo Liu, Siyang Cao, Jingdi Chen本研究提出了偏好协调多智能体策略优化(PCMA),用于解决合作多目标多智能体强化学习中的冲突问题。PCMA为每个智能体学习协调的个性化偏好,使智能体在多个目标(如效率与公平)之间形成互补性权衡。理论证明,在一定条件下,偏好多样性可通过一阶改进分解推动团队整体提升。在多个合作多目标环境及实际交通控制场景中,PCMA同时提升了任务性能和权衡协调能力。论文PCMA多智能体强化学习多目标优化偏好协调推荐理由:让多智能体学会互相配合完成多目标任务原文
11:07arXiv cs.AI@Duc-Cuong Dang, Andre Opris, Dirk Sudholt本文首次对 SPEA2 算法中处理支配解的部分进行了运行时分析,发现其在 OneTrapZeroTrap 基准上无法像 NSGA-II 等算法一样高效覆盖帕累托前沿。问题根源在于使用 k 近邻距离进行适应度分配,导致对支配个体的多样性维持不足。为此,作者提出改进版本 SPEA2$^+$,采用所有成对距离进行密度估计,在复杂问题上达到与其他主流算法相同的性能保证,同时在简单问题上保持原算法表现。实验验证了理论分析的正确性。论文多目标优化进化算法SPEA2运行时分析密度估计推荐理由:多目标优化研究者终于有了 SPEA2 的理论短板分析——原版在支配解处理上存在盲区,SPEA2$^+$ 的改进思路(全距离密度估计)简单有效,做进化算法理论或应用的团队值得关注。原文
11:36arXiv cs.LG@Grégoire Dhimoïla, Victor Boutin, Agustin Martin Picard, Thomas Fel, Thomas Serre精选本文提出一个统一框架,将概念对齐分解为“对齐什么”(表征 vs 概念)和“对齐层级”(实例级 vs 分布级)两个维度,从而定义四种属性。作者发现现有方法常混淆这些属性,优化一个目标并不能可靠恢复其他目标。他们引入 InterVenchA 基准来独立测量提取质量、翻译质量和概念一致性。最后提出 CoSAE(耦合稀疏自编码器),联合强制执行互补的对齐目标,仅需 0.1% 配对数据即可在分布目标锚定下恢复实例级对齐。这项工作表明概念对齐本质上是多目标优化问题,需要明确定义、测量和优化。论文表征对齐概念分解稀疏自编码器多目标优化可解释性推荐理由:做表征对齐、多模态学习或可解释性研究的团队,这篇论文把概念对齐的混乱局面理清了——CoSAE 用极少量配对数据就能实现强对齐,值得直接复现试试。原文
11:48arXiv cs.AI@Parth Darshan, Abhishek Divekar精选该论文研究了在多评估标准下同时优化LLM裁判提示时出现的失败模式。由于文本梯度方法产生自然语言评论而非数值向量,多任务学习中的冲突解决工具(如PCGrad、MGDA)无法直接应用。实验测试了五种文本梯度优化器的分解模式,发现在10种配置中有6种优化效果未超过初始提示。当梯度LLM联合处理多个标准时,梯度特异性下降59%(从9.0降至3.7)。此外,简单合并各任务指令会导致斯皮尔曼相关系数下降5.3%。研究识别出两种可分离的失败模式:优化时的梯度稀释和推理时的指令干扰,这限制了多目标裁判定制的设计空间。论文LLM裁判多目标优化文本梯度提示优化失效模式推荐理由:做LLM评估或裁判定制的团队,这篇论文点出了多目标优化时容易踩的坑——梯度稀释和指令干扰,看完能帮你避开无效的提示优化策略。原文