全部 AI 动态 · AI 热点

6月19日

09:42

09:42

arXiv cs.LG@Federica Filippini

许多计算与网络系统的决策问题可转化为带性能约束的成本最小化问题。传统强化学习（RL）通过加权惩罚将成本和约束违规合并为标量奖励，但权重需手动调整。本文提出MAMO（多智能体多目标约束优化系统），利用多智能体RL将奖励权重选择作为学习问题。MAMO将任务执行与目标设计解耦，为动态环境中约束优化问题的自主RL方案迈出第一步。

论文 MAMO 多智能体强化学习约束优化

推荐理由：这篇论文提出MAMO，用多智能体RL自动调权重，解决约束优化中手动调参难题。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月9日

12:40

12:40

arXiv cs.LG@Udvas Das, Waris Radji, Debabrota Basu, Odalric-Ambrym Maillard

精选

本文提出了一种名为 Dri-MED 的算法，用于解决线性上下文随机多臂赌博机问题，其中学习者需为具有个性化偏好的用户群体提供推荐，且上下文分布随时间漂移。在实用假设下，该问题被简化为具有异方差非平稳噪声的平稳均值线性赌博机。算法还确保每次决策的平均奖励不低于基线策略，实现了与约束感知次优间隙相关的实例相关遗憾界，并具有理论保证的约束违反次数。数值实验表明，Dri-MED 显著优于忽略漂移和偏好结构的保守基线方法。

论文在线学习上下文赌博机非平稳环境约束优化推荐系统

推荐理由：在线推荐系统常面临用户偏好漂移和基线约束的挑战，Dri-MED 为这类问题提供了理论扎实且效果显著的解决方案，做推荐系统或在线学习的团队值得关注其算法设计。

5月21日

10:22

10:22

arXiv cs.LG@Dhruv Sarkar, Abhishek Sinha

精选

本文针对对抗性约束下的在线凸优化（COCO）问题，提出了一种基于投影的简单算法。对于强凸损失，该算法同时实现了 O(log T) 的遗憾和 O(log T) 的累积约束违反（CCV），相比此前最优的 O(√T log T) CCV 实现了指数级改进。对于凸损失，算法将 CCV 从 O(√T log T) 降至 O(√T)，同时保持最优 O(√T) 遗憾。关键创新在于利用自收缩曲线的几何结果，该技术可能具有独立研究价值。

论文在线凸优化约束优化自收缩性遗憾分析投影算法

推荐理由：约束在线优化是机器学习中的核心问题，这篇论文用简洁的投影算法大幅降低了累积约束违反，做在线学习或凸优化理论的研究者值得关注，其自收缩性技巧可能启发更多改进。