06:39OpenAI@OpenAI精选OpenAI发布测试结果,评估模型对齐在压力下的表现。在对抗性提示下,模型更难被引导至有害行为,同时依然能响应有益指令。初步证据表明,模型对有害微调也表现出更强的抵抗力。这项测试关注模型的安全鲁棒性,未提及具体模型版本或基准分数。AI模型OpenAI对齐对抗性提示有害微调鲁棒性10 个信源在谈推荐理由:OpenAI发现他们的模型在对抗压力下挺得住,不容易被带坏,安全对齐效果不错。原文
11:02arXiv cs.AI@Tianyu Ruan, Fengzhuo Zhang, Shuche Wang, Shihua Zhang精选72°Muon 作为预训练大语言模型和视觉分类器的新兴优化器,其效率优势已超过 Adam 和 SGD,但特征学习优势尚不明确。本文通过鲁棒性和迁移性视角研究 Muon 的特征学习优势:在损坏图像和文本上评估预训练模型,发现 Muon 学到的特征比 Adam 和 SGD 更鲁棒,且这种优势体现在更大的 logit 边际上。通过下游任务的线性分类器或微调,Muon 的特征迁移效果更好,这得益于隐藏状态的有效秩更高。在含多组件的分类问题中,论文从理论上证明了 Muon 能获得更大边际和更高有效秩。论文Muon优化器鲁棒性迁移学习特征学习推荐理由:Muon 优化器在鲁棒性和迁移性上全面超越 Adam,做预训练或迁移学习的团队值得关注,尤其是需要模型对噪声和下游任务更鲁棒的场景。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……
10:59arXiv cs.AI@Vishal Rajput精选本文提出“匹配原则”,将鲁棒性、域适应、光度不变性、组合泛化、时间鲁棒性、对齐安全等看似独立的问题统一为同一个统计问题:估计部署干扰的协方差,然后沿着覆盖该协方差的矩阵正则化编码器雅可比矩阵。在线性高斯模型中,作者证明了闭式最优性(定理A),包括匹配范围内的立方根水填充;证明了二次雅可比惩罚需要范围覆盖(定理G);并提供了七个条件一致性引理。作者引入轨迹偏差指数(TDI),一种无标签的嵌入敏感性探针。在从经典ML到Qwen2.5-7B的13个预注册实验中,12个通过了预测的匹配-各向同性-错误W顺序测试。在7B规模上,匹配风格PMH提高了选择性诚实性,并保持了风格TDI,而标准DPO则使其退化。论文表示学习鲁棒性域适应正则化匹配原则推荐理由:这篇论文把鲁棒性、域适应等一堆看似无关的问题统一成了一个统计框架,做表示学习或模型泛化的研究者可以直接用匹配原则指导正则化器设计,省去试错成本。原文
10:22arXiv cs.LG@Donggyu Lee, Taekyung Lee, Jaewoong Choi精选UOTIP 提出了一种基于非平衡最优传输(UOT)的新方法,用于解决无配对图像逆问题。该方法通过引入基于似然的代价函数,学习从噪声测量分布到干净信号分布的传输映射,无需配对训练数据。UOT 框架通过放松精确边际约束,使模型对多级观测噪声、类别不平衡和多种噪声类型具有鲁棒性。理论分析表明,加入二次代价项可确保传输映射的存在性和唯一性。实验结果显示,UOTIP 在线性和非线性逆问题基准上均达到最先进性能。论文图像逆问题最优传输无配对学习鲁棒性UOTIP推荐理由:无配对图像逆问题是实际应用中的常见难题,UOTIP 用非平衡最优传输优雅地解决了数据不配对和噪声鲁棒性问题,做医学成像或遥感图像恢复的团队值得关注。原文
09:46arXiv cs.AI@Alexi Canesse, Benoît Goupil, Jesse Read, Sonia Vanier精选多智能体强化学习(MARL)中,通信是实现协作的关键,但许多实际应用(如无人机群搜索救援)面临严重的带宽限制。现有通信架构通常将共享潜在表示同时用于策略执行和智能体间通信,导致减少消息大小会直接限制策略的潜在空间,造成性能显著下降。本文提出两个贡献:一是引入归一化的每智能体带宽预算 β,统一了稀疏性、轮次和消息维度;二是提出 SLIM 架构,将通信路径与策略的潜在表示解耦,从而隔离带宽对策略容量的影响。实验表明,SLIM 在多个部分可观测的 MARL 基准上达到最先进性能,并在带宽减少时仅出现轻微性能下降,展现出良好的可扩展性和鲁棒性。论文多智能体强化学习带宽约束通信解耦SLIM鲁棒性推荐理由:做多智能体系统或机器人集群的团队,终于有了一个能直接应对带宽瓶颈的架构——SLIM 解耦通信与策略,带宽砍半性能也不崩,值得在无人机或边缘设备场景里试试。原文
14:53arXiv cs.LG@Mohamed elShehaby, Ashraf Matrawy精选本文研究了在基于梯度的对抗攻击下,仅通过精心选择网络架构(如更浅的网络、更少的特征和ReLU激活函数)能否使基于深度神经网络的入侵检测系统(NIDS)具备内在鲁棒性。通过约2200次实验,对比FGSM、PGD和BIM攻击,发现浅层网络、简化特征集和ReLU激活函数能显著降低对抗脆弱性。这种简单模型甚至优于经过对抗训练的深层全特征模型,同时保持近乎完美的正常流量检测率和更短的训练时间。研究强调,关键在于选择“正确的少”而非盲目简化。论文对抗攻击入侵检测系统网络架构鲁棒性ReLU推荐理由:做网络安全和ML-NIDS的团队,不用加额外防御就能提升模型抗攻击能力——调整架构本身就能见效,值得在现有系统上试试这个“少即是多”的思路。原文
11:15arXiv cs.LG@Lanxin Xiang, Liang Shi, Youhui Ye, Boyu Jiang, Dawei Zhou, Feng Guo精选特征归因分析在解释机器学习模型时,常因数据分割、随机种子等随机因素导致结果不稳定。本文提出 RoSHAP 框架,通过 Bootstrap 重采样和核密度估计建模特征重要性得分的分布,并证明聚合得分渐近服从高斯分布,大幅降低计算成本。RoSHAP 指标同时奖励活跃、强且稳定的特征,在模拟和真实实验中优于单次归因方法。使用 RoSHAP 筛选的特征构建的模型,在预测性能接近全特征模型的同时,显著减少了特征数量。该框架提升了模型的可解释性和稳定性,为可靠的数据驱动决策提供了支持。论文特征归因SHAP鲁棒性模型可解释性Bootstrap推荐理由:做模型可解释性研究的团队终于有了一个能对抗随机波动的归因指标——RoSHAP 通过分布建模让特征排序更稳定,做特征筛选和模型审计的开发者可以直接用。原文
19:12arXiv: DeepSeek@Wenyong Zhou, Yuannuo Feng, Yizhe Chen, Taiqiang Wu, Wendong Xu, Wenbo Qi, Zhengwu Liu, Wang Kang, Ngai Wong精选混合专家(MoE)大模型通过稀疏激活专家实现高效扩展,但频繁切换专家造成内存带宽瓶颈,而模拟存算一体(CIM)架构可缓解此问题。然而,模拟CIM的硬件缺陷会扰动存储权重,其对MoE模型的影响此前未被系统研究。本文首次基于真实芯片噪声校准,发现硬件噪声会破坏专家负载均衡,使训练好的路由决策失效。为此提出ROMER后训练校准框架:替换低激活专家为高频专家以恢复负载均衡,并通过百分位数归一化重新校准路由器logits。在DeepSeek-MoE、Qwen-MoE和OLMoE上,ROMER在真实芯片噪声下将困惑度分别降低58.6%、58.8%和59.8%,验证了其有效性和跨架构泛化能力。论文MoE存算一体硬件噪声后训练校准鲁棒性推荐理由:模拟存算一体是突破大模型内存墙的关键路线,但硬件噪声对MoE架构的破坏一直未被正视。做硬件-算法协同设计的团队,这篇论文给出了可直接复用的校准方案,值得细读。原文