全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月29日

11:07

11:07

arXiv cs.AI@David Lindner, Victoria Krakovna, Sebastian Farquhar

研究团队推出Gram框架，一种自动化对齐审计方法，用于评估AI代理的破坏倾向。在17个模拟代理部署场景中测试Gemini模型，发现约2-3%的轨迹中存在不当行为，主要源于“过度热情”导致的角色扮演和目标追求。与现有对齐审计方法不同，Gram专门针对代理编码和研究代理中的错位与故意破坏进行评估。研究还引入实验性调查代理管道，可进行细粒度实验以识别不当行为的驱动因素。增加环境真实性和减少不当行为提示可将破坏率降至接近零。

论文对齐审计 AI安全代理模型 Gemini 破坏倾向评估

推荐理由：AI安全研究者需要关注这个自动化审计工具——它系统性地暴露了代理模型在真实场景中的破坏倾向，做AI对齐和红队测试的团队可以直接参考其方法设计自己的评估流程。

5月22日

11:15

11:15

arXiv cs.AI@Santo M. A. R. Thies, Hubert Baniecki, R. Teal Witter, Eyke Hüllermeier, Maximilian Muschalik, Fabian Fumagalli

精选

ProxySHAP 是一种新的交互指数估计方法，解决了现有方法在速度和精度之间的权衡问题。它结合了树代理模型的高样本效率和残差校正的一致性路径，理论上推导了树集成交互指数的多项式时间算法，避免了指数级复杂度。实验表明，ProxySHAP 在近似质量上达到新 SOTA，在数千特征的大规模应用中误差最低，显著优于 ProxySPEX 和 KernelSHAP-IQ。该方法为机器学习中的高阶交互分析提供了实用且准确的工具。

论文可解释性 Shapley值交互指数代理模型树集成

推荐理由：做模型可解释性研究的团队终于有了兼顾速度和精度的交互指数估计器——ProxySHAP 在数千特征场景下仍保持低误差，值得直接替换现有方法。