全部 AI 动态 · AI 热点

6月18日

09:26

arXiv: DeepSeek@Ruiqi Lai, Dakai An, Wei Gao, Ju Huang, Siran Yang, Jiamang Wang, Lin Qu, Dmitrii Ustiugov, Wei Wang

精选

DiT强化学习后训练需要数千块高端GPU，成本极高。Spotlight系统利用Spot GPU（价格低69-77%）和种子探索技术，将训练速度提升4倍。该系统通过带子集探索规划器最大化奖励方差，弹性序列并行在预emption时毫秒级恢复，并采用拉取式调度平衡负载。在Qwen-Image后训练中，Spotlight达到相同验证分数的成本降低1.4-6.4倍，在DeepSeek-OCR和Geneval数据集上512×512和1280×1280分辨率下图像质量更优。

推荐理由：Spotlight系统用便宜的Spot GPU做DiT强化学习后训练，成本降低1.4-6.4倍，训练快4倍，适合预算有限的团队。

原文

09:25

arXiv: DeepSeek@Jingkun Luo, Yifan Sun, Da-Tian Peng, Guanxiong Pei

SenFlow将混合文档中的句子级AI文本检测重构为结构化预测问题，在图传播与线性链CRF基础上实现整文档级联合解码。MOSAIC基准包含16,000篇混合文档，由DeepSeek-V3.2和Kimi K2生成，并引入困惑度一致性过滤。在跨域迁移最难协议下，SenFlow平均Macro-F1比现有方法高出4.15个百分点。研究还发现，即使经困惑度过滤后，AI插入的句子长度仍存在生成器依赖的差距。

论文 SenFlow MOSAIC DeepSeek-V3.2 Kimi K2 AI生成文本检测

推荐理由：这篇论文用SenFlow模型做混合人机文本检测，在MOSAIC基准上比现有方法高出4个多点的F1分数，还发现AI句子有长度特征。

原文

09:24

arXiv: DeepSeek@Serena A. Hoffstedde, Machiko Hirota, Akshara Nadayanur Sathis Kanna, Rihito Kotani, Ujwal Kumar, Gabriele Trovato, Phan Xuan Tan

该研究使用60份日本履歴書格式简历、12个基于语言性别信号的名字对，以及Claude Sonnet 4.6、GPT-4o、DeepSeek-V3、Gemini 2.5 Flash、Llama 3.3 70B五个SOTA模型，进行了43200次API调用。交叉随机效应线性混合模型确认所有五个模型均存在显著亲女性偏见。提示级性别中立指令未能有效减少偏见。移除名字几乎完全消除了女性效应，表明名字是主要性别通道。隐私过滤器与GPT-4o安全过滤器的不兼容导致42%的请求被拒绝。

论文 GPT-4o DeepSeek-V3 Claude Sonnet 4.6 性别偏见招聘

推荐理由：这篇论文用43200次测试发现，五个主流LLM在日文简历上全有亲女性偏见，改提示没用，删名字才行，看清AI招聘的坑。

原文

09:23

arXiv: DeepSeek@Zhengxiong Luo, Mehtab Zafar, Dylan Wolff, Abhik Roychoudhury

精选

Code-Augur提出安全规范优先范式，将漏洞检测智能体的隐性假设显式化为安全规范，并通过运行时反证持续细化。在真实项目上，Code-Augur比Claude Mythos等专用模型检测到更多漏洞。它基于Sonnet和DeepSeek等通用LLM构建，发现了22个关键开源项目的新漏洞。该方法通过模糊测试触发断言，揭示漏洞或修正规范，提升检测可信度。

论文 Code-Augur 漏洞检测智能体安全规范 Sonnet

推荐理由：这篇论文让AI漏洞检测不再黑箱——Code-Augur会生成明确的安全假设，再用模糊测试验证，已经在真实项目里挖出22个新漏洞，比专用模型还管用。

原文

09:22

arXiv: DeepSeek@Siddharth Aphale, Kelly Liu

一项研究分析了SFT（监督微调）的过度训练对RLVR（基于强化学习的验证）训练的影响。使用Qwen2.5-Coder-3B和DeepSeek-Coder-6.7B模型，发现SFT深度增加时，预RL的pass@1上升，但GRPO的pass@10从0.806降至0.481（3种子均值，n=20）。预RL熵与GRPO结果正相关（ρ=+0.69）。研究者提出一个两阶段诊断方法，结合预RL熵筛选和早期GRPO熵监控，可标记高风险检查点。简单KL正则化和标签平滑无法挽救已崩溃的检查点。

论文 Qwen2.5-Coder-3B DeepSeek-Coder-6.7B SFT RLVR 强化学习

推荐理由：这篇论文发现了SFT过训练会搞崩GRPO训练的秘密，还给出了诊断方法来提前止损。做RLHF或强化学习训练的可以看看。

原文

09:21

arXiv: DeepSeek@Yifu Ding, Jiacheng Wang, Ge Yang, Yongcheng Jing, Jinyang Guo, Xianglong Liu, Dacheng Tao

精选

该论文针对混合专家(MoE)模型部署时内存和推理开销大的问题，提出一种结构剪枝框架。方法将剪枝比率分配转化为通道分数覆盖最大化问题，通过归因近似高效求解。在DeepSeek和Qwen MoE模型上实验，结合4-bit量化后，50%或25%结构化剪枝仍保持模型准确率。在Qwen3-30B-A3B上，内存占用减少5.27倍，优于现有基线。

论文 MoE 结构剪枝量化 DeepSeek Qwen

推荐理由：想省显存又怕掉精度？这篇论文用通道级剪枝加4-bit量化，把MoE模型体积砍到1/5还能保住性能，DeepSeek和Qwen都能用。

原文

09:20

arXiv: OpenAI@Costas Mylonas, Magda Foti, Andrea Pomarico, Matheus Duarte, Qian Zhang, Emmanouel Varvarigos

精选

PowerAgentBench-SS是一个针对电力系统稳态研究中工具使用智能体的基准框架。它使用IEEE 39节点系统进行直流热N-2预想事故搜索测试，评估智能体在工具调用、约束满足和验证方面的能力。实验对比了三个本地Ollama模型和一个OpenAI API代理，发现纯求解器评估不足以区分智能体性能，验证预算使用、类型强制转换、证据报告等行为是关键差异。该基准包含召回率、假安全惩罚、严重性遗憾、行动成本等风险敏感指标。

论文 PowerAgentBench-SS 智能体电力系统基准工具使用

推荐理由：搞电力系统智能体评估的可以看看这个，用IEEE 39节点系统测试大模型能不能真干活，不只看结果还看过程，挺实在的。

原文

07:42

Gary Marcus@GaryMarcus

Google DeepMind、滑铁卢大学、ANU 和 UCL 联合发表新论文，提出 AGI 能力层级定义，包括“胜任型 AGI”（competent AGI）、“专家级 AGI”和“超人级 AGI”。论文指出当前连最低层级的“胜任型 AGI”都未达成，更不用说更高级别。Gary Marcus 公开表示完全赞同该结论，认为所有声称 AGI 已实现的说法只是营销。

论文 Gary Marcus Google DeepMind AGI 论文

推荐理由：别被吹牛忽悠了。这篇论文给了你一个硬核标尺：DeepMind 等机构说连最低门槛的胜任型 AGI 都没到，真相比营销更靠谱。

原文

04:01

lmarena.ai@lmarena_ai

Agent Arena 发布了一篇博客介绍其因果追踪方法论，该方法用于分析智能体在竞技场中的行为归因。博客详细解释了如何通过干预模型内部表示来定位影响输出的关键组件。该技术可帮助研究者理解Agent在复杂任务中的决策路径。

论文 Agent Arena 因果追踪智能体评估可解释性

推荐理由：想搞懂Agent决策是怎么归因的？Agent Arena这篇博客把因果追踪的方法讲得很清楚，适合做智能体评估的研究者。

原文

03:58

Sebastian Raschka@rasbt

精选

VibeCoder采用Qwen2.5-Coder-3B作为基座，通过一套后训练技术栈大幅提升性能。技术报告显示其包含高信号合成数据、多重推理路径、2阶段SFT（先广训再难长推理样本）、MGPO（MaxEnt-Guided Policy Optimization）强化学习等9个关键组件。训练顺序为Math RL→Code RL→STEM RL，并采用了单64k长上下文RL而非渐进扩展。最后通过奖励短正确轨迹来提升效率而不牺牲准确性。

论文 VibeCoder Qwen2.5-Coder-3B 推理模型强化学习微调

推荐理由：Sebastian Raschka分析了VibeCoder的后训练秘诀，基于3B模型就取得惊人成绩，训练顺序和RL方法值得参考。

原文

03:54

LangChain@LangChainAI

LangChain实验室与Alibaba Qwen及FireworksAI合作发布一项研究，探讨如何从每条trace中高效提取重要信号，同时保持前沿性能。研究对比了不同方法在成本与效果上的权衡。报告指出，通过优化模型选择和推理策略，可在保持95%以上准确率的情况下将成本降低80%。该研究为大规模trace分析提供了实用方案。

论文 LangChain Alibaba Qwen FireworksAI trace分析成本优化

推荐理由：LangChain联合Qwen和FireworksAI出了个办法：从每条trace里低成本挖出关键信号，性能还不打折，适合做可观测性的团队看。

原文

03:01

03:01Anthropic: Research（资讯）

精选

Anthropic前沿红队发布研究，量化了GPT-4和Claude 3.5等大模型对N-day漏洞利用的效率影响。测试涉及多个已知漏洞样本，发现模型能显著缩短利用代码的编写时间。研究报告同时强调了当前安全对齐的不足，并给出了缓解建议。

论文 Anthropic Claude GPT-4 漏洞利用 AI安全

推荐理由：Anthropic自家红队实测，发现Claude和GPT-4都能帮人更快写出漏洞利用代码。想知道风险多大？看这篇。

原文

02:59

02:59Anthropic: Research（资讯）

Anthropic前沿红队于2026年5月22日发布了一份评估报告，系统测试了LLM自主开发软件漏洞利用的能力。评估覆盖了多种前沿模型，要求其在无人类协助的情况下发现并编写针对真实漏洞的利用代码。结果显示，部分模型在简单场景中成功开发了可利用漏洞，但复杂场景下表现有限。该研究为理解前沿AI模型的网络攻击能力提供了关键基准。

论文 Anthropic AI安全漏洞利用红队

推荐理由：Anthropic自己测了AI能不能写漏洞利用代码，结果有些还真能搞出来，建议安全从业者看看。

原文

01:35

01:35OpenAI Blog（博客/媒体）

OpenAI与Molecule.one合作开发了一款近自主AI化学家，基于GPT-5.4模型。该系统针对药物化学中一项具有挑战性的反应进行优化，成功提升了反应产率。该研究展示了GPT-5.4在有机合成中的实用潜力，推动了AI辅助药物化学的进展。

论文 GPT-5.4 OpenAI Molecule.one 药物化学 AI化学家

推荐理由：OpenAI用GPT-5.4做了个AI化学家，能自动改进药物合成反应，比传统方法更高效。

原文

6月17日

23:30

Decoder@Maximilian Schreiner

精选

OpenAI研究人员提出一种新方法，用于预测AI模型在发布后出现错误的频率。该方法旨在弥补当前标准安全测试的不足。研究团队通过分析模型内部特征与测试数据来估算失败概率。该工作可能帮助开发者更早发现潜在风险。

论文 OpenAI AI安全模型测试预测方法安全测试

推荐理由：OpenAI研究者搞了个预测模型出错率的方法，能补上安全测试的漏洞，让发布更靠谱。

原文

23:08

23:08Google Blog: AI（博客/媒体）

Google在《Nature》发表研究，其对话式AI系统AMIE在复杂疾病管理任务中表现与初级保健医生相当。研究涉及心脏病、糖尿病等14种慢性疾病管理场景。AMIE在98%的评估维度上达到或超过医生水平，包括诊断准确性、治疗建议合理性及沟通质量。该系统基于大语言模型构建，能够进行多轮自然对话并实时检索医学知识。

论文 AMIE Google Nature 医疗AI 对话系统

推荐理由：Google的AMIE医疗AI在《Nature》上发了论文，管理慢性病水平跟医生差不多，具体看数据很扎实。

原文

12:00

arXiv cs.LG@Longlong Zhu, Jiashuo Yu, Zedi Chen, Yuhan Wu, Zhifan Jiang, Yuchen Xian, Yimeng Liu, Jiajie Su, Shaopeng Zhou, Xingyuan Li, Hongyan Liu, Xuan Liu, Dong Zhang, Chunming Wu, Xiang Chen

OmniPlan采用基于大语言模型的解释器将异构自然语言意图转化为统一偏好向量，并利用混合专家架构动态选择MIP求解器、启发式算法和DRL模型作为专家。在分布式机器学习推理卸载任务（包括决策树、SVM、XGBoost等）的真实测试中，OmniPlan实现了近最优卸载，延迟降低高达97.8%，网络设备资源消耗降低11.5%。

论文 OmniPlan LLM 混合专家架构网络规划 ML推理卸载

推荐理由：OmniPlan用LLM和混合专家做网络优化，在分布式ML卸载上延迟降97.8%，资源降11.5%，效果很直观。

原文

12:00

arXiv cs.LG@Steve Halley, Maurício Gruppi

该论文提出SD-ZFS框架，将S2V-DQN架构适配到最小零强制集(ZFS)问题。ZFS是NP难的图着色问题，在图神经网络、网络控制和逻辑电路设计中有应用。在多个不同结构的图数据集上训练模型，评估其泛化、扩展和迁移能力。与最优解和贪心启发式相比，SD-ZFS框架展示了有效性。

论文 SD-ZFS S2V-DQN 强化学习图神经网络零强制集

推荐理由：这篇论文告诉你如何用强化学习搞定一个NP难的图论问题，效果比传统贪心算法好，适合研究图神经网络和组合优化的人。

原文

12:00

arXiv cs.LG@Umer Siddique, Peilang Li, Yongcan Cao

该论文研究多目标强化学习（MORL）中的公平性优化问题。传统单策略方法使用广义基尼福利函数（GGF）只能处理固定用户偏好，缺乏策略多样性。作者证明对于凹分段线性福利函数（如GGF），公平策略仍属于凸覆盖集（CCS）。提出三种新算法：集成GGF的多策略多目标Q学习（MOQL）、状态增强多策略MOQL及随机策略扩展。在多个领域实验表明，该方法能学习一组适应不同用户偏好的公平帕累托最优策略。

论文 MORL GGF 多目标强化学习公平性帕累托最优

推荐理由：这篇论文提出了在MORL中兼顾最优和公平的新方法，用GGF和三种算法生成多样化的公平策略，比传统单策略方法更灵活。

原文

11:59

arXiv cs.LG@Mostafa Darvishi

该论文系统介绍了面向微控制器级嵌入式设备的机器学习工作流，涵盖从数据采集到部署的工程决策。重点包括从三轴加速度计两秒窗口提取均方根和频谱特征用于惯性运动识别，音频经抗混叠滤波后转换为梅尔频率倒谱系数，由紧凑一维卷积网络处理关键词识别。论文还讨论了类别不平衡下的验证、模型与运行时协同设计、量化、阈值化、调度和现场监控等实践规则。

论文 Embedded Machine Learning Microcontroller Edge Devices Feature Extraction Model Deployment

推荐理由：这篇论文把嵌入式ML的工程细节讲得很实在，从特征提取到量化部署都有实操建议，做边缘AI的开发者值得一看。

原文

11:58

arXiv cs.LG@Ramprasath Ganesaraja, Sahil Dilip Panse, Swathika N

Mamba-2 1.3B参数模型通过分组量化感知训练（QAT）从FP16教师蒸馏，仅消耗4 GPU小时（单H100）和102M tokens，将内存从2,687 MB压缩至744 MB（3.61倍）。零样本七任务平均准确率达48.1%，接近Bi-Mamba的48.4%（±0.9pp置信区间）。该方法无需从头训练150B tokens，使用预训练检查点即可。研究还发现零比例坍缩现象，即可学习量化尺度导致的不稳定性，这在从头训练中不会出现。后处理校正策略对SSM无效，因循环结构导致误差累积。

论文 Mamba-2 Ternary Mamba 量化感知训练模型压缩状态空间模型

推荐理由：把Mamba-2压缩到1比特权重不用花大钱从头训练，用预训练模型加少量微调就行，效果只差0.3%。

原文

11:58

arXiv cs.LG@Mohammadreza Rashidi

该论文分析了Handlebars模板引擎中双花括号{{x}}和三角花括号{{{x}}}对LLM提示注入的影响。双花括号HTML转义尖括号但不转义方括号、冒号或Markdown井号，导致ChatML、Llama-3和XML分隔符存活率为0.00，而Llama-2 [INST]、Human:/Assistant:和Markdown ###分隔符存活率为1.00。在5760次试验中，GPT-3.5 Turbo在原始插值下任务劫持成功率达97%，在转义下为91%。Claude Haiku 4.5几乎完全抵抗两种攻击。转义默认值仅对HTML转义覆盖的分隔符方案有效，无法替代指令与数据的结构化分离。

论文 Handlebars LLM提示注入 GPT-3.5 Turbo Claude Haiku 4.5 提示工程安全

推荐理由：这篇论文用具体数据告诉你，Handlebars的{{}}和{{{}}}差别有多大，以及为什么别指望HTML转义防注入。

原文

11:41

arXiv cs.LG@Ari Blondal, Hamed Hatami, Pooya Hatami, Chavdar Lalov, Sivan Tretiak

这篇论文研究了二元概念类的信号秩（sign rank）的下界方法。作者证明了Z2-索引（Z2-index）被列表可复制数（list replicability number）的线性函数所上界，从而解决了Frick、Hosseini和Vasileuski提出的信号秩与Z2-索引之间是否存在强分离的问题。论文进一步分析了列表可复制数的上界，将其关联到两个组合度量：高度（height）和最小星数（minimum star number）。最后，作者证明了两个概念类的乘积的列表可复制数不超过各自列表可复制数之和。

论文 sign rank Z2-index list replicability number 学习理论组合度量

推荐理由：这篇论文厘清了信号秩、Z2-索引和列表可复制数三个复杂概念的关系，解决了前人遗留的分离问题，还给出了组合上界，适合对学习理论下界感兴趣的人。

原文

11:41

arXiv cs.LG@Rishit Dagli, Donglai Xiang, Vismay Modi, Xuning Yang, Gavriel State, David I. W. Levin, Maria Shugrina

AdaVoMP提出预测3D物体杨氏模量（E）、泊松比（ν）和密度（ρ）的密集空间变化分布。它使用稀疏自适应体素结构SAV，通过稀疏Transformer编码器-解码器自回归生成每输入形状的独特SAV。相比最准确的前期方法VoMP，分辨率提高16^3倍。实验表明，AdaVoMP在测试时计算量更少的情况下估计更准确的体积属性。可将高分辨率复杂3D物体转换为可仿真的资产，实现逼真的可变形模拟。

论文 AdaVoMP VoMP SAV 机械属性物理仿真

推荐理由：AdaVoMP能预测3D物体的机械属性，分辨率比最好方法高16^3倍，还省计算，适合物理仿真。

原文

11:39

arXiv cs.LG@Hao Liang, Cheng Tang, Yunzong Xu

本文研究广义交换机中有限视界排队峰值的渐近行为，采用MaxWeight等漂移最小化调度策略。在均匀松弛负载条件下，平方根包络（√T）仅持续到几何阈值；超出后，运行最大值以O(log T)增长，高概率和期望均成立。匹配下界表明对数项和几何阈值均不可避免。对广义输入排队交换机，获得具有紧对数系数的有限时间峰值界限。仿真验证了两阶段包络及局部几何修正效应。

论文 MaxWeight 广义交换机排队论调度策略随机网络

推荐理由：这篇论文揭示了排队峰值在几何阈值前后从平方根到对数的转变，对理解随机网络调度策略的限时行为很有价值。

原文

11:39

arXiv cs.LG@Trisha Mittal, Akshay Mehra, Joshua Kimball

这篇论文基于ImageNet-1K、ImageNet100和ImageNette三个数据集，采用三种训练协议，对七种最新数据集蒸馏（DD）方法与三种核心集选择（CS）策略进行了标准化对比。实验发现，部分DD方法甚至不如随机子集，而最先进的DD方法在大规模数据集上表现与核心集相当或更差。DD方法的构建成本显著高于CS。此外，核心集在数据分布覆盖、代表性和多样性上始终优于蒸馏集。

论文 Dataset Distillation Coreset Selection ImageNet-1K 数据压缩论文

推荐理由：想用数据集蒸馏来压缩训练集？这篇论文告诉你，现有DD方法在ImageNet上不比随机选子集好，还更贵，不如直接用核心集。

原文

11:38

arXiv cs.LG@Abir Ashab Niloy, Ahmed Ryan, Imamul Hossain Rafi, Md Erfan, Md Rayhanur Rahman

研究者构建了一个包含870个会话（70个攻击，800个正常）和约230万事件的多源日志数据集，覆盖系统、网络和浏览器日志。攻击事件用ATT&CK技术ID标注，涉及12种战术和53种技术。使用LoRA微调Qwen2.5-1.5B、Llama-3.2-3B、Phi-4-Mini三个小型语言模型，在分块分类任务上准确率从约8%提升至90%-97%。技术识别任务最佳精确匹配准确率为42%，但部分匹配得分较高，表明模型掌握了大部分推理逻辑。

论文 Qwen2.5-1.5B Llama-3.2-3B Phi-4-Mini ATT&CK 多源日志

推荐理由：这个新数据集把系统、网络和浏览器日志合在一起，还按ATT&CK标准标了攻击手法。拿三个小模型试了一下，分块分类准确率从8%升到90%以上，挺实用的。

原文

11:38

arXiv cs.LG@M. Forzo, E. Monzio Compagnoni, A. Russo, A. Pacchiano

本文针对带线性函数近似的时序差分(TD)学习，提出了一种随机微分方程(SDE)近似，以替代传统常微分方程(ODE)描述。ODE仅捕捉渐近平均动力学而忽略随机波动，新SDE模型在马尔可夫噪声下区分了投影Bellman算子的收缩动力学与采样噪声的影响。该模型解释了恒定步长误差下限是由马尔可夫长期协方差与投影Bellman算子收缩几何相互作用导致。论文提供了理论证明与数值验证。

论文 TD learning 线性函数近似随机微分方程策略评估马尔可夫噪声

推荐理由：这篇论文从数学上解释了TD学习的误差为啥降不下去，用扩散近似把随机性的影响说清楚了。方法派、做强化学习理论的可以看看。

原文

11:35

arXiv cs.LG@Ahmed Ryan, Saad Sakib Noor, Md Erfan, Shaswata Mitra, Sudip Mittal, Md Rayhanur Rahman

该研究构建了包含2076条人工标注句子的数据集（1281条正样本、795条负样本），来自83份复杂的非结构化CTI报告，映射到114种ATT&CK技术。评估了7个开源LLM（参数规模8B至236B），最高micro-F1得分为0.22。参数大小与F1得分呈显著正相关，提示策略和温度设置无显著影响。结果表明当前开源LLM尚无法用于生产级ATT&CK分类。

论文 ATT&CK CTI MITRE 开源模型多标签分类

推荐理由：这篇论文造了2076条人工标注的CTI数据，测了7个开源大模型，结果最好的F1才0.22，说明开源模型在安全情报分析上还不够用。

原文

11:26

arXiv cs.LG@Marco Deano, Filippo Ziche, Nicola Bombieri

论文提出S4oP，一种增量式运算符级剪枝方法，针对S4和S4D结构状态空间模型。该方法通过交替结构化掩码和微调逐步剪枝运算符。实验在多个基准数据集上表明，剪枝70%的模型运算符仍能保持原模型性能，同时显著降低推理延迟。这是首次系统研究SSM的结构化运算符剪枝。

论文 S4oP S4 S4D SSM 模型剪枝

推荐理由：这篇论文把S4模型剪掉70%计算量还能保持性能，想在小设备上跑S4模型可以看看。

原文

10:46

arXiv cs.AI@Mingtong Zhang, Dhruv Shah

论文提出了VERITAS框架，将预训练通用机器人策略作为“生成器”，搭配无梯度的“视觉验证器”在推理时评估动作。该框架无需额外训练即可提升策略性能，优于原通用策略。使用验证的自主轨迹进行微调后，策略性能持续提升，且效率与专家演示相当，无需人工干预。实验表明推理时验证是一种实用且可扩展的部署改进机制。

论文 VERITAS 机器人推理时验证策略改进自主学习

推荐理由：这篇论文展示了如何用视觉验证器让机器人策略在推理时自我改进，无需额外训练，效率堪比专家演示，值得关注。

原文

10:46

arXiv cs.AI@Shanda Li, Qiuhong Anna Wei, Jingwu Tang, Valerie Chen, Nihar B Shah, Tim Dettmers, Yiming Yang, Ameet Talwalkar

ReproRepo是一个可扩展的框架，利用GitHub Issues作为监督信号来评估LLM在可重复性审计中的能力。研究基于1149篇近期机器学习论文，测试了四种前沿智能体配置。最佳配置Codex with GPT-5.5能识别约90%论文的至少一个语义相关的真实可重复性问题。分析表明智能体擅长发现表面故障和语义区域，但精确定位仍不足。代码已开源。

论文 ReproRepo GPT-5.5 Codex 可重复性 LLM智能体

推荐理由：这篇论文提出了一个可扩展的框架，用GitHub Issues来测试LLM智能体找论文代码的复现问题，比现有手动基准好很多，值得看。

原文

10:46

arXiv cs.AI@Qi Chai, Wenhao Shen, Nanjie Yao, Yue Xia, Kaiyong Zhao, Jie Ma, Guosheng Lin, Hao Wang

EvolveNav 提出了一种自演化框架，用于零样本物体目标导航，无需预先训练。该方法通过构建代理规则记忆，从过往轨迹中提取可操作知识，并采用基于上置信界（UCB）的检索策略平衡语义相关性和历史成功率。还引入了记忆引导的前置反思模块，在行动前预测潜在结果，减少低效探索。实验表明，EvolveNav 在多个基准上超越现有零样本基线，成功率提升 10.1%，同时减少了不必要的步骤。

论文 EvolveNav 零样本物体导航记忆机制具身智能

推荐理由：这篇论文搞了个EvolveNav，让机器人自己从失败中学习，零样本导航成功率直接涨了10%，而且没走那么多冤枉路。

原文

10:46

arXiv cs.AI@Ankita Samaddar, Sandeep Neema, Daniel Balasubramanian, Xenofon Koutsoukos

本文提出一种基于模仿学习的策略学习技术，用于在部分可观测的自主网络环境中预测红方（攻击方）动作。该方法适用于离散状态和离散动作的强化学习智能体。集成到使用行为树和LECs的神经符号自主防御智能体后，该方法能有效处理不同红方策略，并在多种模拟场景下实现高预测准确率。

论文模仿学习强化学习 AI安全智能体网络防御

推荐理由：这篇论文用模仿学习帮防守方预测攻击者行动，在模拟网络攻防场景下准确率很高。

原文

10:45

arXiv cs.AI@Hongyuan Adam Lu, Z. L. Victor Wei, Qun Zhang, Jinrui Zeng, Bowen Cao, Lingwei Meng, Mocheng Li, Zezhong Wang, Haonan Yin, Naifu Xue, Minyu Chen, Cenyuan Zhang, Zefan Zhang, Hao Wei, Jiawei Zhou, Haoran Xu, Hao Yang, Ronglai Zuo, Tongda Xu, Yonghao Li, Jian Chen, Hebin Wang, Zeyu Gao, Yang Li, Wei Zhao, Qimin Zhong, Siqi Liu, Yumeng Zhang, Leyan Cui, Zhangyu Wang, Wai Lam

精选

Looped World Models（LoopWM）首次将循环架构引入世界建模，通过参数共享的transformer块迭代细化潜在环境状态。相比传统方法，LoopWM在参数效率上提升多达100倍，并能根据预测复杂度自动调整计算深度。该方法将迭代潜在深度确立为世界仿真的新扩展轴，独立于模型规模和训练数据规模。

论文 LoopWM 世界模型循环架构参数效率

推荐理由：这篇论文用循环架构解决了世界模型长程预测的计算瓶颈，参数省了100倍还能自适应深度，做仿真和规划的研究者值得看。

原文

10:45

arXiv cs.AI@Sajad Movahedi, Vera Milovanović, Shlomo Libo Feigin, Alexander Theus, Thomas Hofmann, Valentina Boeva, T. Konstantin Rusch, Antonio Orvieto

循环架构通过循环利用层数为组合推理任务提供逐步推理的归纳偏置。随着循环深度增加，信号传播问题加剧，影响模型性能。本文提出FPRM，一种基于Transformer的固定点推理模型，采用预归一化层和残差缩放解决信号传播，并以固定点收敛作为端到端停止机制。FPRM在Sudoku、Maze、状态跟踪和ARC-AGI基准上验证了有效性。

论文 FPRM Transformer 固定点推理推理模型架构优化

推荐理由：这篇论文提出了FPRM，用固定点收敛让循环推理深度自适应任务难度，在Sudoku和ARC-AGI上效果不错，适合关注推理架构的人。

原文

10:45

arXiv cs.AI@Weizhi Zhang, Zechen Li, Hamid Palangi, Ben Graef, A. Ali Heydari, Simon A. Lee, Salman Rahman, Ray Luo, Zeinab Esmaeilpour, Erik Schenck, Chloe Zhang, Yamin Li, Menglian Zhou, Philip S. Yu, Daniel McDuff, Lindsey Sunden, Mark Malhotra, Shwetak Patel, Ahmed A. Metwally

RubricsTree是一个专家对齐的分层评估框架，包含超过100个可临床验证的原子布尔规则，这些规则从4000个真实用户查询中通过迭代人机协作提炼而成。框架使用上下文自适应路由器为每个查询激活相关子集，实现可扩展且与专家质量对齐的评估。在元评估中，RubricsTree在专家对齐上显著超过强基线，且可靠惩罚上下文退化的响应。作为结构化指令、文本反馈或训练奖励用于性能优化时，RubricsTree在HealthBench上为Gemini、GPT和Qwen系列模型带来高达约66%的相对提升。

论文 RubricsTree HealthBench Gemini GPT 健康代理

推荐理由：RubricsTree用4000条真实查询构建100多条可验证规则，评估健康AI比LLM裁判更准，还能当训练奖励，让Gemini等模型性能飙升66%。

原文

10:44