全部 AI 动态 · AI 热点

6月18日

09:53

arXiv cs.LG@Tho Tran Huu, Huu-Tuan Nguyen, Thien-Hai Nguyen, Nhat-Tri Ho, Viet-Hoang Tran, Tho Quan, Tan Minh Nguyen

稀疏混合专家（SMoE）架构通过Top-k专家选择实现条件路由，但这会导致映射不连续。论文将不连续性按阶数分类（由切换事件中并列专家数决定），并建立渐近体积估计：低阶不连续性占据主导，高阶体积趋于零。通过扩散过程建模输入随机扰动，证明路径几乎必然在有限时间内首次击中一阶不连续性。实验结果在语言和视觉任务上表明，提出的平滑机制不仅恢复连续性，还提升了经验性能。

推荐理由：这篇论文把SMoE的不连续性分析得清清楚楚，还附带了一个计算量很小的平滑方法，实验证明又能提高效果，值得一看。

原文

09:48

arXiv cs.AI@Enrico Cassano, Michał Brzozowski, Zuzanna Dubanowska, Paolo Mandica, Neo Christopher Chung

ARIADNE是一个无需训练、与适配器无关的动态适配器选择框架。它通过计算每个适配器训练集嵌入的质心，在推理时根据无标签输入与质心的距离选择适配器。在Llama 3.2 1B Instruct上对23个NLP任务测试，恢复了97.44%的上界性能。扩展到44个任务时，平均选择准确率达到89.7%。无需访问适配器内部参数或额外训练。

论文 ARIADNE Llama 3.2 PEFT 推理路由适配器选择

推荐理由：这篇论文提出了ARIADNE，一个不用训练就能自动为输入选对适配器的方法，在Llama 3.2上恢复了97%的上界性能，比现有路由方式更灵活。

原文

09:47

arXiv cs.AI@Ruishan Fang, Siyuan Lu, Chenyi Zhuang, Tao Lin

多轮工具使用强化学习受限于静态数据集中信息样本快速耗尽的问题。研究观察到GRPO中梯度集中在高奖励方差任务上，基于Popoviciu上界。提出RODS方法，利用进度奖励方差作为零成本边界检测器，无需额外推理。通过技能对齐重采样管道合成新多轮变体，维护动态缓冲池。从400个人工种子开始，保持约800样本活跃池，达到与17K样本离线管道相当性能，轨迹数减少约20倍。

论文 RODS GRPO 工具使用智能体强化学习数据合成

推荐理由：这篇论文用奖励方差自动发现困难样本并生成新数据，训练效率比静态数据高20倍，特别适合多轮工具智能体场景。

原文

09:46

arXiv cs.AI@Xhevahire Tërnava

论文对10个vibe coded C/C++项目进行分析，发现制品内变体性近乎为零，所有变体决策集中在生成时。提出VbR（Variability by Regeneration）方法，让LLM作为推导引擎，为每个变体生成无死代码的二进制。用一个wc产品家族演示了完整流程。该工作首次将产品线思想引入AI生成代码的变体性管理。

论文 Vibe Coding VbR 产品线变体性 LLM

推荐理由：这篇论文用10个C++项目分析了vibe coding的变体性问题，还提出了VbR方法让LLM直接生成无死代码的二进制，挺有启发的。

原文

09:45

arXiv cs.AI@David Aaron Evans, Jay C. Rothenberger, Kara J. Sulia, Nick P. Bassill, Chris D. Thorncroft

HRRR高分辨率数值天气预报系统的误差常与未解析的边界层过程、对流和地形诱导环流有关。已有研究用LSTM网络基于地表观测预测HRRR误差，但复杂垂直大气演变时性能下降。本文提出LSTM-ViT混合框架，融合地表序列学习与纽约州网大气廓线数据。在预测降水、10m风速和2m温度误差上，LSTM-ViT均优于基线LSTM，其中降水误差预测技能提升约两倍。改进在短预报时效和行星边界层活跃期尤为显著。

论文 LSTM Vision Transformer HRRR 天气预报预报误差

推荐理由：这篇论文用LSTM加Vision Transformer看大气垂直结构，让天气预报误差预测精度翻倍，搞气象AI的值得一读。

原文

09:44

arXiv cs.AI@Lorenzo Sani, Zeyu Cao, Meghdad Kurmanji, Alex Iacob, Andrej Jovanovic, Yan Gao, Wanru Zhao, Nicholas D. Lane

传统分布式大模型训练需要每个数据中心持有完整模型副本，导致巨大内存和通信开销。FoMoE通过将专家层分散到不同节点，将通信开销降低至传统方法的1.42倍，相比DDP下降45.44倍。其跳词机制在实际训练中实现了1.4倍的吞吐量提升。系统建模显示，FoMoE在100B参数规模下仍能保持通信和内存优势。

论文 FoMoE MoE 分布式训练通信优化弱连接数据中心

推荐理由：FoMoE把MoE的专家拆开放不同数据中心，省通信还提速，适合多数据中心联合训练大模型。

原文

09:43

arXiv cs.AI@Moon Ye-Bin, Nam Hyeon-Woo, Baek Seong-Eun, Yejin Yeo, Tae-Hyun Oh

TRAP基准评估了22个模型（包括前沿闭源和开源模型）在文档中利用私密信息完成任务时的隐私泄露风险。所有模型均显示非平凡泄露，且指令遵循能力与泄露率正相关。现有的提示防御方法在减少泄露的同时显著降低了任务准确性。论文证明基于softmax的模型无法通过软约束防御同时实现高任务成功率和零泄露概率。提出的结构性私密字段隔离方法用哈希键替换私有字段，几乎完全防止泄露且保持任务精度。

论文 TRAP 基准隐私提取智能体防御

推荐理由：想看看你的AI模型干活时会不会偷偷泄密？这篇论文做了22个模型的隐私压力测试，还给了个不会牺牲任务性能的防漏方案。

原文

09:42

arXiv cs.AI@Fengying Ye, Yanming Sun, Runzhe Zhan, Zheqi Zhang, Lidia S. Chao, Derek F. Wong

G-IdiomAlign是一个新的基准测试，以Wiktionary的英语注释为锚点，专门评估跨语言习语对齐能力。它包含两个协议：带类型干扰项的多项选择习语等价测试，以及通过有无注释对比生成来隔离语义锚点效果。实验发现，多种LLM在低资源语言上普遍倾向于直译，这是主要失败模式。添加注释后，在基于嵌入的语义度量下生成质量有所提升，但绝对性能仍然有限，说明开放输出空间仍有较大改进余地。对Qwen3-8B的分析表明，差异更多集中在注意力头而非层上，且优质生成与更强的注释锚定相关。

论文 G-IdiomAlign Qwen3-8B LLM 习语对齐跨语言理解

推荐理由：这篇论文搞了个G-IdiomAlign基准，专门测AI能不能理解不同语言的习语。结果模型爱直译，加了注释能好点但还差得远，值得一看。

原文

09:41

arXiv cs.AI@Jinhao Song, Shan Liang, Yiqun Yue, Zhuhuayang Zhang, Tianqi Gao

ThinkDeception首次将多模态大语言模型(MLLM)引入欺骗检测领域，将其从二分类任务转变为显式认知推理过程。研究团队构建了首个逐步多模态思维链(CoT)数据集，并基于此开发基础模型ThinkDeception Base。核心创新是提出Visual-Audio Consistency Group Relative Policy Optimization(VAC-GRPO)，采用渐进式训练将数据分为四个难度层级。在主流基准上，ThinkDeception在检测准确性和推理质量上达到新SOTA。

AI模型 ThinkDeception MLLM 多模态思维链(CoT)推理模型

推荐理由：这个框架用MLLM和思维链一步步拆解欺骗线索，比黑箱模型更能解释为什么判定说谎，准确率还最高。

原文

09:40

arXiv cs.AI@Yafeng Wu, Huu Hiep Nguyen, Thin Nguyen, Hung Le

论文提出CADE框架，用于时间序列问答。该框架通过点式线性编码器和MLP投影器将每个时间步直接映射到LLM嵌入空间，避免分词瓶颈和固定窗格损失。引入单向监督对比损失对齐时间序列嵌入与冻结类名文本锚点。在Time-MQA基准上，CADE在六个TSQA任务中一致优于开源和闭源LLM基线。

论文 CADE 时间序列问答 LLM 对比学习 Time-MQA

推荐理由：这篇论文提出CADE，解决了LLM处理时间序列时丢了数值信息的痛点，用直接时间步嵌入和对比对齐，在Time-MQA上比GPT-4还强。

原文

09:37

arXiv: Google DeepMind@Tim Rädsch, Yuki M Asano, Hilde Kuehne, Stefan Bauer, Priyank Jaini, Robert Geirhos, Carsten T. Lüth

该研究系统审计了Physics-IQ视频物理理解基准，发现其提示质量和真实标注存在缺陷。作者提出三项改进措施，包括优化提示与真值、引入样本级评分系统，并应用六种图像到视频生成模型验证。新版Physics-IQ Verified改进了57.6%的样本和34.8%的提示，模型排名变化中度显著（Kendall's τ=0.46）。

论文 Physics-IQ 视频生成模型基准测试物理理解 DeepMind

推荐理由：DeepMind发布了Physics-IQ验证版，专门评测视频模型对物理世界的理解。现有基准有缺陷，他们修正后让模型排名更可信了。

原文

09:26

arXiv: DeepSeek@Ruiqi Lai, Dakai An, Wei Gao, Ju Huang, Siran Yang, Jiamang Wang, Lin Qu, Dmitrii Ustiugov, Wei Wang

精选

DiT强化学习后训练需要数千块高端GPU，成本极高。Spotlight系统利用Spot GPU（价格低69-77%）和种子探索技术，将训练速度提升4倍。该系统通过带子集探索规划器最大化奖励方差，弹性序列并行在预emption时毫秒级恢复，并采用拉取式调度平衡负载。在Qwen-Image后训练中，Spotlight达到相同验证分数的成本降低1.4-6.4倍，在DeepSeek-OCR和Geneval数据集上512×512和1280×1280分辨率下图像质量更优。

论文 Spotlight DiT Qwen-Image 强化学习扩散模型

推荐理由：Spotlight系统用便宜的Spot GPU做DiT强化学习后训练，成本降低1.4-6.4倍，训练快4倍，适合预算有限的团队。

原文

09:25

arXiv: DeepSeek@Jingkun Luo, Yifan Sun, Da-Tian Peng, Guanxiong Pei

SenFlow将混合文档中的句子级AI文本检测重构为结构化预测问题，在图传播与线性链CRF基础上实现整文档级联合解码。MOSAIC基准包含16,000篇混合文档，由DeepSeek-V3.2和Kimi K2生成，并引入困惑度一致性过滤。在跨域迁移最难协议下，SenFlow平均Macro-F1比现有方法高出4.15个百分点。研究还发现，即使经困惑度过滤后，AI插入的句子长度仍存在生成器依赖的差距。

论文 SenFlow MOSAIC DeepSeek-V3.2 Kimi K2 AI生成文本检测

推荐理由：这篇论文用SenFlow模型做混合人机文本检测，在MOSAIC基准上比现有方法高出4个多点的F1分数，还发现AI句子有长度特征。

原文

09:24

arXiv: DeepSeek@Serena A. Hoffstedde, Machiko Hirota, Akshara Nadayanur Sathis Kanna, Rihito Kotani, Ujwal Kumar, Gabriele Trovato, Phan Xuan Tan

该研究使用60份日本履歴書格式简历、12个基于语言性别信号的名字对，以及Claude Sonnet 4.6、GPT-4o、DeepSeek-V3、Gemini 2.5 Flash、Llama 3.3 70B五个SOTA模型，进行了43200次API调用。交叉随机效应线性混合模型确认所有五个模型均存在显著亲女性偏见。提示级性别中立指令未能有效减少偏见。移除名字几乎完全消除了女性效应，表明名字是主要性别通道。隐私过滤器与GPT-4o安全过滤器的不兼容导致42%的请求被拒绝。

论文 GPT-4o DeepSeek-V3 Claude Sonnet 4.6 性别偏见招聘

推荐理由：这篇论文用43200次测试发现，五个主流LLM在日文简历上全有亲女性偏见，改提示没用，删名字才行，看清AI招聘的坑。

原文

09:23

arXiv: DeepSeek@Zhengxiong Luo, Mehtab Zafar, Dylan Wolff, Abhik Roychoudhury

精选

Code-Augur提出安全规范优先范式，将漏洞检测智能体的隐性假设显式化为安全规范，并通过运行时反证持续细化。在真实项目上，Code-Augur比Claude Mythos等专用模型检测到更多漏洞。它基于Sonnet和DeepSeek等通用LLM构建，发现了22个关键开源项目的新漏洞。该方法通过模糊测试触发断言，揭示漏洞或修正规范，提升检测可信度。

论文 Code-Augur 漏洞检测智能体安全规范 Sonnet

推荐理由：这篇论文让AI漏洞检测不再黑箱——Code-Augur会生成明确的安全假设，再用模糊测试验证，已经在真实项目里挖出22个新漏洞，比专用模型还管用。

原文

09:22

arXiv: DeepSeek@Siddharth Aphale, Kelly Liu

一项研究分析了SFT（监督微调）的过度训练对RLVR（基于强化学习的验证）训练的影响。使用Qwen2.5-Coder-3B和DeepSeek-Coder-6.7B模型，发现SFT深度增加时，预RL的pass@1上升，但GRPO的pass@10从0.806降至0.481（3种子均值，n=20）。预RL熵与GRPO结果正相关（ρ=+0.69）。研究者提出一个两阶段诊断方法，结合预RL熵筛选和早期GRPO熵监控，可标记高风险检查点。简单KL正则化和标签平滑无法挽救已崩溃的检查点。

论文 Qwen2.5-Coder-3B DeepSeek-Coder-6.7B SFT RLVR 强化学习

推荐理由：这篇论文发现了SFT过训练会搞崩GRPO训练的秘密，还给出了诊断方法来提前止损。做RLHF或强化学习训练的可以看看。

原文

09:21

arXiv: DeepSeek@Yifu Ding, Jiacheng Wang, Ge Yang, Yongcheng Jing, Jinyang Guo, Xianglong Liu, Dacheng Tao

精选

该论文针对混合专家(MoE)模型部署时内存和推理开销大的问题，提出一种结构剪枝框架。方法将剪枝比率分配转化为通道分数覆盖最大化问题，通过归因近似高效求解。在DeepSeek和Qwen MoE模型上实验，结合4-bit量化后，50%或25%结构化剪枝仍保持模型准确率。在Qwen3-30B-A3B上，内存占用减少5.27倍，优于现有基线。

论文 MoE 结构剪枝量化 DeepSeek Qwen

推荐理由：想省显存又怕掉精度？这篇论文用通道级剪枝加4-bit量化，把MoE模型体积砍到1/5还能保住性能，DeepSeek和Qwen都能用。

原文

09:20

arXiv: OpenAI@Costas Mylonas, Magda Foti, Andrea Pomarico, Matheus Duarte, Qian Zhang, Emmanouel Varvarigos

精选

PowerAgentBench-SS是一个针对电力系统稳态研究中工具使用智能体的基准框架。它使用IEEE 39节点系统进行直流热N-2预想事故搜索测试，评估智能体在工具调用、约束满足和验证方面的能力。实验对比了三个本地Ollama模型和一个OpenAI API代理，发现纯求解器评估不足以区分智能体性能，验证预算使用、类型强制转换、证据报告等行为是关键差异。该基准包含召回率、假安全惩罚、严重性遗憾、行动成本等风险敏感指标。

论文 PowerAgentBench-SS 智能体电力系统基准工具使用

推荐理由：搞电力系统智能体评估的可以看看这个，用IEEE 39节点系统测试大模型能不能真干活，不只看结果还看过程，挺实在的。

原文

6月17日

12:00

arXiv cs.LG@Longlong Zhu, Jiashuo Yu, Zedi Chen, Yuhan Wu, Zhifan Jiang, Yuchen Xian, Yimeng Liu, Jiajie Su, Shaopeng Zhou, Xingyuan Li, Hongyan Liu, Xuan Liu, Dong Zhang, Chunming Wu, Xiang Chen

OmniPlan采用基于大语言模型的解释器将异构自然语言意图转化为统一偏好向量，并利用混合专家架构动态选择MIP求解器、启发式算法和DRL模型作为专家。在分布式机器学习推理卸载任务（包括决策树、SVM、XGBoost等）的真实测试中，OmniPlan实现了近最优卸载，延迟降低高达97.8%，网络设备资源消耗降低11.5%。

论文 OmniPlan LLM 混合专家架构网络规划 ML推理卸载

推荐理由：OmniPlan用LLM和混合专家做网络优化，在分布式ML卸载上延迟降97.8%，资源降11.5%，效果很直观。

原文

12:00

arXiv cs.LG@Steve Halley, Maurício Gruppi

该论文提出SD-ZFS框架，将S2V-DQN架构适配到最小零强制集(ZFS)问题。ZFS是NP难的图着色问题，在图神经网络、网络控制和逻辑电路设计中有应用。在多个不同结构的图数据集上训练模型，评估其泛化、扩展和迁移能力。与最优解和贪心启发式相比，SD-ZFS框架展示了有效性。

论文 SD-ZFS S2V-DQN 强化学习图神经网络零强制集

推荐理由：这篇论文告诉你如何用强化学习搞定一个NP难的图论问题，效果比传统贪心算法好，适合研究图神经网络和组合优化的人。

原文

12:00

arXiv cs.LG@Umer Siddique, Peilang Li, Yongcan Cao

该论文研究多目标强化学习（MORL）中的公平性优化问题。传统单策略方法使用广义基尼福利函数（GGF）只能处理固定用户偏好，缺乏策略多样性。作者证明对于凹分段线性福利函数（如GGF），公平策略仍属于凸覆盖集（CCS）。提出三种新算法：集成GGF的多策略多目标Q学习（MOQL）、状态增强多策略MOQL及随机策略扩展。在多个领域实验表明，该方法能学习一组适应不同用户偏好的公平帕累托最优策略。

论文 MORL GGF 多目标强化学习公平性帕累托最优

推荐理由：这篇论文提出了在MORL中兼顾最优和公平的新方法，用GGF和三种算法生成多样化的公平策略，比传统单策略方法更灵活。

原文

11:59

arXiv cs.LG@Mostafa Darvishi

该论文系统介绍了面向微控制器级嵌入式设备的机器学习工作流，涵盖从数据采集到部署的工程决策。重点包括从三轴加速度计两秒窗口提取均方根和频谱特征用于惯性运动识别，音频经抗混叠滤波后转换为梅尔频率倒谱系数，由紧凑一维卷积网络处理关键词识别。论文还讨论了类别不平衡下的验证、模型与运行时协同设计、量化、阈值化、调度和现场监控等实践规则。

论文 Embedded Machine Learning Microcontroller Edge Devices Feature Extraction Model Deployment

推荐理由：这篇论文把嵌入式ML的工程细节讲得很实在，从特征提取到量化部署都有实操建议，做边缘AI的开发者值得一看。

原文

11:58

arXiv cs.LG@Ramprasath Ganesaraja, Sahil Dilip Panse, Swathika N

Mamba-2 1.3B参数模型通过分组量化感知训练（QAT）从FP16教师蒸馏，仅消耗4 GPU小时（单H100）和102M tokens，将内存从2,687 MB压缩至744 MB（3.61倍）。零样本七任务平均准确率达48.1%，接近Bi-Mamba的48.4%（±0.9pp置信区间）。该方法无需从头训练150B tokens，使用预训练检查点即可。研究还发现零比例坍缩现象，即可学习量化尺度导致的不稳定性，这在从头训练中不会出现。后处理校正策略对SSM无效，因循环结构导致误差累积。

论文 Mamba-2 Ternary Mamba 量化感知训练模型压缩状态空间模型

推荐理由：把Mamba-2压缩到1比特权重不用花大钱从头训练，用预训练模型加少量微调就行，效果只差0.3%。

原文

11:58

arXiv cs.LG@Mohammadreza Rashidi

该论文分析了Handlebars模板引擎中双花括号{{x}}和三角花括号{{{x}}}对LLM提示注入的影响。双花括号HTML转义尖括号但不转义方括号、冒号或Markdown井号，导致ChatML、Llama-3和XML分隔符存活率为0.00，而Llama-2 [INST]、Human:/Assistant:和Markdown ###分隔符存活率为1.00。在5760次试验中，GPT-3.5 Turbo在原始插值下任务劫持成功率达97%，在转义下为91%。Claude Haiku 4.5几乎完全抵抗两种攻击。转义默认值仅对HTML转义覆盖的分隔符方案有效，无法替代指令与数据的结构化分离。

论文 Handlebars LLM提示注入 GPT-3.5 Turbo Claude Haiku 4.5 提示工程安全

推荐理由：这篇论文用具体数据告诉你，Handlebars的{{}}和{{{}}}差别有多大，以及为什么别指望HTML转义防注入。

原文

11:41

arXiv cs.LG@Ari Blondal, Hamed Hatami, Pooya Hatami, Chavdar Lalov, Sivan Tretiak

这篇论文研究了二元概念类的信号秩（sign rank）的下界方法。作者证明了Z2-索引（Z2-index）被列表可复制数（list replicability number）的线性函数所上界，从而解决了Frick、Hosseini和Vasileuski提出的信号秩与Z2-索引之间是否存在强分离的问题。论文进一步分析了列表可复制数的上界，将其关联到两个组合度量：高度（height）和最小星数（minimum star number）。最后，作者证明了两个概念类的乘积的列表可复制数不超过各自列表可复制数之和。

论文 sign rank Z2-index list replicability number 学习理论组合度量

推荐理由：这篇论文厘清了信号秩、Z2-索引和列表可复制数三个复杂概念的关系，解决了前人遗留的分离问题，还给出了组合上界，适合对学习理论下界感兴趣的人。

原文

11:41

arXiv cs.LG@Rishit Dagli, Donglai Xiang, Vismay Modi, Xuning Yang, Gavriel State, David I. W. Levin, Maria Shugrina

AdaVoMP提出预测3D物体杨氏模量（E）、泊松比（ν）和密度（ρ）的密集空间变化分布。它使用稀疏自适应体素结构SAV，通过稀疏Transformer编码器-解码器自回归生成每输入形状的独特SAV。相比最准确的前期方法VoMP，分辨率提高16^3倍。实验表明，AdaVoMP在测试时计算量更少的情况下估计更准确的体积属性。可将高分辨率复杂3D物体转换为可仿真的资产，实现逼真的可变形模拟。

论文 AdaVoMP VoMP SAV 机械属性物理仿真

推荐理由：AdaVoMP能预测3D物体的机械属性，分辨率比最好方法高16^3倍，还省计算，适合物理仿真。

原文

11:39

arXiv cs.LG@Hao Liang, Cheng Tang, Yunzong Xu

本文研究广义交换机中有限视界排队峰值的渐近行为，采用MaxWeight等漂移最小化调度策略。在均匀松弛负载条件下，平方根包络（√T）仅持续到几何阈值；超出后，运行最大值以O(log T)增长，高概率和期望均成立。匹配下界表明对数项和几何阈值均不可避免。对广义输入排队交换机，获得具有紧对数系数的有限时间峰值界限。仿真验证了两阶段包络及局部几何修正效应。

论文 MaxWeight 广义交换机排队论调度策略随机网络

推荐理由：这篇论文揭示了排队峰值在几何阈值前后从平方根到对数的转变，对理解随机网络调度策略的限时行为很有价值。

原文

11:39

arXiv cs.LG@Trisha Mittal, Akshay Mehra, Joshua Kimball

这篇论文基于ImageNet-1K、ImageNet100和ImageNette三个数据集，采用三种训练协议，对七种最新数据集蒸馏（DD）方法与三种核心集选择（CS）策略进行了标准化对比。实验发现，部分DD方法甚至不如随机子集，而最先进的DD方法在大规模数据集上表现与核心集相当或更差。DD方法的构建成本显著高于CS。此外，核心集在数据分布覆盖、代表性和多样性上始终优于蒸馏集。

论文 Dataset Distillation Coreset Selection ImageNet-1K 数据压缩论文

推荐理由：想用数据集蒸馏来压缩训练集？这篇论文告诉你，现有DD方法在ImageNet上不比随机选子集好，还更贵，不如直接用核心集。

原文

11:38

arXiv cs.LG@Abir Ashab Niloy, Ahmed Ryan, Imamul Hossain Rafi, Md Erfan, Md Rayhanur Rahman

研究者构建了一个包含870个会话（70个攻击，800个正常）和约230万事件的多源日志数据集，覆盖系统、网络和浏览器日志。攻击事件用ATT&CK技术ID标注，涉及12种战术和53种技术。使用LoRA微调Qwen2.5-1.5B、Llama-3.2-3B、Phi-4-Mini三个小型语言模型，在分块分类任务上准确率从约8%提升至90%-97%。技术识别任务最佳精确匹配准确率为42%，但部分匹配得分较高，表明模型掌握了大部分推理逻辑。

论文 Qwen2.5-1.5B Llama-3.2-3B Phi-4-Mini ATT&CK 多源日志

推荐理由：这个新数据集把系统、网络和浏览器日志合在一起，还按ATT&CK标准标了攻击手法。拿三个小模型试了一下，分块分类准确率从8%升到90%以上，挺实用的。

原文

11:38

arXiv cs.LG@M. Forzo, E. Monzio Compagnoni, A. Russo, A. Pacchiano

本文针对带线性函数近似的时序差分(TD)学习，提出了一种随机微分方程(SDE)近似，以替代传统常微分方程(ODE)描述。ODE仅捕捉渐近平均动力学而忽略随机波动，新SDE模型在马尔可夫噪声下区分了投影Bellman算子的收缩动力学与采样噪声的影响。该模型解释了恒定步长误差下限是由马尔可夫长期协方差与投影Bellman算子收缩几何相互作用导致。论文提供了理论证明与数值验证。

论文 TD learning 线性函数近似随机微分方程策略评估马尔可夫噪声

推荐理由：这篇论文从数学上解释了TD学习的误差为啥降不下去，用扩散近似把随机性的影响说清楚了。方法派、做强化学习理论的可以看看。

原文

11:35

arXiv cs.LG@Gbenga T. Awojinrin, Abdul-Akeem Olawoyin, Rami M. Younis

精选

该论文提出LiL-Q方法，通过Bellman-Kalaba拟线性化将非线性PDE转化为一系列线性子问题，每个子问题用线性可学习表示（LiL）离散化并直接通过QR分解求解。LiL表示包括随机特征极限学习机、谱多项式基和三角展开，实现为物理信息神经网络（PINNs）。在7个基准测试（Bratu、粘性Burgers、Buckley-Leverett、平面应变弹性、2D/3D不可压缩Navier-Stokes、异质渗透率Darcy流）上，LiL-Q通常在个位数外部迭代内收敛，参数数量比现有PINN求解器少两个数量级时仍能达到或超越其精度。当精确解在试验空间内时，单次求解即可恢复至机器精度。

AI模型 LiL-Q PINNs 非线性PDE 凸优化谱方法

推荐理由：这个新方法LiL-Q用凸优化替代了PINNs的非凸训练，收敛快、参数少，在Navier-Stokes等难题上效果拔群，值得关注。

原文

11:35

arXiv cs.LG@Ahmed Ryan, Saad Sakib Noor, Md Erfan, Shaswata Mitra, Sudip Mittal, Md Rayhanur Rahman

该研究构建了包含2076条人工标注句子的数据集（1281条正样本、795条负样本），来自83份复杂的非结构化CTI报告，映射到114种ATT&CK技术。评估了7个开源LLM（参数规模8B至236B），最高micro-F1得分为0.22。参数大小与F1得分呈显著正相关，提示策略和温度设置无显著影响。结果表明当前开源LLM尚无法用于生产级ATT&CK分类。

论文 ATT&CK CTI MITRE 开源模型多标签分类

推荐理由：这篇论文造了2076条人工标注的CTI数据，测了7个开源大模型，结果最好的F1才0.22，说明开源模型在安全情报分析上还不够用。

原文

11:26

arXiv cs.LG@Marco Deano, Filippo Ziche, Nicola Bombieri

论文提出S4oP，一种增量式运算符级剪枝方法，针对S4和S4D结构状态空间模型。该方法通过交替结构化掩码和微调逐步剪枝运算符。实验在多个基准数据集上表明，剪枝70%的模型运算符仍能保持原模型性能，同时显著降低推理延迟。这是首次系统研究SSM的结构化运算符剪枝。

论文 S4oP S4 S4D SSM 模型剪枝

推荐理由：这篇论文把S4模型剪掉70%计算量还能保持性能，想在小设备上跑S4模型可以看看。

原文

10:46

arXiv cs.AI@Mingtong Zhang, Dhruv Shah

论文提出了VERITAS框架，将预训练通用机器人策略作为“生成器”，搭配无梯度的“视觉验证器”在推理时评估动作。该框架无需额外训练即可提升策略性能，优于原通用策略。使用验证的自主轨迹进行微调后，策略性能持续提升，且效率与专家演示相当，无需人工干预。实验表明推理时验证是一种实用且可扩展的部署改进机制。

论文 VERITAS 机器人推理时验证策略改进自主学习

推荐理由：这篇论文展示了如何用视觉验证器让机器人策略在推理时自我改进，无需额外训练，效率堪比专家演示，值得关注。

原文

10:46

arXiv cs.AI@Shanda Li, Qiuhong Anna Wei, Jingwu Tang, Valerie Chen, Nihar B Shah, Tim Dettmers, Yiming Yang, Ameet Talwalkar

ReproRepo是一个可扩展的框架，利用GitHub Issues作为监督信号来评估LLM在可重复性审计中的能力。研究基于1149篇近期机器学习论文，测试了四种前沿智能体配置。最佳配置Codex with GPT-5.5能识别约90%论文的至少一个语义相关的真实可重复性问题。分析表明智能体擅长发现表面故障和语义区域，但精确定位仍不足。代码已开源。

论文 ReproRepo GPT-5.5 Codex 可重复性 LLM智能体

推荐理由：这篇论文提出了一个可扩展的框架，用GitHub Issues来测试LLM智能体找论文代码的复现问题，比现有手动基准好很多，值得看。

原文

10:46

arXiv cs.AI@Qi Chai, Wenhao Shen, Nanjie Yao, Yue Xia, Kaiyong Zhao, Jie Ma, Guosheng Lin, Hao Wang

EvolveNav 提出了一种自演化框架，用于零样本物体目标导航，无需预先训练。该方法通过构建代理规则记忆，从过往轨迹中提取可操作知识，并采用基于上置信界（UCB）的检索策略平衡语义相关性和历史成功率。还引入了记忆引导的前置反思模块，在行动前预测潜在结果，减少低效探索。实验表明，EvolveNav 在多个基准上超越现有零样本基线，成功率提升 10.1%，同时减少了不必要的步骤。

论文 EvolveNav 零样本物体导航记忆机制具身智能

推荐理由：这篇论文搞了个EvolveNav，让机器人自己从失败中学习，零样本导航成功率直接涨了10%，而且没走那么多冤枉路。

原文

10:46

arXiv cs.AI@Ankita Samaddar, Sandeep Neema, Daniel Balasubramanian, Xenofon Koutsoukos

本文提出一种基于模仿学习的策略学习技术，用于在部分可观测的自主网络环境中预测红方（攻击方）动作。该方法适用于离散状态和离散动作的强化学习智能体。集成到使用行为树和LECs的神经符号自主防御智能体后，该方法能有效处理不同红方策略，并在多种模拟场景下实现高预测准确率。

论文模仿学习强化学习 AI安全智能体网络防御

推荐理由：这篇论文用模仿学习帮防守方预测攻击者行动，在模拟网络攻防场景下准确率很高。

原文

10:45

arXiv cs.AI@Hongyuan Adam Lu, Z. L. Victor Wei, Qun Zhang, Jinrui Zeng, Bowen Cao, Lingwei Meng, Mocheng Li, Zezhong Wang, Haonan Yin, Naifu Xue, Minyu Chen, Cenyuan Zhang, Zefan Zhang, Hao Wei, Jiawei Zhou, Haoran Xu, Hao Yang, Ronglai Zuo, Tongda Xu, Yonghao Li, Jian Chen, Hebin Wang, Zeyu Gao, Yang Li, Wei Zhao, Qimin Zhong, Siqi Liu, Yumeng Zhang, Leyan Cui, Zhangyu Wang, Wai Lam

精选

Looped World Models（LoopWM）首次将循环架构引入世界建模，通过参数共享的transformer块迭代细化潜在环境状态。相比传统方法，LoopWM在参数效率上提升多达100倍，并能根据预测复杂度自动调整计算深度。该方法将迭代潜在深度确立为世界仿真的新扩展轴，独立于模型规模和训练数据规模。

论文 LoopWM 世界模型循环架构参数效率

推荐理由：这篇论文用循环架构解决了世界模型长程预测的计算瓶颈，参数省了100倍还能自适应深度，做仿真和规划的研究者值得看。

原文

10:45

arXiv cs.AI@Sajad Movahedi, Vera Milovanović, Shlomo Libo Feigin, Alexander Theus, Thomas Hofmann, Valentina Boeva, T. Konstantin Rusch, Antonio Orvieto

循环架构通过循环利用层数为组合推理任务提供逐步推理的归纳偏置。随着循环深度增加，信号传播问题加剧，影响模型性能。本文提出FPRM，一种基于Transformer的固定点推理模型，采用预归一化层和残差缩放解决信号传播，并以固定点收敛作为端到端停止机制。FPRM在Sudoku、Maze、状态跟踪和ARC-AGI基准上验证了有效性。

论文 FPRM Transformer 固定点推理推理模型架构优化

推荐理由：这篇论文提出了FPRM，用固定点收敛让循环推理深度自适应任务难度，在Sudoku和ARC-AGI上效果不错，适合关注推理架构的人。

原文

10:45

arXiv cs.AI@Weizhi Zhang, Zechen Li, Hamid Palangi, Ben Graef, A. Ali Heydari, Simon A. Lee, Salman Rahman, Ray Luo, Zeinab Esmaeilpour, Erik Schenck, Chloe Zhang, Yamin Li, Menglian Zhou, Philip S. Yu, Daniel McDuff, Lindsey Sunden, Mark Malhotra, Shwetak Patel, Ahmed A. Metwally

RubricsTree是一个专家对齐的分层评估框架，包含超过100个可临床验证的原子布尔规则，这些规则从4000个真实用户查询中通过迭代人机协作提炼而成。框架使用上下文自适应路由器为每个查询激活相关子集，实现可扩展且与专家质量对齐的评估。在元评估中，RubricsTree在专家对齐上显著超过强基线，且可靠惩罚上下文退化的响应。作为结构化指令、文本反馈或训练奖励用于性能优化时，RubricsTree在HealthBench上为Gemini、GPT和Qwen系列模型带来高达约66%的相对提升。

论文 RubricsTree HealthBench Gemini GPT 健康代理

推荐理由：RubricsTree用4000条真实查询构建100多条可验证规则，评估健康AI比LLM裁判更准，还能当训练奖励，让Gemini等模型性能飙升66%。

原文

仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档（侧边栏 → AI 日报 → 顶部「往期日报」）。