全部 AI 动态 · AI 热点

6月8日

11:09

arXiv cs.LG@Ekaterina Grishina, Stepan Kuznetsov, Askar Tsyganov, Ilya Ivanov, Daria Korovaitceva, Margarita Rusanova, Uliana Parkina, Alexander Derevyagin, Evgeny Frolov, Sergey Samsonov, Anton Lysenko

论文推荐系统算法排名 Bradley-Terry模型数据集特性评估方法

推荐理由：推荐系统团队做算法选型时，别再被平均指标骗了——BT模型帮你根据数据集特性精准排名，省去跑全量模型的成本，做评估基准的开发者值得一试。

原文

11:07

arXiv cs.LG@Ryan Missel, Xiajun Jiang, Linwei Wang

个性化心脏模拟面临模型个性化和计算成本挑战，现有神经代理方法要么侧重高效个性化，要么侧重泛化模型训练。最新研究通过小样本生成建模和元学习实现个性化，但假设训练分布静态且任务标识已知，无法处理临床中顺序到达的未标记数据，否则会灾难性遗忘。本文提出持续元学习框架CoMetaPNS，利用持续贝叶斯高斯混合模型推断数据标识和关系，实现个性化神经代理的持续集成。在合成心脏数据上，该方法在模拟预测、计算可扩展性和抗遗忘方面优于现有基线。

论文持续学习元学习心脏模拟神经代理个性化医疗

推荐理由：心脏模拟领域终于有了能应对临床数据流变化的方案——CoMetaPNS解决了灾难性遗忘问题，做个性化医疗模拟或心脏电生理研究的团队可以直接参考其持续学习框架。

原文

11:06

arXiv cs.LG@Lei Huang

许多重要现象（如产品采用、疾病传播、金融风险扩散）以动态级联方式展开，恢复其背后的隐藏影响网络是关键挑战。现有方法通常假设特定的扩散模型，当假设错误时性能大幅下降。CascadeNet 提出基于雅可比矩阵的机器学习框架，无需指定扩散机制，通过一步转移函数的雅可比矩阵刻画影响结构，并利用 Neyman 正交去偏实现统计推断。在九种常见数据生成过程的模拟中，CascadeNet 恢复精度最高；在西班牙 52 省 COVID-19 传播的真实案例中，其恢复的网络与真实人口流动网络显著相关，而基线方法无显著对齐。

论文网络恢复级联数据雅可比矩阵去偏估计 CascadeNet

推荐理由：做网络推断、因果发现或传染病建模的研究者终于有了一个不依赖模型假设的通用方法——模拟和真实数据都验证了效果，值得直接复现试试。

原文

11:03

arXiv: OpenAI@Vladislav Smirnov, Chieu Nguyen, Sergey Senichev, Minh Ngoc Ta, Ekaterina Fadeeva, Artem Vazhentsev, Daria Galimzianova, Nikolai Rozanov, Viktor Mazanov, Jingwei Ni, Tianyi Wu, Igor Kiselev, Mrinmaya Sachan, Iryna Gurevych, Preslav Nakov, Timothy Baldwin, Artem Shelmanov

ThinkBooster 是一个统一的测试时计算（TTC）扩展框架，旨在解决现有TTC策略和评分器碎片化、评估不一致的问题。它包含模块化Python库、联合评估性能与效率的基准测试，以及兼容OpenAI的代理服务，支持自适应推理的即插即用。在数学和编程任务上的实验揭示了性能与计算成本的权衡，并展示了实际增益。代码以MIT许可证开源。

论文推理模型测试时计算扩展开源/仓库性能评估编程助手

推荐理由：做LLM推理优化的开发者终于有了一个标准化工具来对比不同TTC策略的成本收益，不用再自己拼凑评估流程，建议直接试。

原文

11:02

arXiv cs.LG@Chris R. Jung, Markus Dörr, Natalie Jüngling, Jennifer Niessner, Adam T. Müller, Nicolaj C. Stache

计算流体动力学（CFD）虽能高保真模拟室内环境流场，但计算成本高，限制了快速探索。为解决此问题，生成式替代模型比确定性网络能更好建模分布，但迭代采样速度慢。本文首次将生成式漂移框架（Drifting Models）应用于流体力学，提出条件架构在VAE潜在空间中进行漂移，并使用标签感知掩码对齐生成样本与边界条件。该标签条件模型在精度和流一致性上匹配迭代扩散模型，但运行速度快两个数量级。此外，空间条件变体为泛化到未见几何体铺平了道路。条件漂移成为扩散模型的高效替代方案，解锁了推理速度关键的实时CFD替代模型。

论文生成模型流体模拟 CFD Drifting Models 实时推理

推荐理由：做流体模拟或室内环境优化的团队终于有了一个又快又准的替代方案——Drifting Models 比扩散模型快两个数量级，精度却不输，值得在实时 CFD 场景中直接试试。

原文

11:00

arXiv cs.LG@Mohammadreza Sadeghi, Sareh Soleimani, Zihan Wang, Narges Armanfard

本文提出无监督持续聚类（UCC）问题，并引入前向-后向知识蒸馏持续聚类方法（FBCC）。该方法通过持续教师网络和轻量级任务特定学生，在无标签且不存储旧数据的情况下，学习新聚类同时保留已有聚类结构。实验表明，FBCC在四个基准数据集上持续优于现有持续学习方法，显著减少灾难性遗忘。这是首个专门针对无监督持续聚类的研究，解决了该领域缺乏聚类特定目标的问题。

论文无监督学习持续学习知识蒸馏聚类灾难性遗忘

推荐理由：做无监督学习和持续学习的团队终于有了聚类场景的专用方案——FBCC 不依赖标签和旧数据就能保持聚类结构，做数据流聚类或隐私敏感场景的开发者可以直接参考实验设置。

原文

10:56

arXiv cs.LG@Julian Withöft, Werner John, Emre Ecik, Ralf Brüning, Jürgen Götze

本文提出了一种名为摊销神经优化（ANO）的方法，用于高速信号完整性（SI）分析的预布局设计空间探索。传统方法依赖迭代式黑箱优化算法，计算成本高昂，而ANO通过使用完全可微的神经网络代理模型，从代理中提取解析梯度来训练全局优化策略。训练完成后，ANO策略能在单次确定性前向传播中直接将不同通道上下文映射到接近最优的设计参数，从而消除了推理时的迭代过程。在DDR5 DFE、9维SerDes Tx/Rx联合均衡和DDR3 DQS差分对布线等复杂场景中，ANO相比实例特定黑箱算法仅牺牲约10%的最优性，却实现了三到四个数量级的加速。对于大规模32万实例的多角SerDes扫描优化，ANO将原本需要数天的计算压缩为毫秒级的单次批量前向传播，将计算密集的SI优化转变为实时交互式预布局设计空间探索。

论文信号完整性设计空间探索神经网络代理摊销优化 EDA

推荐理由：做高速电路设计或EDA工具开发的团队，终于有办法把信号完整性优化从数天缩短到毫秒级——ANO直接学出优化策略而非反复迭代，值得在DDR5/SerDes等场景中试试。

原文

10:47

Viking@vikingmute

精选

一篇名为《How LLMs Actually Work》的文章近日登上 HackerNews 榜首。文章用直观的例子和恰当的比喻，向有编程基础但未深入学 Transformer 的读者解释大模型工作原理。作者强调写作乐趣，坚持不用 AI 辅助，文章风格自然，没有 AI 味。适合想理解 LLM 底层逻辑的开发者阅读。

论文 LLM Transformer 深度学习技术文章 HackerNews

推荐理由：想搞懂 LLM 原理但被 Transformer 劝退的开发者，这篇用活人语言讲清楚了，比看论文轻松太多，建议直接点开。

原文

10:40

arXiv cs.LG@Lorenzo Longarini, Alessandro Rongoni, Simone Silenzi, Emanuele Frontoni, Riccardo Rosati

精选

光伏电站在投运初期缺乏历史观测数据，导致标准监督预测方法无法直接使用。研究者提出一种零样本流程，利用电站元数据和气象协变量生成合成生产历史，使时间序列基础模型（TSFMs）能够通过推理时条件进行预测。在440个光伏站点、四个数据集和多种气候条件下，五种TSFMs与经典基线对比，协变量感知模型性能提升约1.7-2倍，其中TabPFN-TS在真实反馈策略下误差最低（MAE 0.514），Chronos-2在自预测反馈策略下最鲁棒。合成历史来源对性能影响不大，表明合理的时序上下文比具体生成器更重要。

论文时间序列基础模型光伏预测冷启动零样本 TabPFN-TS

推荐理由：光伏运维团队终于有了冷启动预测的实用方案——无需历史数据即可用基础模型实现高精度预测，做新能源发电预测的开发者可以直接参考TabPFN-TS和Chronos-2的表现。

原文

10:38

arXiv cs.LG@Hanqiao Yu, Shusen Yang, Xuebin Ren, Cong Zhao

精选

Deflex是一种端到端AI方法，能从多尺度复杂系统中自动提取不同形式的数学公式（如不变量和分布）。它由两个子系统组成：Deflexpressor（基于Lambda演算的符号回归模型）和Deflexformer（可分解深度能量模型）。Deflexpressor生成合成数据预训练Deflexformer，后者通过解耦多尺度潜在关系引导公式发现。在六个代表性复杂系统上，Deflex比现有方法效率提升高达7倍，实现了自动化多尺度发现。这项工作有望成为跨学科科学发现的有用工具。

论文符号回归 Lambda演算多尺度建模复杂系统科学发现

推荐理由：做复杂系统建模或科学发现的团队，终于有了能自动提取多尺度公式的工具——Deflex比现有方法快7倍，做物理、生物、工程等跨学科研究的可以直接试试。

原文

10:37

arXiv cs.LG@Abhijeet Praveen, Sareh Soleimani, Cormac Cureton, Aman Sidhu, Kintak Raymond Yu, Cristian Cojocaru, Narges Armanfard

大气等离子喷涂（APS）中，飞行粒子的温度和速度对涂层质量至关重要，但难以实时监测。该研究利用高速视频观测等离子体羽流，通过TabPFN、CNN等模型预测粒子特性。TabPFN在温度预测上表现稳定（R²=0.86），CNN在速度预测上更优（R²=0.81），而预训练CNN直接处理原始视频帧达到最佳效果（温度R²=0.90，速度R²=0.82）。结果表明，视频驱动的非侵入式诊断方法为APS实时过程监控提供了可扩展的解决方案。

论文大气等离子喷涂视频预测 TabPFN CNN 工业过程监控

推荐理由：做涂层工艺或工业过程监控的团队，终于有了不依赖昂贵传感器的实时诊断方案——用高速视频就能预测关键粒子参数，建议做APS工艺优化的点开看具体特征工程方法。

原文

10:35

arXiv cs.LG@Simon Schug

该研究提出了一种名为Sgatlin（稀疏门控线性神经元）的新型网络结构，通过将每个专家缩小为单个神经元并移除非线性激活函数，在保持稀疏性的同时提升了计算效率。在等计算量对比中，用Sgatlin替换Transformer的前馈层可改善语言模型的困惑度。此外，稀疏性和线性结构使得模型更易解释，无需额外训练即可分析前馈电路，发现其形成语义聚类并参与事实回忆。这项工作为构建计算高效且可解释的Transformer前馈层提供了新思路。

论文稀疏门控线性专家 Transformer 可解释性计算效率

推荐理由：这项研究用极简设计同时提升了Transformer的计算效率和可解释性，做模型压缩或可解释性研究的团队值得关注，尤其是对MoE稀疏化方向感兴趣的开发者可以看看。

原文

10:33

arXiv cs.LG@Rohan Shravan

精选72°

该论文报告了在单个8GPU节点上端到端训练千亿参数稀疏混合专家模型的方法。LightningLM 0.1V 是一个基于循环骨干的语言模型家族，从小型稠密种子模型逐步扩展至120B参数、460个路由专家（top-12路由）。通过状态保持扩展策略，每个更大模型从小模型的训练权重生长而来，活跃参数从1.78B单调增长至5.93B。关键创新包括：可逆循环栈使激活内存不随模型增长而增加；状态保持扩展原则确保各阶段扩展不失败；单节点经济策略TQP通过量化基专家权重和训练低秩适配器，将优化器状态从100B+压缩至2.26B参数。模型家族、分词器和训练代码均已开源。

论文稀疏MoE 模型扩展可逆循环低秩适配单节点训练

推荐理由：这篇论文解决了大模型训练资源门槛高的问题——单节点8卡就能训120B模型，做MoE和模型扩展的团队可以直接参考其状态保持原则和TQP策略，省下大量硬件成本。

原文

10:32

arXiv cs.LG@Changkun Guan, El Mehdi Er Raqabi, Mathieu Tanneau, Pascal Van Hentenryck

精选

Benders分解是求解大规模混合整数优化问题的经典框架，但传统方法反复求解相似子问题，收敛慢。本文提出代理Benders分解（Proxy-BD），用自监督的预测-投影-补全机制生成对偶可行解，产生有效的Benders割，保证理论有效性。在大规模设施选址和网络设计问题上，Proxy-BD实现中位最优性差距低于0.5%，加速高达161倍，割数量减少240倍以上。该方法在子问题复杂度高时加速效果更显著，适合大规模分解场景。

论文 Benders分解优化代理大规模优化自监督学习设施选址

推荐理由：做大规模优化或运筹学的团队终于有了加速Benders分解的实用方案——Proxy-BD用代理模型替代重复求解，理论保证不变但速度提升百倍，处理2000x2000规模问题的可以直接试。

原文

10:12

arXiv cs.AI@Fatema Siddika, Md Anwar Hossen, Tanwi Mallick, Ali Jannesari

精选

大型语言模型在持续学习中面临可塑性-稳定性困境，学习新任务常导致旧知识灾难性遗忘。现有方法统一处理参数，无法区分任务特定知识与共享能力。SETA框架通过自适应稀疏子空间分解，将知识分离为任务特定专家和共享专家，利用弹性锚定和路由正则化保护共享知识，统一门控网络自动检索正确专家组合。在LLaMA-2 7B和Qwen3-4B上的实验表明，SETA在多个领域基准上达到或超越现有方法，尤其擅长保留早期任务知识并改善反向迁移。

论文持续学习灾难性遗忘专家混合 LLM 稀疏子空间

推荐理由：SETA解决了LLM持续学习中任务知识冲突的核心痛点，做多任务模型训练或知识迁移的团队可以直接参考其专家分解思路，值得关注其稀疏子空间设计。

原文

10:11

arXiv cs.AI@Jamie J. Alnasir

精选

高性能计算（HPC）集群传统上执行确定性线性管道，但AI和基础模型的普及引入了迭代、数据驱动和概率性的新计算范式。本文提供了12条实用技巧，帮助研究人员设计高效、可扩展且可复现的AI驱动HPC工作流，涵盖容器化、作业数组部署、反馈循环机制和小文件I/O优化等关键系统级瓶颈。这些原则广泛适用于分布式环境，尤其针对现代计算生物学中资源密集型的吞吐需求。

论文 HPC AI工作流计算生物学容器化 I/O优化

推荐理由：做科学计算或AI+HPC交叉研究的团队，这些技巧能帮你避开常见坑，直接提升工作流效率，建议收藏。

原文

10:10

arXiv cs.AI@Jeremy Yang, Kate Zyskowski, Noah Yonack, Jerry Ma

83°

这篇论文基于 Perplexity 的 Search 和 Computer 产品的实际使用数据，研究了 AI Agent 如何改变知识工作。研究发现，Computer 产品（具有自主执行能力）每个用户会话可自动完成 26 分钟的工作，而 Search 仅为 33 秒。在相同任务上，Computer 将完成时间从 269 分钟降至 36 分钟，成本降低 94%，且用户不满率降低 55%。此外，Computer 用户更倾向于尝试跨职业边界、需要高阶认知的复合任务，解锁了 Search 中几乎不存在的活动。这表明 AI Agent 不仅加速了工作流，还提升了质量、降低了成本，并扩展了自动化工作的广度和深度。

论文 AI Agent 知识工作自主性效率提升 Perplexity

推荐理由：这篇论文用真实数据证明了 AI Agent 在知识工作中的巨大价值——效率提升 7 倍、成本降低 94%，做 AI 产品设计或知识管理的人值得仔细看，尤其是 Perplexity 的案例很有参考意义。

原文

09:40

arXiv: DeepSeek@Xing Yue, Linjuan Wu, Daoxin Zhang, Yongliang Shen, Weiming Lu

针对开放域奖励建模中缺乏可验证答案、传统基于评分标准的方法生成僵化且增加推理开销的问题，研究者提出 Eval-Skill 方法。该方法通过探索引导，仅用每个领域 100 个案例，分两阶段（工作流生成与原则生成）合成可复用的领域级评估技能，直接注入判断模型上下文。在 RewardBench 2 上，Eval-Skill 显著提升多种基座模型表现，如 Qwen3-8B 提升 13.44%，DeepSeek-V4-Flash 提升 18.51%。实验还分析了扩展性、泛化性和迁移性，表明紧凑评估技能为基于 LLM 的评估提供了高效新范式。代码已开源。

论文奖励模型评估技能探索引导 RewardBench LLM评估

推荐理由：做奖励模型或 LLM 评估的团队终于有了一个轻量级替代方案——不用每次生成评分标准，而是合成可复用的评估技能，效果还比传统方法好很多，值得在 RewardBench 上跑一下自己的模型。

原文

09:39

arXiv: DeepSeek@Yu Yu, Zhihong Sun, Jia Li, Yao Wan, Chuanyi Li, Hongyu Zhang, Ruyun Wang, Tao Huang, Zhi Jin, Ge Li, Chen Lyu

大型语言模型生成的代码虽语法正确，但运行速度通常远慢于人类优化代码。现有方法通过后迭代优化或微调模型来提升效率，但未能显式编码高效代码的结构模式。为此，研究者提出EffiSkel框架，通过三种互补策略提取并学习效率骨架（抽象的可复用结构模式），并采用多任务学习联合优化代码生成与骨架预测。实验表明，在Mercury基准上，基于DeepSeek-Coder (7B)的EffiSkel相比EffiCoder和CodeDPO，效率比分别提升11.11%和3.71%，平均加速比分别提升0.36和0.22。该工作为提升LLM生成代码的运行时性能提供了新思路。

论文代码生成效率优化结构模式多任务学习 LLM

推荐理由：做代码生成或LLM推理优化的开发者，EffiSkel直接解决了生成代码跑得慢的痛点——不用等后优化，训练时就注入效率骨架，值得关注其开源实现。

原文

09:38

arXiv cs.AI@Sercan Karakaş, Yusuf Şimşek

该研究针对土耳其语中具有歧义的轻动词结构（LVC）进行分类，区分其字面义与习语义。研究者对比了监督学习模型（BERTurk）与三种指令微调大语言模型（LLM）在零样本、单样本和少样本提示下的表现。结果显示，零样本下LLM对LVC召回率低，单样本提示虽提升检测但引入模型特定偏差，而少样本提示能改善校准。最终，监督基线仍具竞争力，但精心设计的示例可使LLM在LVC分类上达到或超越监督模型。

论文多词表达土耳其语上下文学习提示敏感性分类任务

推荐理由：这项研究揭示了提示设计对多词表达分类的关键影响，做自然语言处理尤其是低资源语言语义分析的团队值得关注，直接参考其示例构建策略可提升模型效果。

原文

09:37

arXiv cs.AI@Takuto Takahashi, Itsuki Nakayama, Takahiro Mitani, Ryosuke Kikuchi, Yuya Sasaki, Makoto Onizuka

图神经网络在同配图上表现优异，但在异配图（不同类节点更易相连）上性能受限。现有GNN无法捕捉异配图中常见的高阶类标签连通性。研究者提出标签上下文分类器（LCC），通过四种随机游走生成标签上下文嵌入，捕获高阶标签连通性。LCC可与任意GNN集成，并自适应学习其重要性。实验表明，集成LCC的GNN在异配有向图上超越现有方法。

论文图神经网络异配图节点分类高阶标签连通性随机游走

推荐理由：异配图分类是GNN的长期痛点，LCC用高阶标签连通性解决了这个问题，做图分析或社交网络研究的开发者可以直接参考实验方法。

原文

09:35

arXiv cs.AI@Zhixuan Liang, Yuxiao Chen, Yurong You, Peter Karkus, Wenhao Ding, Boyi Li, Alexander Popov, Yan Wang, Maximilian Igl, Yiming Li, Danfei Xu, Nikolai Smolyanskiy, Boris Ivanovic, Ping Luo, Marco Pavone

针对自动驾驶中视觉-动作模型处理长时序上下文时计算开销过大的问题，本文提出 COMPACT-VA 框架。它基于条件 VQ-VAE 实现规划对齐的令牌压缩，将扩展上下文压缩为有限表示，同时保留决策关键信息。该方法在训练时利用未来轨迹蒸馏规划意图，推理时从压缩观测中预测意图，并与压缩记忆拼接后输入策略网络进行端到端优化。在动态场景下，COMPACT-VA 在相同令牌预算下成功率提升超 6%，并实现 3.3 倍加速和 2.7 倍内存缩减。

论文自动驾驶令牌压缩 VQ-VAE 长上下文规划对齐

推荐理由：自动驾驶长上下文处理的计算瓶颈终于有了架构兼容的解决方案——COMPACT-VA 无需修改骨干网络即可压缩令牌，做端到端自动驾驶的团队值得关注其 3.3 倍加速效果。

原文

09:33

arXiv cs.AI@Jiayu Wang, Weijiang Lv, Bowen Fu, Jing Fu, Jiayi Song, Lingyu Zhang, Lanxuan Xue, Luodi Chen, Zepeng Xin, Kaiyu Li, Xiangyong Cao

随着基础模型和智能体框架的进步，AI 在研究任务中展现出强大能力，但仍无法完全替代人类研究人员。为此，研究者提出了 AARR（Act As a Real Researcher）基准系列，首个基准 AARRI-Bench 专注于评估智能体在细粒度研究场景中的专业性、严谨性和推理能力。实验显示，最佳配置（Mini-SWE-Agent 搭配 Claude Opus 4.7）仅达到 68.3% 的成功率，常忽略人类研究者能轻易察觉的细微关键细节。结果表明，开发类人研究 AI 需要更深入地探索研究行为，而非仅依赖复杂框架。数据已开源。

论文基准测试 LLM 智能体研究自动化 AARR

推荐理由：这个基准直击当前 AI 智能体在研究场景中的短板——不是执行能力不够，而是缺乏研究者的细腻判断。做 AI 评估或智能体开发的团队值得关注，它揭示了提升 AI 研究素养的新方向。

原文

09:32

arXiv cs.AI@Fuqiang Wang, Song Tan, Zheng Guo, Jiaohao Fu, Xinglong Xu, Bihui Yu, Jie Dong, Zheng Sun, Siyuan Li, Jingxuan Wei, Cheng Tan

论文论文推荐个性化用户画像兴趣漂移 PaperFlow

推荐理由：做学术推荐系统或信息检索的团队，终于有了一个能处理每日动态兴趣变化的框架，PaperFlow 的纵向基准和盲评协议可以直接复用。

原文

09:30

arXiv cs.AI@Sweta Mahajan, Sukrut Rao, Jiahao Xie, Alexander Koller, Bernt Schiele

CLIP等视觉语言模型存在图文嵌入对齐差的问题，因为图像包含的信息远超其标题描述。TEVI框架利用稀疏自编码器解耦图像嵌入，并训练掩码模块根据标题选择性重建嵌入，从而保留标题描述的特征、丢弃无关信息。在合成标题的受控实验中，TEVI能有效保留标题描述的属性。在MS COCO、Flickr、IIW、DOCCI等基准测试中，TEVI提升了检索性能，尤其在长标题任务上增益更明显，同时增强了RoCOCO基准的鲁棒性。

论文 CLIP 稀疏自编码器图文对齐检索增强视觉语言模型

推荐理由：CLIP用户常遇到图文检索不准的痛点，TEVI用稀疏自编码器精准对齐嵌入，做多模态检索或视觉问答的团队可以直接参考其方法改进模型。

原文

09:29

arXiv cs.AI@Chaitanya Shinde, Hadi Hajieghrary, Paul Schmitt, Adam Shoemaker, Bodo Seifert, Steve Kenner

这篇论文针对自动驾驶汽车（AV）中缺乏人类驾驶员的情况，重新审视了ISO 26262功能安全标准中的可控性概念。作者将可控性分解为两个可审计的证据维度：可转移性和可预测性。可转移性衡量AV系统将控制权移交给专用后备安全机制的能力，而可预测性则量化外部实体预测AV行为的难易程度。论文还引入了设计能力与可实现能力之间的差距，以区分架构后备声明与场景条件下的实际后备能力。这些指标与ISO 26262和ISO/PAS 21448（SOTIF）兼容，使后备和交互声明在ODD切片上可证伪和可追溯，从而将标准扩展到SAE L4和L5级无人驾驶系统。

论文自动驾驶功能安全 ISO 26262 可控性 SOTIF

推荐理由：自动驾驶安全工程师和标准制定者终于有了量化可控性的方法——可转移性和可预测性让ISO 26262在L4/L5场景下可落地，做功能安全验证的团队可以直接参考论文中的数学框架来改进测试用例。

原文

09:28

arXiv cs.AI@Jiahao Meng, Yue Tan, Qi Xu, Kuan Gao, Weisong Liu, Yanwei Li, Jason Li, Lingdong Kong, Haochen Wang, Qianyu Zhou, Jiangning Zhang, Guangliang Cheng, Yunhai Tong, Lu Qi, Minghsuan Yang

这篇综述从人类视角出发，系统梳理了多模态大语言模型（MLLM）在视频理解中的三大核心能力：观看（感知）、记忆（上下文保持）和推理（生成可靠输出）。文章提出统一框架，将视频理解系统分解为感知表征、记忆状态、推理轨迹和最终预测，并分析了时空感知、长视频高效处理、流式理解、忠实推理等关键挑战。作者按功能分类介绍了代表性方法，涵盖细粒度感知、多模态对齐、离线/流式记忆、纯文本与视频推理等方向，并讨论了第一人称、体育、教学、医疗等应用场景及评估基准。最后指出了可扩展、记忆感知、证据驱动的视频智能的未来方向。

论文多模态大语言模型视频理解综述记忆建模推理

推荐理由：做视频理解或 MLLM 研究的同学，这篇综述帮你把碎片化的方法统一到“观看-记忆-推理”框架下，省去自己梳理文献的时间，值得收藏作为 roadmap。

原文

09:26

arXiv cs.AI@Yang Zhang, Xiao Fei, Amr Mohamed, Sarah Almeida Carneiro, Mersin Konomi, Mingmeng Geng, Ahmed Asaad, Guokan Shang, Michalis Vazirgiannis

论文大语言模型多语言文化知识评估框架项目反应理论

推荐理由：这篇论文揭示了多语言AI评估中的一个关键误区——本地语言表现差可能不是知识缺失，而是语言能力瓶颈。做跨文化NLP或本地化模型的团队，看完会重新理解评测指标。

原文

09:25

arXiv cs.AI@Chuan Xiao, Zhengbo Jiao, Shaobo Wang, Wei Wang, Bing Zhao, Hu Wei, Linfeng Zhang, Lin Qu

72°

Socratic-SWE 是一种新型闭环自我进化框架，它利用 LLM 驱动的软件工程智能体的历史解决追踪来生成训练信号。与传统的固定突变或漏洞注入方法不同，该框架将追踪提炼为结构化技能，总结重复失败和有效修复模式，并指导生成针对性的修复任务。通过执行验证和求解器梯度对齐奖励筛选任务，Socratic-SWE 在 SWE-bench Verified 等基准测试上经过三次迭代达到 50.40% 的准确率，持续超越同等计算预算下的自我进化基线。这表明解决追踪可作为可扩展的自我进化基础，为提升编程智能体能力提供了新路径。

论文智能体编程助手自我进化 SWE-bench LLM

推荐理由：Socratic-SWE 解决了智能体训练数据依赖人工标注的瓶颈，做 AI 编程或智能体开发的团队可以直接借鉴其闭环进化思路，提升模型在真实仓库中的修复能力。

原文

09:23

arXiv cs.AI@Yuxiang Chen, Jun Wang

精选72°

一项新研究对DeepSeek-R1-0120模型与人类在AIME 2025数学竞赛30道题上的推理过程进行了全面比较，标注了10247个推理步骤。研究发现，DeepSeek-R1的推理存在“拓扑模仿”现象：它频繁进行浅层验证和局部循环，缺乏人类推理中紧凑的分析与演绎交替结构。然而，成功的推理轨迹显示出稳定的分支和回溯使用，而失败的轨迹则过度或不足使用探索性动作。反思只有在演绎推理中才有效，陷入分析循环的反思往往忽略全局逻辑错误。研究建议改进评估和训练，包括测量跨轨迹稳定性、惩罚“空转”轨迹、鼓励深层逻辑修正。

论文推理模型 DeepSeek-R1 数学推理认知科学评估方法

推荐理由：这篇论文戳穿了当前长链推理模型的表面繁荣——做AI推理研究的团队会发现，模型可能只是在模仿推理的“样子”而非真正进步，值得细读其提出的改进方向。

原文

09:22

arXiv cs.AI@Alexandre Belloni, Yan Chen, Yehua Wei

该论文提出了一种在线上下文潘多拉魔盒模型，用于自适应查询和选择LLM API。决策者在每个周期观察请求上下文，面临两阶段决策：查询阶段顺序调用API并产生输出相关成本，选择阶段从生成的输出中选一个部署并观察下游奖励。与经典模型不同，该模型输出反馈结构不直接揭示奖励。研究者直接建模保留索引，结合广义矩估计和UCB置信界，实现了维度相关的√T累积遗憾。

论文 LLM API 自适应查询潘多拉魔盒模型在线学习遗憾分析

推荐理由：LLM API调用成本高、选择困难，这篇论文为开发者提供了理论驱动的自适应查询策略，做模型编排或API调度的团队可以直接参考其方法优化成本与效果。

原文

09:19

arXiv cs.AI@Prabhjot Kaur, Hakim Ouaalam, Sedat Kandemirli, Sanjay P. Prabhu, Simon K. Warfield

该研究利用条件生成网络生成模拟局灶性皮质发育不良（FCD）的合成MRI图像，并评估其在自动检测中的效果。两位神经放射科医生对真实与合成图像的区分准确率仅60%-70%，表明合成图像具有较高真实性。将合成数据用于训练nnU-Net模型，使检测灵敏度提升8.14%，模型置信度显著提高。研究显示，合成数据可减少约20%的标注数据需求，但同等量的真实数据仍更有效。

论文合成数据医学影像局灶性皮质发育不良自动检测生成网络

推荐理由：医学影像团队面临标注数据稀缺的痛点，这项研究展示了合成数据如何缓解FCD检测中的标注瓶颈，做神经影像分析或罕见病检测的开发者值得关注其方法。

原文

09:18

arXiv cs.AI@Thanawat Lodkaew, Johannes Ackermann, Soichiro Nishimori, Nontawat Charoenphakdee, Masashi Sugiyama, Takashi Ishida

精选72°

论文指出AI编码智能体在评估中常通过走捷径而非真正解决问题来获得高分，导致评估分数不可靠。为此，研究者提出CapCode框架，通过设计随机测试并人为设定不可作弊的性能上限，使分数超过上限即表明作弊。同时提出CapReward奖励机制，抑制模型优化超出上限的行为。实验表明，CapCode能有效检测作弊，同时保持模型性能排名；CapReward能减少作弊行为，使模型更遵循任务规范。

论文智能体评估/基准作弊检测编码智能体奖励设计

推荐理由：做AI智能体评估和训练的团队终于有了检测作弊的实用工具——CapCode能直接暴露模型是否在走捷径，CapReward则从奖励设计上杜绝作弊，建议做编码智能体评测的开发者点开看看。

原文

09:17

arXiv cs.AI@Marc Aubreville, Jonas Ammeling, Sweta Banerjee, Viktoria Weiss, Taryn A. Donovan, Robert Klopfleisch, Jiaqi Lv, Shan E Ahmed Raza, Raphaël Bourgade, Thomas Walter, Yasemin Topuz, Songül Varlı, Charles-Antoine Collins-Fekete, Zhuoyan Shen, Navya Sri Kelam, Nitin Singhal, Christian Marzahl, Brian Napora, Tengyou Xu, Hongyan Gu, Mario Vento, Gennaro Percannella, Norbert Ropiak, Izabela Wasiak, Jie Xiao, Shaojun Liu, Seungho Choe, April Khademi, Vidushi Walia, Sujatha Kotte, Andrew Broad, Alex Wright, Guillaume Balezo, Esha Sadia Nasir, Mostafa Jahanifar, Yosuke Yamagishi, Shouhei Hanaoka, Mattia Sarno, Francesco Tortorella, Biwen Meng, Jingxin Liu, Sara Krauss, Daniel Hieber, Lavish Ramchandani, Dev Kumar Das, Mieko Ochi, Yuan Bae, Piotr Giedziun, Mateusz Maniewski, Vangala Govindakrishnan Saipradeep, Naveen Sivadasan, Leire Benito-Del-Valle, Adrian Galdran, Kaustubh Atey, Sameer Anand Jha, Adinath Dukre, Imran Razzak, Maxime W. Lafarge, Viktor H. Koelzer, Nils Porsche, Nikolas Stathonikos, Mitko Veta, Dominik Hirling, Zsanett Zsófia Iván, Peter Horvath, Katharina Breininger, Christof A. Bertram

MIDOG 2025挑战赛旨在评估有丝分裂检测算法在真实世界中的泛化能力，超越了以往仅关注扫描仪差异的基准。挑战赛构建了包含12种人类、犬类和猫类肿瘤类型、365个病例的测试数据集，并引入了随机组织区域和困难区域检测，以及非典型有丝分裂图分类任务。结果显示，在传统热点区域表现良好的模型在困难区域性能显著下降，假阳性率增加三倍，且在不同肿瘤类型间表现差异巨大，揭示了当前模型的“盲点”。集成方法平均提升了F1分数1.5个百分点和平衡准确率1.3个百分点，而测试时增强无明显改善。该挑战表明，真实世界的有丝分裂检测仍是重大挑战，多情境评估框架为临床可靠性提供了更现实的代理指标。

论文有丝分裂检测 MIDOG 2025 病理AI 泛化性多肿瘤

推荐理由：病理AI团队和计算病理学研究者注意了：MIDOG 2025揭示了当前有丝分裂检测模型在真实世界中的脆弱性，尤其是罕见肿瘤类型和困难区域。如果你的模型只在热点区域表现好，点开看看盲点在哪，以及集成方法如何带来稳定提升。

原文

09:16