全部 AI 动态 · AI 热点

6月9日

10:27

arXiv cs.AI@Mark Burgess

精选

本文探讨了承诺理论在自主智能体系统中的定量表示方法，将贝叶斯概率、信息论优化（包括主动推理）与承诺语义相结合。承诺理论能弥补概率方法的缺陷，如非局部协调、校准和归一化问题。边界条件被视为一种承诺，用于约束状态和选择决策阈值，而智能体对齐提供了可扩展的意图定义。自主智能体通过最小化信息来凝聚成具有超级智能体特征的群体，尽管不确定性会最大化信息。该理论面临研究挑战和风格偏好问题。

论文承诺理论自主智能体主动推理贝叶斯概率信息论

推荐理由：做多智能体系统、主动推理或概率建模的研究者会感兴趣——承诺理论提供了一种避免概率陷阱的新框架，值得深入阅读。

原文

10:26

arXiv cs.AI@Shumeng Yang, Yisu Liu, Jiayi Zheng, Zhaohui Yang, Linjing Li

精选

论文提出PAEC（位置感知熵校准）方法，解决强化学习（RLVR）中策略熵过早崩溃的问题。传统全局熵正则化对所有位置均匀增加熵，在长推理轨迹中效率低下。PAEC通过局部top-p熵和top-two候选竞争构建软掩码，对决策敏感位置施加基于锚点的下界惩罚，防止这些位置的熵崩溃。在五个数学推理基准测试中，PAEC相比强RLVR基线提升了多数投票的宏平均性能，尤其在AIME类任务上增益明显。结果表明，推理RL中的熵管理应聚焦于决策敏感位置的选择性探索，而非均匀随机注入。

论文强化学习推理模型熵校准数学推理 RLVR

推荐理由：做LLM推理强化学习的团队终于有了更精细的熵控制方案——PAEC在数学推理任务上直接提升多数投票性能，做RLVR的开发者值得关注这个位置感知的新思路。

原文

10:25

arXiv cs.AI@Haizhou Ge, Yufei Jia, Yue Li, Zhixing Chen, Lu Shi, Lei Han, Guyue Zhou, Ruqi Huang

精选

机器人探索操作中，一次看似失败的尝试（如拉锁住的抽屉）往往揭示了完成任务的关键前提条件。本文形式化定义了探索操作轨迹问答（EMT-QA）任务：给定同步视频和本体感知数据，预测最小成功动作链。现有VLM和具身多模态大模型无法可靠地从原始数据中恢复该链条。作者提出闭环轨迹蒸馏（Closed-Loop Trace Distillation）方法，通过每个任务的编码代理检查标注轨迹，蒸馏出一行自然语言提示（DRH）。在三个模拟器和两个真实机器人任务上，DRH将链条预测准确率提升0.38-0.47，且DRH本身可作为一次性程序化分类器的唯一规范。

论文探索操作轨迹问答 VLM 蒸馏提示机器人

推荐理由：机器人操作中失败尝试常被忽略，但本文证明它们才是关键线索——做具身智能或机器人规划的团队，可以用蒸馏出的单行提示直接提升VLM的轨迹理解能力，值得在仿真和真实场景中试试。

原文

10:12

arXiv cs.AI@Chenglin Yang

精选

AgentTrust 提出了一种针对AI智能体动作的信任层，能根据威胁类型（词法或语义）决定是否允许、警告、阻止或升级操作。词法威胁可通过确定性规则处理，而语义威胁（如表面相似但意图不同的动作）则依赖LLM判断。该系统通过自学习机制，在语义攻击为主的语料上，将规则准确率从48%提升至83.6-85.2%，且误报率极低。AgentTrust v2 采用双存储系统：对词法威胁蒸馏出确定性规则以降低成本，对语义威胁使用带验证的RAG记忆，将语义准确率提升13个百分点。在45000个动作的端到端回放中，LLM调用率从50%降至44%，准确率从71%升至80%，且未误阻任何良性动作。

论文智能体安全/信任 LLM判断自学习威胁分类

推荐理由：AI智能体安全是当前最棘手的工程问题之一，AgentTrust 用自进化信任层解决了规则无法覆盖语义攻击的痛点，做智能体安全或自动化运维的团队可以直接参考其架构设计。

原文

09:51

arXiv cs.AI@Lei Lin, Ronghao Wang, Chunbao Zhou, Jue Wang, Yangang Wang

精选

DN-Hypo-Pipeline 是一个基于大语言模型的AI工作流，旨在通过利用科学解释作为先验知识，辅助研究人员从现有文献中推导出新颖的研究假设。该管道从论文的结论（explanandum）出发，识别其背后的定律、理论和原理，并重构出对观察现象的新解释。在数据科学建模领域的评估中，结合LLM裁判和人类专家评价，该管道比直接生成方法更有效。此外，两个得分最高的生成假设被转化为新算法，性能超过了原论文的基线模型。该方法本质上是理论引导建模的泛化，有望扩展到其他科学领域。

论文假设生成大语言模型科学解释理论引导建模数据科学

推荐理由：做科研假设生成或理论驱动建模的研究者，可以用这个管道从文献中自动挖掘新假设，比手动推导更系统高效，值得在数据科学之外的其他学科试试。

原文

09:50

arXiv cs.AI@Lu Jia, Haibo Tong, Feifei Zhao, Jindong Li, Dongqi Liang, Ping Wu, Qian Zhang, Yi Zeng

精选

VESTA 是一个全自动化的 LLM 智能体安全评估框架，能基于五个风险维度生成 1072 个可执行的评估场景。现有评估依赖人工编写场景或静态提示，难以捕捉智能体在任务执行中的多样化风险。VESTA 通过自动化流程对 12 个 LLM 智能体进行测试，发现平均安全风险率高达 47.1%，部分模型超过 70%。该框架强调了可执行、过程级评估对于理解和提升智能体安全性的重要性。

论文 LLM 智能体安全评估自动化测试风险维度 VESTA

推荐理由：做 LLM 智能体安全评估的团队终于有了自动化工具——VESTA 能生成上千个真实任务场景，直接测出模型执行中的安全漏洞。建议关注智能体安全的开发者点开看看，结果可能会让你重新审视现有模型的风险。

原文

09:47

arXiv cs.AI@Yuan Zhang, Shiqi Zhang, Yedong Shen, Shuai Dong, Jiajun Deng, Xin Zhang, Yuxuan Gao, Jiajia Wu, Xin Nie, Zhiyuan Cheng, Jianmin Ji, Yanyong Zhang, Xingyi Zhang, Jia Pan

精选72°

GEAR-VLA 是一种新型视觉-语言-动作（VLA）框架，旨在解决现有 VLA 模型在真实部署中面对未见物体、背景变化和不同机器人本体时的泛化问题。它通过粗到细的动作学习、语义对齐的 3D 特征融合以及本体规范化，学习统一的几何感知动作表征。在 LIBERO、零样本 LIBERO-Plus 和 RoboTwin 2.0 上达到最先进性能，在 AgileX 上成功率 85.9%，在未见本体 LDT-01 上达 81.0%，在 212 个未见物体的通用抓取基准上达 90.1%。代码和模型将开源。

论文机器人操作 VLA模型泛化 3D视觉开源/仓库

推荐理由：GEAR-VLA 解决了机器人操作中跨本体、跨场景泛化的核心痛点，做机器人操作研究的团队可以直接参考其粗到细动作学习与 3D 对齐方法，值得关注其开源代码。

原文

09:42

arXiv cs.AI@Bingjia Huang, Xiangyu Li, Xiang Wang, Liang Mi, Zixu Hao, Weijun Wang, Hao Wu, Kun Li, Yunxin Liu, Ting Cao

精选

生成式机器人策略在部署时可能突然失败，现有检测方法需要白盒访问或增加计算开销。ActProbe 提出仅从动作空间提取两个信号——连续动作块间的时间一致性误差（TCE）和当前动作块幅度（ACM），通过单次前向传播即可预测失败。该方法在多个基准测试中将失败检测的F1-时效性帕累托前沿平均提升12.7%，在未见任务上早期检测ROC-AUC领先9.0%。ActProbe 还能迁移到真实机器人拾取任务，将强化学习微调所需环境交互次数减少2.9倍。

论文机器人策略失败检测动作空间生成式策略强化学习

推荐理由：做机器人策略部署或安全检测的团队，终于有了一个不依赖模型内部状态、零运行时开销的失败预警方案——ActProbe 只需动作序列就能提前发现异常，建议做真实机器人实验的开发者直接试。

原文

09:40

arXiv: Anthropic@Jason Starace

精选72°

一项预注册的对照研究系统比较了三种不同 scaffold（ReAct、多智能体 Planner-Actor-Rater、Planner-then-Executor）在五个模型（Claude Opus 4.7、Sonnet 4.6、Haiku 4.5、Gemini 3.1 Pro Preview、GPT-5.5）上的 GAIA 验证集表现。研究发现，仅 scaffold 选择就使同一模型的准确率波动高达 28 个百分点，证实了 scaffold 变化至少产生 10 个百分点的差距。更令人意外的是，更强大的模型并未对 scaffold 更不敏感——在更难的 Level 2 任务中，最强模型反而从结构化 scaffold 中获益最多。多智能体设计在 Anthropic 模型家族中优于 ReAct，但跨模型提供商时优势消失。结构化 scaffold 调用工具次数更少，但在困难任务中从错误中恢复的能力更强。这些结果表明，单 scaffold 的能力评估数字是 scaffold 条件性的，且随着模型改进，评估差距未必会缩小。

论文模型评估 Scaffold GAIA 智能体预注册研究

推荐理由：做 AI 模型评测或选型的人必须看——这篇研究用严格对照实验证明，你看到的模型能力分数可能更多反映的是 scaffold 设计而非模型本身，建议重新审视自己的评估流程。

原文

09:39

arXiv cs.AI@Nicholas Leisegang, Thomas Meyer, Sebastian Rudolph

精选

本文提出将KLM可废止逻辑与立场逻辑相结合，形式化表达多个可能矛盾视角下的可废止信念。作者利用可废止受限立场逻辑（DRSL），为DRSL语义提供了基础表示结果，并系统地将多种命题蕴涵关系提升到立场增强场景。研究还展示了如何通过语义和算法手段提升优先蕴涵及基于单排序函数的蕴涵关系（包括理性和词典序闭包）。关键发现是，从命题KLM到DRSL，每种蕴涵检查的复杂度类保持不变。

论文可废止逻辑立场逻辑多视角推理知识表示复杂度分析

推荐理由：多视角推理是AI处理冲突信息的核心挑战，做知识表示与推理的研究者可以关注这个复杂度不变的理论突破，直接用于多智能体或争议性知识库场景。

原文

09:38

arXiv cs.AI@Zhengyi Zhuo, Yan Liu

精选

论文提出Ada框架，通过有限工具接口让AI Agent在真实代码库中自由探索，记录其导航、证据选择、综合理解等行为轨迹。研究分析了408条轨迹，覆盖多种模型和仓库，将工具使用数据转化为可比较的行为画像。该方法揭示了不同Agent在效率、轨迹多样性、认知基础等方面的差异，为观察SWE Agent在真实环境中的行为提供了方法论基础。

论文 SWE Agent 代码理解行为分析轨迹数据 Ada框架

推荐理由：研究SWE Agent行为的团队终于有了可量化的观察方法——Ada框架把黑箱行为变成可比较的轨迹画像，做Agent评估和调试的开发者值得关注。

原文

09:37

arXiv cs.AI@Minyoung Hwang, Seokhyun Lee, Changhee Lee

精选

本文提出一种新方法，用于解释黑盒深度语言模型的预测决策。该方法通过选择一小部分信息丰富的输入单词来生成解释，解决了现有方法在推理效率、黑盒兼容性和语言结构可解释性三方面的不足。研究将单词选择建模为摊销优化问题，使用REINFORCE策略梯度进行训练，无需访问模型内部状态。同时，通过整合图结构知识，确保所选单词子集在语言上连贯且符合人类直觉。实验表明，该方法在多个数据集和模型架构上优于传统黑盒方法和梯度基方法。

论文可解释性黑盒模型单词选择策略梯度语言结构

推荐理由：做NLP模型可解释性研究的团队，终于有了一个兼顾效率、黑盒兼容和语言直觉的方案——无需模型内部信息，直接输出可理解的单词子集解释，值得一试。

原文

09:36

arXiv cs.AI@Xuanyi Liu, Deyi Ji, Junyu Lu, Jing Wang, Qianxiong Xu, Xuhang Chen, Tianrun Chen, Siwei Ma

精选

FaithRewriter 是一种新的提示增强框架，旨在解决文生图模型中用户意图与生成结果之间的差距。现有方法主要优化提示的流畅性和可读性，但缺乏视觉基础，容易过度推断缺失细节。FaithRewriter 首先利用多模态大模型根据原始提示生成中间图像作为视觉线索，然后将该图像与提示结合输入大规模语言模型，生成视觉上更合理的增强内容。最后，这些增强内容被蒸馏到小规模语言模型中实现高效部署。实验表明，FaithRewriter 生成的提示更忠实于用户意图，视觉上更合理，有效缩小了意图-生成差距。

论文文生图提示增强 FaithRewriter 多模态视觉锚点

推荐理由：做文生图应用或研究的人会关心——FaithRewriter 用视觉锚点解决了提示重写中的过度推断问题，生成的提示更贴近用户真实意图，值得在项目中尝试集成。

原文

09:35

arXiv cs.AI@Yao Cheng, Siqiang Luo

精选

关系深度学习（RDL）将关系数据库转换为异构图，但直接从数据库模式导出的图往往不适合图神经网络（GNN）进行关系推理。研究发现，模式派生图存在两个系统性问题：信息过载和语义碎片化。理想的图不是原始模式，而是通过受控的结构适应得到的结果。性能取决于平衡两种操作：通过过滤缓解信息过载，以及通过注入修复语义碎片。基于这些发现，研究者开发了一个端到端的结构优化器，可自动调整关系图。在26个任务（分类、回归、推荐）上，优化后的图一致提升了准确率，同时常能降低推理成本。

论文图神经网络关系深度学习结构优化信息过载语义碎片化

推荐理由：做图神经网络或关系数据处理的团队，终于有了一个系统性的图结构优化方法，可以直接用在数据库到图的转换中，提升模型效果并节省计算资源。

原文

09:27

arXiv: DeepSeek@Xiaojun Wu, Cehao Yang, Honghao Liu, Xueyuan Lin, Wenjie Zhang, Zhichao Shi, Xuhui Jiang, Chengjin Xu, Jia Li, Jian Guo

精选

Bayesian-Agent 是一个跨框架的 LLM Agent 技能优化框架，它将可复用的技能和 SOP 视为关于冻结模型在特定提示、上下文和环境下能否成功的假设。该框架记录验证过的轨迹证据，维护每个技能的特征条件分类后验，并根据后验状态执行修补、拆分、压缩、退役和探索等操作。在 deepseek-v4-flash 上，增量修复将 SOP-Bench 从 80% 提升至 95%，Lifelong AgentBench 从 90% 提升至 100%，RealFin-Bench 从 45% 提升至 65%。该框架还支持 GenericAgent、mini-swe-agent 和 Claude Code 等后端，表明 Agent 技能进化应视为后验引导的优化，而非未校准的提示积累。代码已开源。

论文 LLM Agent 技能进化后验引导开源/仓库推理模型

推荐理由：做 LLM Agent 开发的团队终于有了一个系统化的技能进化方法，不用再靠试错和启发式反思——Bayesian-Agent 用后验概率指导优化，效果显著且可审计，建议直接看论文和代码。

原文

09:26

arXiv: DeepSeek@Zhiwei Liu, Yueru He, Qing Ou, Tianlei Zhu, Xiaorui Guo, Xueqing Peng, Sophia Ananiadou

精选

现有金融审计基准主要关注事实验证和规则合规，但缺乏对误导性披露叙述的评估。研究者推出 AuditFraudBench，基于真实公司文件和监管材料构建，包含利润来源归因、误导性叙述检测和欺诈模式分类三个任务。测试 GPT、DeepSeek、Qwen 等模型发现，无论是闭源还是开源模型，在联合推理财务数据、披露框架、重述证据和执法欺诈机制方面仍表现不佳。该基准为评估 LLM 在财务报告中的审计相关能力提供了具有挑战性的测试平台。

论文审计财务欺诈检测 LLM 评估基准测试金融 NLP

推荐理由：审计和财务分析从业者终于有了一个专门评估 LLM 识别财务造假的基准——AuditFraudBench 直击现有模型在误导性披露和欺诈模式上的短板，做金融 NLP 或审计自动化的团队值得用它来检验自己的模型。

原文

09:25

arXiv: DeepSeek@Saeid Jamshidi, Arghavan Moradi Dakhel, Kawser Wazed Nafi, Foutse Khomh

精选72°

该研究分析了多智能体LLM系统中幻觉的动态传播过程，通过500次级联实验追踪事实不一致性。结果显示，3级级联将归一化幻觉分数从0.422降至0.272，但事实准确性从0.789降至0.769，揭示了幻觉抑制与事实保留之间的权衡。不同模型表现各异：LLaMA-3-70B-Instruct幻觉最低，GPT-5.3生成更快但幻觉率更高。领域分析表明，科学领域幻觉较低，抽象领域较高。

论文多智能体系统幻觉传播级联分析 LLaMA-3 GPT-5.3

推荐理由：多智能体系统开发者终于有了量化幻觉传播的基准——这篇论文揭示了级联深度与事实准确性的权衡，做Agent编排的团队建议仔细看，避免盲目堆叠智能体导致事实失真。

原文

6月8日

11:20

arXiv cs.AI@Luca Avena, Gianmarco Bet, Bernardo Busoni

该研究通过构建标准与反直觉两类离散概率问题数据集，测试了8个前沿大语言模型的概率推理能力。模型在标准问题上平均准确率达0.96，但在反直觉问题上骤降至0.59。研究还发现token偏差：将规范表述替换为伪装变体后性能下降超20%；在提示中嵌入误导性建议可使性能下降高达34%，且没有模型能免疫。结果表明，尽管LLM在高级数学问题上表现出色，但它们并非真正的概率推理者。

论文大语言模型概率推理基准测试 token偏差提示工程

推荐理由：想用LLM做决策或数据分析的开发者注意了——模型在概率推理上存在系统性漏洞，反直觉问题和提示误导能轻易让它翻车，建议点开看看测试细节，避免在实际应用中踩坑。

原文

11:17

arXiv cs.AI@Cong Chen, Guo Gan, Kaixiang Ji, ChaoYang Zhang, Zhen Yang, Guangming Yao, Hao Chen, Jingdong Chen, Yi Yuan, Chunhua Shen

MemDreamer 是一种新型框架，通过解耦感知与推理，将长视频理解转化为智能体探索过程。它采用分层图记忆架构，将视频流增量构建为三层语义抽象，并利用智能体工具增强检索机制，在推理时通过观察-推理-行动循环导航节点和逻辑边。实验表明，MemDreamer 在四个主流基准测试中达到最先进水平，与人类专家的差距缩小至仅 3.7 分。它仅使用全上下文 2% 的推理窗口，却带来 12.5 分的绝对准确率提升。此外，统计发现视觉语言模型在逻辑推理与长视频理解性能间存在强正线性相关，表明智能体能力扩展是多模态理解的新范式。

论文长视频理解智能体检索分层图记忆视觉语言模型推理模型

推荐理由：长视频理解一直受限于 token 爆炸和注意力稀释，MemDreamer 用智能体检索和分层记忆解决了这个痛点。做视频分析、多模态研究的团队可以直接参考其框架，在现有模型上即插即用，值得一试。

原文

11:12

arXiv cs.LG@Ming Sun, Kun Yuan

本文提出MG-ADSGD算法，针对强凸优化问题，首次在去中心化随机优化中同时实现加速的κ平方根和网络谱间隙的平方根倒数依赖。该算法结合Nesterov型原始-对偶外推与多轮快速八卦平均，通过将八卦深度与小批量大小耦合，额外通信轮次同时提升共识精度和降低梯度方差。理论分析表明，MG-ADSGD的通信复杂度达到当前最优，包含σ²/(μnε)项和√(κ/(1-β))项，优于现有所有去中心化随机方法。这一突破解决了去中心化随机优化中长期存在的加速难题。

论文去中心化优化随机梯度下降强凸优化加速算法通信复杂度

推荐理由：去中心化学习研究者终于有了理论最优的随机算法——MG-ADSGD同时加速了条件数和网络拓扑的影响，做分布式优化或联邦学习的团队值得关注这个新基准。

原文

11:10

arXiv cs.LG@Jin Guo, Roy Y. He, Jean-Michel Morel

本文提出了机器学习中二阶路径核插值公式，扩展了Pedro Domingos在2020年提出的一阶插值公式。该公式将模型预测表示为沿优化路径的积分，其中包含数据依赖的核函数。二阶形式补充了曲率加权的插值项，对于随机梯度下降，还出现了与mini-batch梯度噪声协方差耦合的采样诱导分量。研究还扩展到带动量的随机梯度下降，并给出了终端预测的浓度估计。这些结果细化了神经网络预测的路径核解释，为理解训练数据如何塑造模型预测提供了更精确的理论框架。

论文路径核插值二阶公式随机梯度下降神经网络预测机器学习理论

推荐理由：这篇论文为理解神经网络预测提供了更精确的理论工具，做机器学习理论或模型可解释性研究的开发者值得关注，能帮你更深入理解训练数据的影响机制。

原文

11:09

arXiv cs.LG@Ekaterina Grishina, Stepan Kuznetsov, Askar Tsyganov, Ilya Ivanov, Daria Korovaitceva, Margarita Rusanova, Uliana Parkina, Alexander Derevyagin, Evgeny Frolov, Sergey Samsonov, Anton Lysenko

论文推荐系统算法排名 Bradley-Terry模型数据集特性评估方法

推荐理由：推荐系统团队做算法选型时，别再被平均指标骗了——BT模型帮你根据数据集特性精准排名，省去跑全量模型的成本，做评估基准的开发者值得一试。

原文

11:07

arXiv cs.LG@Ryan Missel, Xiajun Jiang, Linwei Wang

个性化心脏模拟面临模型个性化和计算成本挑战，现有神经代理方法要么侧重高效个性化，要么侧重泛化模型训练。最新研究通过小样本生成建模和元学习实现个性化，但假设训练分布静态且任务标识已知，无法处理临床中顺序到达的未标记数据，否则会灾难性遗忘。本文提出持续元学习框架CoMetaPNS，利用持续贝叶斯高斯混合模型推断数据标识和关系，实现个性化神经代理的持续集成。在合成心脏数据上，该方法在模拟预测、计算可扩展性和抗遗忘方面优于现有基线。

论文持续学习元学习心脏模拟神经代理个性化医疗

推荐理由：心脏模拟领域终于有了能应对临床数据流变化的方案——CoMetaPNS解决了灾难性遗忘问题，做个性化医疗模拟或心脏电生理研究的团队可以直接参考其持续学习框架。

原文

11:06

arXiv cs.LG@Lei Huang

许多重要现象（如产品采用、疾病传播、金融风险扩散）以动态级联方式展开，恢复其背后的隐藏影响网络是关键挑战。现有方法通常假设特定的扩散模型，当假设错误时性能大幅下降。CascadeNet 提出基于雅可比矩阵的机器学习框架，无需指定扩散机制，通过一步转移函数的雅可比矩阵刻画影响结构，并利用 Neyman 正交去偏实现统计推断。在九种常见数据生成过程的模拟中，CascadeNet 恢复精度最高；在西班牙 52 省 COVID-19 传播的真实案例中，其恢复的网络与真实人口流动网络显著相关，而基线方法无显著对齐。

论文网络恢复级联数据雅可比矩阵去偏估计 CascadeNet

推荐理由：做网络推断、因果发现或传染病建模的研究者终于有了一个不依赖模型假设的通用方法——模拟和真实数据都验证了效果，值得直接复现试试。

原文

11:03

arXiv: OpenAI@Vladislav Smirnov, Chieu Nguyen, Sergey Senichev, Minh Ngoc Ta, Ekaterina Fadeeva, Artem Vazhentsev, Daria Galimzianova, Nikolai Rozanov, Viktor Mazanov, Jingwei Ni, Tianyi Wu, Igor Kiselev, Mrinmaya Sachan, Iryna Gurevych, Preslav Nakov, Timothy Baldwin, Artem Shelmanov

ThinkBooster 是一个统一的测试时计算（TTC）扩展框架，旨在解决现有TTC策略和评分器碎片化、评估不一致的问题。它包含模块化Python库、联合评估性能与效率的基准测试，以及兼容OpenAI的代理服务，支持自适应推理的即插即用。在数学和编程任务上的实验揭示了性能与计算成本的权衡，并展示了实际增益。代码以MIT许可证开源。

论文推理模型测试时计算扩展开源/仓库性能评估编程助手

推荐理由：做LLM推理优化的开发者终于有了一个标准化工具来对比不同TTC策略的成本收益，不用再自己拼凑评估流程，建议直接试。

原文

11:02

arXiv cs.LG@Chris R. Jung, Markus Dörr, Natalie Jüngling, Jennifer Niessner, Adam T. Müller, Nicolaj C. Stache

计算流体动力学（CFD）虽能高保真模拟室内环境流场，但计算成本高，限制了快速探索。为解决此问题，生成式替代模型比确定性网络能更好建模分布，但迭代采样速度慢。本文首次将生成式漂移框架（Drifting Models）应用于流体力学，提出条件架构在VAE潜在空间中进行漂移，并使用标签感知掩码对齐生成样本与边界条件。该标签条件模型在精度和流一致性上匹配迭代扩散模型，但运行速度快两个数量级。此外，空间条件变体为泛化到未见几何体铺平了道路。条件漂移成为扩散模型的高效替代方案，解锁了推理速度关键的实时CFD替代模型。

论文生成模型流体模拟 CFD Drifting Models 实时推理

推荐理由：做流体模拟或室内环境优化的团队终于有了一个又快又准的替代方案——Drifting Models 比扩散模型快两个数量级，精度却不输，值得在实时 CFD 场景中直接试试。

原文

11:00

arXiv cs.LG@Mohammadreza Sadeghi, Sareh Soleimani, Zihan Wang, Narges Armanfard

本文提出无监督持续聚类（UCC）问题，并引入前向-后向知识蒸馏持续聚类方法（FBCC）。该方法通过持续教师网络和轻量级任务特定学生，在无标签且不存储旧数据的情况下，学习新聚类同时保留已有聚类结构。实验表明，FBCC在四个基准数据集上持续优于现有持续学习方法，显著减少灾难性遗忘。这是首个专门针对无监督持续聚类的研究，解决了该领域缺乏聚类特定目标的问题。

论文无监督学习持续学习知识蒸馏聚类灾难性遗忘

推荐理由：做无监督学习和持续学习的团队终于有了聚类场景的专用方案——FBCC 不依赖标签和旧数据就能保持聚类结构，做数据流聚类或隐私敏感场景的开发者可以直接参考实验设置。

原文

10:56

arXiv cs.LG@Julian Withöft, Werner John, Emre Ecik, Ralf Brüning, Jürgen Götze

本文提出了一种名为摊销神经优化（ANO）的方法，用于高速信号完整性（SI）分析的预布局设计空间探索。传统方法依赖迭代式黑箱优化算法，计算成本高昂，而ANO通过使用完全可微的神经网络代理模型，从代理中提取解析梯度来训练全局优化策略。训练完成后，ANO策略能在单次确定性前向传播中直接将不同通道上下文映射到接近最优的设计参数，从而消除了推理时的迭代过程。在DDR5 DFE、9维SerDes Tx/Rx联合均衡和DDR3 DQS差分对布线等复杂场景中，ANO相比实例特定黑箱算法仅牺牲约10%的最优性，却实现了三到四个数量级的加速。对于大规模32万实例的多角SerDes扫描优化，ANO将原本需要数天的计算压缩为毫秒级的单次批量前向传播，将计算密集的SI优化转变为实时交互式预布局设计空间探索。

论文信号完整性设计空间探索神经网络代理摊销优化 EDA

推荐理由：做高速电路设计或EDA工具开发的团队，终于有办法把信号完整性优化从数天缩短到毫秒级——ANO直接学出优化策略而非反复迭代，值得在DDR5/SerDes等场景中试试。

原文

10:40

arXiv cs.LG@Lorenzo Longarini, Alessandro Rongoni, Simone Silenzi, Emanuele Frontoni, Riccardo Rosati

精选

光伏电站在投运初期缺乏历史观测数据，导致标准监督预测方法无法直接使用。研究者提出一种零样本流程，利用电站元数据和气象协变量生成合成生产历史，使时间序列基础模型（TSFMs）能够通过推理时条件进行预测。在440个光伏站点、四个数据集和多种气候条件下，五种TSFMs与经典基线对比，协变量感知模型性能提升约1.7-2倍，其中TabPFN-TS在真实反馈策略下误差最低（MAE 0.514），Chronos-2在自预测反馈策略下最鲁棒。合成历史来源对性能影响不大，表明合理的时序上下文比具体生成器更重要。

论文时间序列基础模型光伏预测冷启动零样本 TabPFN-TS

推荐理由：光伏运维团队终于有了冷启动预测的实用方案——无需历史数据即可用基础模型实现高精度预测，做新能源发电预测的开发者可以直接参考TabPFN-TS和Chronos-2的表现。

原文

10:38

arXiv cs.LG@Hanqiao Yu, Shusen Yang, Xuebin Ren, Cong Zhao

精选

Deflex是一种端到端AI方法，能从多尺度复杂系统中自动提取不同形式的数学公式（如不变量和分布）。它由两个子系统组成：Deflexpressor（基于Lambda演算的符号回归模型）和Deflexformer（可分解深度能量模型）。Deflexpressor生成合成数据预训练Deflexformer，后者通过解耦多尺度潜在关系引导公式发现。在六个代表性复杂系统上，Deflex比现有方法效率提升高达7倍，实现了自动化多尺度发现。这项工作有望成为跨学科科学发现的有用工具。

论文符号回归 Lambda演算多尺度建模复杂系统科学发现

推荐理由：做复杂系统建模或科学发现的团队，终于有了能自动提取多尺度公式的工具——Deflex比现有方法快7倍，做物理、生物、工程等跨学科研究的可以直接试试。

原文

10:37

arXiv cs.LG@Abhijeet Praveen, Sareh Soleimani, Cormac Cureton, Aman Sidhu, Kintak Raymond Yu, Cristian Cojocaru, Narges Armanfard

大气等离子喷涂（APS）中，飞行粒子的温度和速度对涂层质量至关重要，但难以实时监测。该研究利用高速视频观测等离子体羽流，通过TabPFN、CNN等模型预测粒子特性。TabPFN在温度预测上表现稳定（R²=0.86），CNN在速度预测上更优（R²=0.81），而预训练CNN直接处理原始视频帧达到最佳效果（温度R²=0.90，速度R²=0.82）。结果表明，视频驱动的非侵入式诊断方法为APS实时过程监控提供了可扩展的解决方案。

论文大气等离子喷涂视频预测 TabPFN CNN 工业过程监控

推荐理由：做涂层工艺或工业过程监控的团队，终于有了不依赖昂贵传感器的实时诊断方案——用高速视频就能预测关键粒子参数，建议做APS工艺优化的点开看具体特征工程方法。

原文

10:35

arXiv cs.LG@Simon Schug

该研究提出了一种名为Sgatlin（稀疏门控线性神经元）的新型网络结构，通过将每个专家缩小为单个神经元并移除非线性激活函数，在保持稀疏性的同时提升了计算效率。在等计算量对比中，用Sgatlin替换Transformer的前馈层可改善语言模型的困惑度。此外，稀疏性和线性结构使得模型更易解释，无需额外训练即可分析前馈电路，发现其形成语义聚类并参与事实回忆。这项工作为构建计算高效且可解释的Transformer前馈层提供了新思路。

论文稀疏门控线性专家 Transformer 可解释性计算效率

推荐理由：这项研究用极简设计同时提升了Transformer的计算效率和可解释性，做模型压缩或可解释性研究的团队值得关注，尤其是对MoE稀疏化方向感兴趣的开发者可以看看。

原文

10:33

arXiv cs.LG@Rohan Shravan

精选72°

该论文报告了在单个8GPU节点上端到端训练千亿参数稀疏混合专家模型的方法。LightningLM 0.1V 是一个基于循环骨干的语言模型家族，从小型稠密种子模型逐步扩展至120B参数、460个路由专家（top-12路由）。通过状态保持扩展策略，每个更大模型从小模型的训练权重生长而来，活跃参数从1.78B单调增长至5.93B。关键创新包括：可逆循环栈使激活内存不随模型增长而增加；状态保持扩展原则确保各阶段扩展不失败；单节点经济策略TQP通过量化基专家权重和训练低秩适配器，将优化器状态从100B+压缩至2.26B参数。模型家族、分词器和训练代码均已开源。

论文稀疏MoE 模型扩展可逆循环低秩适配单节点训练

推荐理由：这篇论文解决了大模型训练资源门槛高的问题——单节点8卡就能训120B模型，做MoE和模型扩展的团队可以直接参考其状态保持原则和TQP策略，省下大量硬件成本。

原文

10:32

arXiv cs.LG@Changkun Guan, El Mehdi Er Raqabi, Mathieu Tanneau, Pascal Van Hentenryck

精选

Benders分解是求解大规模混合整数优化问题的经典框架，但传统方法反复求解相似子问题，收敛慢。本文提出代理Benders分解（Proxy-BD），用自监督的预测-投影-补全机制生成对偶可行解，产生有效的Benders割，保证理论有效性。在大规模设施选址和网络设计问题上，Proxy-BD实现中位最优性差距低于0.5%，加速高达161倍，割数量减少240倍以上。该方法在子问题复杂度高时加速效果更显著，适合大规模分解场景。

论文 Benders分解优化代理大规模优化自监督学习设施选址

推荐理由：做大规模优化或运筹学的团队终于有了加速Benders分解的实用方案——Proxy-BD用代理模型替代重复求解，理论保证不变但速度提升百倍，处理2000x2000规模问题的可以直接试。

原文

10:12

arXiv cs.AI@Fatema Siddika, Md Anwar Hossen, Tanwi Mallick, Ali Jannesari

精选

大型语言模型在持续学习中面临可塑性-稳定性困境，学习新任务常导致旧知识灾难性遗忘。现有方法统一处理参数，无法区分任务特定知识与共享能力。SETA框架通过自适应稀疏子空间分解，将知识分离为任务特定专家和共享专家，利用弹性锚定和路由正则化保护共享知识，统一门控网络自动检索正确专家组合。在LLaMA-2 7B和Qwen3-4B上的实验表明，SETA在多个领域基准上达到或超越现有方法，尤其擅长保留早期任务知识并改善反向迁移。

论文持续学习灾难性遗忘专家混合 LLM 稀疏子空间

推荐理由：SETA解决了LLM持续学习中任务知识冲突的核心痛点，做多任务模型训练或知识迁移的团队可以直接参考其专家分解思路，值得关注其稀疏子空间设计。

原文

10:11

arXiv cs.AI@Jamie J. Alnasir

精选

高性能计算（HPC）集群传统上执行确定性线性管道，但AI和基础模型的普及引入了迭代、数据驱动和概率性的新计算范式。本文提供了12条实用技巧，帮助研究人员设计高效、可扩展且可复现的AI驱动HPC工作流，涵盖容器化、作业数组部署、反馈循环机制和小文件I/O优化等关键系统级瓶颈。这些原则广泛适用于分布式环境，尤其针对现代计算生物学中资源密集型的吞吐需求。

论文 HPC AI工作流计算生物学容器化 I/O优化

推荐理由：做科学计算或AI+HPC交叉研究的团队，这些技巧能帮你避开常见坑，直接提升工作流效率，建议收藏。

原文

10:10

arXiv cs.AI@Jeremy Yang, Kate Zyskowski, Noah Yonack, Jerry Ma

83°

这篇论文基于 Perplexity 的 Search 和 Computer 产品的实际使用数据，研究了 AI Agent 如何改变知识工作。研究发现，Computer 产品（具有自主执行能力）每个用户会话可自动完成 26 分钟的工作，而 Search 仅为 33 秒。在相同任务上，Computer 将完成时间从 269 分钟降至 36 分钟，成本降低 94%，且用户不满率降低 55%。此外，Computer 用户更倾向于尝试跨职业边界、需要高阶认知的复合任务，解锁了 Search 中几乎不存在的活动。这表明 AI Agent 不仅加速了工作流，还提升了质量、降低了成本，并扩展了自动化工作的广度和深度。

论文 AI Agent 知识工作自主性效率提升 Perplexity

推荐理由：这篇论文用真实数据证明了 AI Agent 在知识工作中的巨大价值——效率提升 7 倍、成本降低 94%，做 AI 产品设计或知识管理的人值得仔细看，尤其是 Perplexity 的案例很有参考意义。

原文

09:40

arXiv: DeepSeek@Xing Yue, Linjuan Wu, Daoxin Zhang, Yongliang Shen, Weiming Lu

针对开放域奖励建模中缺乏可验证答案、传统基于评分标准的方法生成僵化且增加推理开销的问题，研究者提出 Eval-Skill 方法。该方法通过探索引导，仅用每个领域 100 个案例，分两阶段（工作流生成与原则生成）合成可复用的领域级评估技能，直接注入判断模型上下文。在 RewardBench 2 上，Eval-Skill 显著提升多种基座模型表现，如 Qwen3-8B 提升 13.44%，DeepSeek-V4-Flash 提升 18.51%。实验还分析了扩展性、泛化性和迁移性，表明紧凑评估技能为基于 LLM 的评估提供了高效新范式。代码已开源。

论文奖励模型评估技能探索引导 RewardBench LLM评估

推荐理由：做奖励模型或 LLM 评估的团队终于有了一个轻量级替代方案——不用每次生成评分标准，而是合成可复用的评估技能，效果还比传统方法好很多，值得在 RewardBench 上跑一下自己的模型。

原文

09:39

arXiv: DeepSeek@Yu Yu, Zhihong Sun, Jia Li, Yao Wan, Chuanyi Li, Hongyu Zhang, Ruyun Wang, Tao Huang, Zhi Jin, Ge Li, Chen Lyu

大型语言模型生成的代码虽语法正确，但运行速度通常远慢于人类优化代码。现有方法通过后迭代优化或微调模型来提升效率，但未能显式编码高效代码的结构模式。为此，研究者提出EffiSkel框架，通过三种互补策略提取并学习效率骨架（抽象的可复用结构模式），并采用多任务学习联合优化代码生成与骨架预测。实验表明，在Mercury基准上，基于DeepSeek-Coder (7B)的EffiSkel相比EffiCoder和CodeDPO，效率比分别提升11.11%和3.71%，平均加速比分别提升0.36和0.22。该工作为提升LLM生成代码的运行时性能提供了新思路。

论文代码生成效率优化结构模式多任务学习 LLM

推荐理由：做代码生成或LLM推理优化的开发者，EffiSkel直接解决了生成代码跑得慢的痛点——不用等后优化，训练时就注入效率骨架，值得关注其开源实现。

原文

09:38

arXiv cs.AI@Sercan Karakaş, Yusuf Şimşek

该研究针对土耳其语中具有歧义的轻动词结构（LVC）进行分类，区分其字面义与习语义。研究者对比了监督学习模型（BERTurk）与三种指令微调大语言模型（LLM）在零样本、单样本和少样本提示下的表现。结果显示，零样本下LLM对LVC召回率低，单样本提示虽提升检测但引入模型特定偏差，而少样本提示能改善校准。最终，监督基线仍具竞争力，但精心设计的示例可使LLM在LVC分类上达到或超越监督模型。

论文多词表达土耳其语上下文学习提示敏感性分类任务

推荐理由：这项研究揭示了提示设计对多词表达分类的关键影响，做自然语言处理尤其是低资源语言语义分析的团队值得关注，直接参考其示例构建策略可提升模型效果。

原文