全部 AI 动态 · AI 热点

6月26日

11:54

Gary Marcus@GaryMarcus

Gary Marcus 分享《金融时报》文章，质疑扩展计算规模能否解决 AI 的根本准确性难题。文章指出，尽管算力投入持续增加，但大模型在事实核查和推理任务上仍频繁出错。Marcus 认为依赖更大规模数据与参数并非提升可靠性的出路。该观点挑战了当前主流的大规模训练范式。

行业 Gary Marcus 计算量准确性行业讨论

推荐理由：FT的分析文章，Gary Marcus 转评，核心观点很明确：堆算力解决不了AI的准确率问题，值得看看他为什么这么讲。

原文

11:54

Gary Marcus@GaryMarcus

Gary Marcus在FinancialTimes发文指出，即使AI泡沫破裂，新基础设施可能不会像19世纪铁路那样保留价值，因为芯片折旧快，更好的芯片总会问世。他提到LLM可能被更高效模型取代，减少对大量昂贵AI芯片的依赖。Marcus认为LLM不太可能复制当前科技巨头的近乎垄断地位，更可能像航空公司一样受制于低利润、激烈竞争和高硬件依赖。

行业 GaryMarcus AI泡沫 LLM 硬件贬值行业分析

推荐理由：别被AI乐观派忽悠了，Gary Marcus用铁路和航空的类比讲清了泡沫破裂后硬件可能迅速贬值的现实，值得一看。

原文

11:39

11:39IT之家（博客/媒体）

Mistral AI 于6月23日发布OCR 4文档识别模型。该模型支持横跨10个语族的170种语言，在OmniDocBench基准上获得93.07分，优于GPT 5.5 Pro和Gemini 3.1 Pro Preview。OCR 4提供边框、区域分类和置信度评分，并支持RAG语义分块等下游任务。基础API定价每千页4美元，批处理可享50%优惠。

AI模型 Mistral AI OCR 4 多模态文档识别 RAG

推荐理由：Mistral出了新OCR模型，支持170种语言，评分比GPT和Gemini都高，处理文档识别可以试试它。

原文

11:39

arXiv cs.AI@Sangwoo Cho, Kushal Chawla, Pengshan Cai, Zefang Liu, Chenyang Zhu, Shi-Xiong Zhang, Sambit Sahu

BINEVAL将评估标准拆解为原子化的二元问题，由LLM独立回答后聚合为多维可解释分数。在SummEval、Topical-Chat和QAGS三个基准上，BINEVAL匹配或超越UniEval和G-Eval，尤其擅长事实一致性评估（QAGS上的表现突出）。其问题级反馈可用于迭代优化评估提示和生成提示，在IFBench的自我更新和跨模型更新设置中均有效。该方法无需训练、任务无关，且避免了现有LLM评判器的天花板效应。

论文 BINEVAL LLM评估可解释性事实一致性自我改进

推荐理由：BINEVAL把LLM评估拆成一堆“是/否”问题，结果好理解、易调试，在事实一致性上比UniEval还准，还能自己优化提示词。

原文

11:38

arXiv cs.AI@Manjinder Singh, Alexander E. I. Brownlee, Mohamed Elawady

这篇论文提出GAversary，一种混合遗传算法（GA）用于生成对抗攻击，只需黑盒访问目标模型的logit输出。GAversary利用GloVe嵌入实现词替换（变异算子），提升对抗样本的语义相似性。在多个基准数据集和知名模型上测试，GAversary将目标模型准确率从76.8%降至5.8%，而对比方法BAE仅降至27.6%。代价是扰动词数约为BAE的两倍，语义相似度略低，运行时间增加约5%。

论文 GAversary GloVe 对抗攻击遗传算法 AI安全

推荐理由：这篇论文搞了个GAversary，用遗传算法和GloVe嵌入做黑盒文本攻击，能把模型准确率从76.8%打到5.8%，比BAE狠多了。

原文

11:37

arXiv cs.AI@Fabiana Fournier, Lior Limonad

论文提出进程架机制，在不替换底层工作流引擎的前提下，用策略治理的智能体层包裹确定性工作流。作者开发了任务-决策-流（TDF）模型，定义数据模式和执行语义，将LLM推理分解为三类策略治理的智能体：TaskAgent（知识密集型任务）、DecisionAgent（逐案例网关路由）和FlowAgent（运行时流适应）。在CUGA FLO中实现该设计，并通过贷款审批工作流演示三种智能体类型及挂钩驱动的监管覆盖。进程架通过确定性工作流执行强制结构合规，同时通过策略框架的智能体自主性满足规范需求。

论文 CUGA FLO TDF Agentic BPM 工作流论文

推荐理由：这篇论文提出了一个很实用的思路：在现有工作流引擎上加一个智能体层，不用重写系统就能让工作流更灵活。用贷款审批的例子讲清楚了三种智能体怎么协作，技术方案具体可落地。

原文

11:36

arXiv cs.AI@Henrik Müller, Daniel Kudenko

研究人员提出VLM-PBRS框架，利用轻量级视觉语言模型（VLM）的偏好反馈学习势函数，实现自动化基于势能的奖励塑形（PBRS）。该方法在Meta-World和Franka Kitchen环境上验证，相比无塑形的基线，样本效率提升且未导致奖励黑客。实验表明，即使使用计算开销更小的小型VLM，其偏好标签仍能有效加速强化学习策略训练。该工作是首个将VLM偏好学习应用于PBRS势函数合成的研究。

论文 VLM-PBRS 强化学习奖励塑形 Meta-World Franka Kitchen

推荐理由：这论文教你用VLM给RL智能体自动设计奖励函数，不用手动调公式，在Meta-World和Franka Kitchen上训练更快，还防奖励黑客。

原文

11:35

arXiv cs.AI@Ilia Larchenko

该解决方案在ICRA 2026的LeHome Challenge双手机器人叠衣比赛中获得线上62支队伍第一名、线下决赛第二名。核心是将视觉-语言-动作(VLA)策略与强化学习循环结合，使同一网络既预测动作又预测成功率和未来量。方法组合了AWR+RECAP用于流匹配VLA，通过HuggingFace Hub实现异步分布式训练/部署管线，并采用Thompson采样优化推理时超参数。模拟到现实的迁移使用相机对齐工具、数据增强和DAgger式人类干预数据采集。

论文 LeHome Challenge ICRA 2026 VLA 强化学习机器人叠衣

推荐理由：一个靠强化学习微调VLA在叠衣服任务上拿第一的方案，工程细节丰富，从训练到部署都有具体做法。

原文

11:34

arXiv cs.AI@Tinghao Wang, Yichen Guo, Rui Huang, Zheng Lu, Qizhe Zhang, Chenxi Li, Yuan Zhang, Jiajun Cao, Zhirong Shen, Yaosong Du, Guangyan Gan, Wenya Wang, Lin William Cong, Shanghang Zhang

论文提出TOPS方法，从第一原理出发构建Token最优保留集。该方法基于任务相关性、信息覆盖和语义多样性三个原则。在7个MLLM骨干（如LLaVA-NeXT）和14个基准上，TOPS优于此前方法。在LLaVA-NeXT上，去除77.8%视觉token后，7B模型保持100.0%性能，13B模型提升至100.6%。结果表明剪枝冗余token可减轻幻觉。

论文 TOPS LLaVA-NeXT MLLM 视觉token剪枝推理效率

推荐理由：这篇论文的TOPS方法能在剪掉近八成视觉token的同时保持甚至提升模型性能，很实用。

原文

11:34

arXiv cs.AI@Aoyang Fang, Yifan Yang, Jin'ao Shang, Qisheng Lu, Junjielung Xu, Rui Wang, Songhan Zhang, Yuzhong Zhang, Boxi Yu, Pinjia He

OpenRCA 2.0 引入了 PAVE 协议，通过故障注入重建因果传播路径，标注了 500 个跨系统实例的步骤级因果链。在 11 个前沿 LLM 上测试，完全恢复根因集的成功率平均仅 20.7%。放宽条件后发现，模型在 76.0% 的案例中能识别至少一个正确根因服务，但只有 61.5% 能将服务与观察到的症状通过验证的因果路径关联起来。该基准揭露了仅靠结果标签评估时隐藏的未接地诊断失败模式。

论文 OpenRCA 2.0 PAVE LLM 根因分析因果推理

推荐理由：这篇论文搞了个新基准 OpenRCA 2.0，用 PAVE 协议给每一步因果关系打标签，发现 LLM 猜对根因容易，但连对因果路径很难——这比只看结果靠谱多了。

原文

11:33

arXiv cs.AI@Yunqi Xue, Zhijiang Li, Philip Torr, Jindong Gu

该论文针对自回归统一多模态模型在文本到图像生成中的安全性问题，提出迭代自我改进码本方法。方法利用模型自身理解与判断能力识别不安全生成图像，无需人工标注。通过构建有害空间并更新码本消除有害映射，再在无害空间内自适应微调码本以保持生成质量。实验表明，该方法在不依赖外部反馈情况下迭代提升模型安全性。

论文自回归图像生成码本安全生成统一多模态模型 AI安全

推荐理由：这篇论文给自回归图像生成的安全问题提供了一个不需要人工标注的自我改进方案，用模型自己判断不安全图片然后修复码本，很实用。

原文

11:30

11:30IT之家（博客/媒体）

精选74°

微软邀请Windows 10/11及macOS平台Microsoft 365 Insider测试新版Excel中的AI金融工具。Copilot新增Skills功能，企业可通过OneDrive中的SKILL.md文件自定义可复用指令，员工无需每月重复编写提示词。微软提供预置金融技能库，合作伙伴包括LSEG、Ramp、Rogo等。此外还新增规划模式和“显示更改”窗格，便于审查Copilot对工作簿的修改。

AI产品 Copilot Excel Microsoft 365 智能体提示词工程

推荐理由：微软Excel现在能让你把财务流程存成技能，不用每月写提示词了。Copilot支持自定义Skills文件和预置金融库，还能查看改动。职场人省事儿了。

原文

11:29

AI Will@FinanceYF5

Anthropic和OpenAI Foundation宣布共同参与一项5亿美元的AI就业转型计划。该计划旨在为因AI技术可能失业的白领工人提供技能培训和再就业支持。此举显示AI公司开始重视技术变革的社会缓冲需求。

行业 Anthropic OpenAI Foundation AI就业转型白领岗位

推荐理由：Anthropic和OpenAI砸5亿美元帮被AI替代的人转行，这格局够大。

原文

11:26

andrew chen@andrewchen

博主Andrew Chen在X上对比2002年“Google it”、2015年“Uber over”到2026年可能的“GPT it”或“Claude it”，指出AI尚未形成通用的动词化品牌。该帖获得157条评论、2次转发和86个赞。讨论聚焦于GPT和Claude两大模型为何未能像Uber或Google那样成为日常行为代名词。

行业动词化品牌化行业趋势 GPT Claude

推荐理由：Andrew Chen发现一个有趣现象：Google和Uber都成了动词，但GPT和Claude还没有。聊聊为什么AI品牌还没渗透到日常用语里。

原文

11:25

11:25IT之家（博客/媒体）

6月25日，AIIA正式启动词元服务工作组筹备，由中国信通院牵头，联合华为云、百度智能云、中国移动等22家单位。工作组将解决AI服务中性能、安全、计费不规范等关键问题。主要工作涵盖推进Token服务标准体系、协同优化服务质量、赋能行业应用等8项内容。具体包括建设金融、医疗、政务等行业场景化Token服务能力基线，以及推进国产Token自主可控和绿色Token生态。

行业中国信通院华为云 AIIA 词元服务 AI安全

推荐理由：AIIA拉上华为云、百度等22家单位，专治Token服务的性能、安全和计费乱象，后续AI服务会更规范，行业标准也要统一了。

原文

11:24

11:24IT之家（博客/媒体）

摩根士丹利预测2027年AMD EPYC Venice处理器出货量将达675万颗，比英伟达Vera的575万颗多约17%。台积电2027年CoWoS封装产能预计升至每月20万片晶圆，英伟达仍是最大客户。AMD EPYC Venice采用台积电2nm工艺和Zen 6架构，面向AI与HPC；英伟达Vera为5nm产品，瞄准Agentic AI。英伟达2027年数据中心营收预计同比增长52%。

行业 AMD EPYC Venice 英伟达 Vera CPU竞争

推荐理由：摩根士丹利预测AMD下一代EPYC Venice出货将反超英伟达Vera，AMD用2nm Zen 6对标英伟达5nm芯片，CPU市场格局要变。

原文

11:21

shao__meng@shao__meng

91°

据消息，特朗普政府以安全担忧为由，要求 OpenAI 对即将推出的 GPT-5.6 采取分阶段发布策略。OpenAI CEO Sam Altman 在周四向员工表示，政府将逐个客户审批访问权限，这是一种限制性很强的做法。此前 Anthropic 的 Claude Mythos 模型也采用类似有限预览方式，而 Claude Fable 5 则被要求下线且尚未恢复。这一监管干预可能影响 GPT-5.6 的发布时间和范围。

行业 GPT-5.6 OpenAI Anthropic 特朗普政府 AI安全

推荐理由：特朗普政府直接干预 OpenAI 新模型发布，要求逐个审批客户，和以前不一样，想了解大模型监管走向的可以看看。

原文

11:20

shao__meng@shao__meng

精选72°

OpenAI 官方博客数据显示，其内部员工使用 Codex Agent 的 output token 占比从 2025 年 8 月不足 10% 飙升至 2026 年 6 月的 99.8%。约 24% 的 Codex 请求对应人类需 1 小时以上工作，内部重度用户 P99 单日可并行运行 60+ 小时 agent。非开发者用户自 2025 年 8 月以来增长 137 倍。法务、财务部门超 85% 的 output token 已来自 Codex，非技术人员产出的工作中超过 1/4 是工程/编码类。

行业 Codex OpenAI Agent 智能体企业AI应用

推荐理由：OpenAI 自家员工几乎全用 Codex 干活了，律师、财务也一样。看看他们的内部数据，就知道未来工作方式怎么变。

原文

11:19

shao__meng@shao__meng

精选

v0 推出 Design Systems 2.0，该功能可让 v0 一次性学习你的设计系统（组件、tokens、约定），此后所有对话均使用真实组件库生成应用，无需重复描述或贴文档。它通过一个“适配器” skill 存储，指向真实源代码仓库（如 GitHub），声明可安全使用的组件/props/tokens，并告知接入方式（providers、全局样式等）。导入工作流包含5个步骤：收集来源（设计系统包、源码、Storybook 等）、配置环境变量、补充备注、自动生成 v0.json、审查启动应用。v0.json 仅含机器可复用部分，包括 referenceWorkspace.sources（最多3个只读源）、environment.providers、starter。更新 skill 不会自动迁移旧项目，需显式重写。

AI产品 v0 Design Systems 2.0 GitHub 设计系统编程助手

推荐理由：v0 出了一招：把你的设计系统注册成一个 skill，之后每次生成 app 都用真组件，不用反复描述样式，省大事了。

原文

11:07

arXiv cs.AI@Mohammad Mehdi Hosseini, Mohammad H. Mahoor, Hiroko H. Dodge

研究人员提出一种基于大语言模型(LLM)的语言数字双胞胎框架，通过融入文体特征和上下文元数据来模拟老年人的对话行为。他们还引入了多头条件变分自编码器(cVAE)，联合衡量重建质量并预测认知评分。在I-CONECT数据集上，该框架生成的数字双胞胎保留了身份特征，其重建误差和MoCA预测误差与真实数据相当，且优于基线GPT生成结果。这项工作为个性化、持续的认知健康监测提供了非侵入性方案。

论文 LLM Digital Twin I-CONECT cVAE 认知健康

推荐理由：这篇论文用LLM给老人建了个能聊天的数字分身，在I-CONECT数据上比普通GPT更准地模拟真实对话和预测认知评分，可能帮助早发现轻度认知障碍。

原文

11:04

arXiv cs.AI@Muhammad Hassan, Ramazan Yener, Ece Gumusel, Masooda Bashir

该研究分析了59款AI医疗聊天机器人应用的超过15000条用户评论，识别出三大类常见故障：访问障碍与服务不可靠、用户体验与交互质量、计费与客户支持问题。隐私和安全问题与最负面的体验相关。研究将AI医疗聊天机器人视为信息基础设施，为设计师、政策制定者和信息专业人士提供改进数字健康系统的可行见解。

论文 AI医疗聊天机器人用户研究信息基础设施 arXiv

推荐理由：这篇论文分析了59款AI医疗聊天机器人的1.5万条用户评论，告诉你最常见的故障在哪里，尤其是隐私和安全问题最影响体验。做医疗AI的值得看看。

原文

11:01

AI Will@FinanceYF5

精选

Jayden Teoh提出Next-Latent Prediction（NextLat），一种自监督学习方法。该方法教Transformer预测下一个隐状态而非直接预测token。NextLat使模型形成紧凑的世界模型，在推理和规划任务上表现更好。通过自speculative decoding，推理速度最高提升3.3倍。

AI模型 NextLat Transformer 推理模型自监督学习加速推理

推荐理由：Transformer预测隐状态而不是token能加速3.3倍，还能形成世界模型。Jayden Teoh的新框架值得看看。

原文

10:59

arXiv cs.AI@Preet Baxi, Jiannan Xu, Jane Yi Jiang, Stefanus Jasin

该论文研究了在LLM自动简历筛选中的提示注入攻击，定义为不引入新资质但旨在影响LLM评分的微妙自我推销文本。实验表明，当候选人质量同质且只有少数人注入时，提示注入能可靠提高排名；但随着注入人数增多，效果迅速减弱，广泛操控时失效。在候选人质量异质场景下，提示注入平均效果较弱，但偶尔能让低质量候选人超越高质量候选人，引发公平性担忧。论文代码已公开在GitHub。

论文提示注入简历筛选 LLM AI安全自动化招聘

推荐理由：想知道你的简历能不能骗过AI筛选？这篇论文用数据告诉你提示注入在什么时候有效、什么时候没用，还能看出公平隐患，做招聘和求职的都该看看。

原文

10:59

arXiv cs.AI@Alina Bazarova, Johann Fredrik Jadebeck, Henrik Zunker, Carolina J. Klett-Tammen, Torben Heinsohn, Wolfgang Wiechert, Katharina Noeh, Stefan Kesselheim

该研究将基于模拟推理（SBI）的神经后验估计用于SECIR流行病学模型的贝叶斯校准，并使用2020年德国COVID-19 ICU入住数据。在31天推断窗口中，SBI恢复的后验分布与MCMC高度一致，准确再现ICU轨迹。在更具挑战的201天重构问题中，SBI保留了主要后验结构，尽管不确定性增加。SBI在单GPU上完成31天推断仅需60-70秒，而MCMC需要约1000秒；201天任务中SBI平均157秒，MCMC超过19000秒。结果表明SBI为快速近实时疫情分析提供了高效框架。

论文 SBI MCMC COVID-19 流行病学模型贝叶斯推断

推荐理由：这篇论文用COVID-19数据实测，SBI比MCMC快几十倍，精度不输，适合需要快速迭代的流行病学建模场景。

原文

10:58

arXiv cs.AI@Junwei Luo, Shuai Yuan, Zhenya Yang, Yansheng Li, Zhe Liu, Hengshuang Zhao

EO-WM是一种基于视频扩散Transformer的多光谱地球观测预测模型。它通过物理信息条件框架，将气象强迫分解为气候基线、天气异常和累积物理应力信号，以提升对极端天气的响应。在极端夏季基准上，EO-WM将预测的归一化植被指数（NDVI）下降幅度误差降低了5.63%，方向命中率提高了7.80%。该模型在标准像素级指标上也保持竞争力，并计划开源。

论文 EO-WM 视频扩散Transformer NDVI 地球观测气象预测

推荐理由：EO-WM能更准确地预测植被在极端天气下的变化，NDVI误差降了5.63%，比现有模型更靠谱。

原文

10:53

arXiv cs.AI@Wen Ye, Peiyan Li, Tingyu Yuan, Yuan Xu, Xiangnan Wu, Chaoyang Zhao, Jing Liu, Nianfeng Liu, Yan Huang, Liang Wang

E-TTS是一个模块化、即插即用的具身测试时缩放框架，通过历史感知的迭代精炼和视觉语言验证器，统一了机器人操作中的推理和动作缩放。它采用推理-动作联合采样和成对评分，并引入历史缓冲区存储上下文，用于推理和动作验证器评估候选。与常规开环TTS不同，E-TTS在采样中引入反馈生成，形成闭环迭代精炼机制。实验在4个基准、6个环境、3个实体和4个基础VLA模型上进行，模拟场景提升33.14%，真实场景提升26.62%，无需额外数据收集或重新训练。

AI模型 E-TTS 机器人操作测试时缩放视觉语言动作模型具身智能

推荐理由：E-TTS团队搞了个新框架，不用重新训练就把机器人操作成功率在模拟中提33%，真实场景提26%，挺实用的。

原文

10:52

arXiv cs.AI@Junhao Shi, Zezheng Huai, Siyin Wang, Jia Chen, Yubang Wang, Zhaoye Fei, Hechang Chen, Jingjing Gong, Xipeng Qiu, Yu-Gang Jiang

OmniAct 提出了一个分层异步架构，将多模态语义规划器、基于事件边界压缩的自适应分层记忆和异步视觉抢占引擎模块化集成，以解决持久自主机器人的跨域工具调用与物理故障恢复问题。在40个真实世界长期任务中，使用两个机器人平台协调四个IoT设备，OmniAct在所有复杂度级别上端到端成功率一致提升，累积超过10万交互token时保持接近线性的token消耗，并让中等规模开源模型达到闭源模型性能。

AI模型 OmniAct 具身智能多模态机器人 IoT交互

推荐理由：他们搞了个新架构，让机器人能自己协调API、物联网和物理动作，干活出错还能自己恢复，20个任务里成功率都比之前高，而且省钱省token。

原文

10:51

arXiv cs.AI@Chi Cui, Yixin Wu, Yang Zhang

该论文对4chan上的AI非自愿合成色情图像（SNEACI）进行了大规模研究，识别出24,105条SNEACI内容。研究发现，非名人目标占比从先前研究的4.7%飙升至55.8%，表明AI裸化已从攻击公众人物转向伤害用户社交圈内的普通人。开源模型主导生产：Stable Diffusion系列生成42.7%的图像，Wan生成66.5%的视频，依赖数千个共享微调模型和教程。最活跃的内容生产者贡献了780条，推动社区参与并降低技术门槛。

论文 Stable Diffusion Wan 4chan AI安全开源模型

推荐理由：这篇论文用硬数据告诉你，AI脱衣已经从搞名人变成搞普通人了，而且Stable Diffusion和Wan是主要生产工具，4chan社区里几百条的高产作者在推波助澜。

原文

10:50

arXiv cs.AI@Zhengyuan Liu, Stella Xin Yin, Min-Yen Kan, Nancy F. Chen

本文提出一个概念框架，用于分析协作问题解决中的对话，尤其关注人类-AI和多智能体协作的动态。该框架通过一个层次化两层编码方案，整合认知与非认知问题解决及元认知调节机制。在跨越多个领域的9个数据集上验证了其有效性和泛化能力，发现元认知调节是深层协作的关键区分器。

论文协作问题解决对话动力学元认知调节人类-智能体协作多智能体系统

推荐理由：这篇论文给出了分析对话的实用框架，在9个数据集上测试过，特别点出元认知调节对协作深度的重要性。

原文

10:50

arXiv cs.AI@Sayak Dutta

精选

CARVE提出仅擦除关键轴的注意力机制，解决了GDN-2的三个耦合缺陷：记忆盲门控、值轴擦除掩码浪费参数、无法使用WY形式三角形分块求解器。在1.3B参数、100B token训练下，CARVE在WikiText上达到困惑度15.72（比GDN-2低0.18，4.5-sigma效应）。它在9个常识推理基准上领先所有循环基线，并在RULER检索探针上取得SOTA。该方案仅带来0.4%吞吐开销、13%更低峰值内存和19%更少参数。论文还包含六个形式化定理，涵盖记忆容量、Lyapunov稳定性等。

论文 CARVE GDN-2 线性注意力高效架构 WY形式求解器

推荐理由：这篇论文用简单思路修了GDN-2的三个bug，实测1.3B模型困惑度降了0.18，还省内存和参数，想搞高效注意力的话值得看。

原文

10:47

arXiv cs.LG@Wei Zhou, Xiongwei Zhu, Zelin Xu, Bo Dong, Lixue Gong, Yongyuan Liang, Meng Chu, Leigang Qu, Lingdong Kong, Wei Liu, Tat-Seng Chua

针对文本到图像（T2I）、局部编辑和全局编辑等能力难以统一且相互冲突的问题，论文提出DanceOPD框架。该框架基于流匹配模型，采用策略生成场蒸馏，将每个样本路由至对应能力场，并查询低噪声的学生诱导状态，用速度MSE目标训练。在T2I、编辑、真实性场吸收和CFG吸收等实验上，DanceOPD改善了多能力组合效果，增强了目标能力同时保持基准生成质量。

论文 DanceOPD 流匹配模型图像生成蒸馏多能力

推荐理由：这篇论文用DanceOPD把T2I、局部编辑和全局编辑统一到一个模型里，解决了相互干扰的问题，效果显著提升。

原文

10:46

arXiv cs.LG@Yingyu Lin, Qiyue Gao, Nikki Lijing Kuang, Xunpeng Huang, Kun Zhou, Tongtong Liang, Zhewei Yao, Yi-An Ma, Yuxiong He

论文提出Ranking-induced VERifiable framework (RiVER)，无需真实答案即可通过基于分数的执行反馈训练LLM。在12个AtCoder Heuristic Contest任务上训练后，Qwen3-8B在Algorithm Engineering Benchmark (ALE-Bench)上的rating rank提升8.9%，GLM-Z1-9B-0414提升9.4%。同时，RiVER在LiveCodeBench和USACO等精确求解基准上分别带来2.4%和3.5%的绝对平均提升。对比基线表明，仅用原始执行分数训练可提升ALE rating但无法泛化到精确求解任务。

论文 RiVER Qwen3-8B GLM-Z1-9B-0414 强化学习编程能力

推荐理由：论文介绍RiVER，用强化学习训练模型解决无标准答案的得分优化问题，还能顺带提升常规编程基准，实用思路值得一看。

原文

10:45

OpenRouter@OpenRouterAI

精选

OpenRouter 宣布 GLM-5.2 提供商正在优化推理速度。新增 wafter_ai 和 FireworksAI_HQ 两个快速变体。设置模型为 "z-ai/glm-5.2:nitro" 可根据实时流量自动切换到最快提供商。该功能无需手动切换，持续使用最佳性能。

技巧 GLM-5.2 OpenRouter wafer_ai FireworksAI_HQ 推理模型

推荐理由：OpenRouter 出的省心用法：设成 nitro 模式，GLM-5.2 自动走最快的推理服务商，不用自己选。

原文

10:45

arXiv cs.LG@Danyal Rehman, Charlie B. Tan, Yoshua Bengio, Avishek Joey Bose, Alexander Tong

论文提出 Autoregressive Boltzmann Generators (ArBG)，一种自回归建模框架，用于分子系统平衡采样，克服了基于流的 Boltzmann Generators 的表达性限制。ArBG 在所有基准测试上优于流模型，特别是在 10-残基 Chignolin 肽系统上。作者还发布了 Robin，一个 1.32 亿参数的可迁移模型，在 8-残基系统上将零样本能量误差 E-W₂ 降低超过 60%。代码已开源在 GitHub。

论文 ArBG Boltzmann Generators Robin 分子模拟自回归模型

推荐理由：想了解分子模拟新方法？这篇论文提出的 ArBG 用自回归替代流模型，在 Chignolin 等体系上效果更好，还开源了 1.32 亿参数的 Robin 模型。

原文

10:44

arXiv cs.LG@Johannes Zenn, Jonas Geiping

该论文在多个解码方法（如温度采样、束搜索）和多个模型（如LLaMA-2、GPT-4）上分析序列概率与正确性的对齐关系。在固定数据集内，高序列概率通常预示正确，但改变超参数或解码方法提升序列概率并不稳定提高准确度。对于同一提示的多次回复，序列概率与正确性相关性很弱。研究为解码策略、自一致性等提供实践指导。

论文 LLM sequence probability correctness decoding 自一致性

推荐理由：论文搞清楚了啥时候模型觉得对就真的对。它告诉你别光看概率，同一问题重复问，概率高不一定准，做解码或自一致性时可参考。

原文

10:43

arXiv cs.LG@Haina Jiang, Liam Wang, Peng-Chen Chen, Min Seop Kwak, Seungryong Kim, Brian Bell, Jeong Joon Park

Error-Conditioned Neural Solvers (ENS) 将PDE残差场作为网络直接输入，让模型读取自身误差空间结构并学习迭代修正策略。在四个PDE系列上，ENS在多数设置中达到最高预测精度，在湍流Kolmogorov流上实现10倍提升。与依赖残差最小化的混合方法不同，ENS避免昂贵计算开销，并在分布偏移下泛化，包括零样本参数变化和跨方程迁移。理论证明数值最小化PDE残差在病态系统下可能不可靠，解释了现有方法的局限。

论文 ENS PDE 神经求解器残差输入

推荐理由：想用神经网络高效求解偏微分方程？ENS从残差输入中学迭代修正，比传统混合方法快10倍，还能零样本跨方程迁移。

原文

10:42

arXiv cs.LG@Nicholas Pulsone, Gregory Goren, Roee Shraga

论文研究了BEACON框架在低资源、领域感知实体匹配任务中的表现。通过一系列针对性实验，分析了分布对齐策略和数据可用性条件对性能的影响。揭示了不同算法选择如何改变BEACON的行为。

论文 BEACON 实体匹配领域感知低资源学习分布对齐

推荐理由：BEACON在低资源实体匹配上表现不错，但你知道它为啥管用吗？这篇论文给你答案。

原文

10:41

arXiv cs.LG@Tianyi Men, Zhuoran Jin, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao

该论文提出PEEU方法，通过自主环境探索发现经验并利用事后经验生成严格对齐的高层训练数据。7B模型在真实基准上达到30.6%准确率，超越Qwen2.5-VL-32B。作者提出TDHAF框架分析任务分解的组成性泛化，发现低层原子技能掌握不保证高层规划能力，而高层任务训练对OOD泛化更关键。

论文 GUI智能体任务规划 PEEU 多模态语言模型泛化

推荐理由：这篇让7B小模型在GUI任务规划上超过32B大模型，还分析了不同层级任务泛化的差异，很实用。

原文

10:40

arXiv cs.LG@Nicklas Hansen, Xiaolong Wang

该论文发现世界模型的幻觉集中在状态-动作空间的低覆盖区域，并提出轻量级数据驱动信号可检测和缓解。研究者发布了MMBench2数据集（427小时、210个任务），并训练了350M参数的世界模型。他们识别了三种幻觉模式（感知、动作边缘化、场景发散），开发了三个预测信号。覆盖率感知采样和基于好奇心的在线数据收集方法使得仅需50条真实轨迹即可微调模型适应全新环境。

论文 MMBench2 世界模型幻觉数据覆盖 OpenAI

推荐理由：这篇论文用具体数据和实验证明世界模型的幻觉本质是数据覆盖问题，还给出了实用的检测和缓解方法。

原文

10:40

arXiv cs.LG@Nathanaël Jacquier, Maria Vakalopoulou, Mahdi S. Hosseini

这篇论文提出两种可与Top-k稀疏自编码器架构兼容的稀疏正则化方法：对未选中单元的L1惩罚和尺度不变的L1/L2比率惩罚。在2个数据集、3个视觉基础模型和多种k值下，两种正则化均一致改善单语义性而不降低重构质量。L1/L2惩罚进一步将信息集中到更少潜在单元中，使重构对推理时k的选择更具鲁棒性，并提升小预算线性探测性能。核心发现是硬性架构稀疏性与软性稀疏正则化互补而非互斥。

论文 Top-k SAE 稀疏自编码器可解释性视觉基础模型正则化

推荐理由：这篇论文给Top-k稀疏自编码器加了两种正则化方法，能让模型更可解释而且重构质量不降，值得做可解释性的人看看。

原文

仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档（侧边栏 → AI 日报 → 顶部「往期日报」）。