全部 AI 动态 · AI 热点

6月19日

09:37

arXiv: OpenAI@Jose Manuel Suarez, Luis Mariano Bibbo, Joaquin Bogado, Alenandro Fernandez

论文提出一种结合大语言模型与检索增强生成（RAG）的混合方法，自动迁移Qiskit代码版本。该方法利用自动生成的迁移场景分类作为结构化的版本特定知识源。实验评估了Google Gemini Flash-2.5和OpenAI Gpt-oss-20b两种模型，在限制性检索方案下显著减少幻觉，提升描述质量。Google Gemini Flash-2.5在检测复杂重构场景中表现更优。研究证实了数据驱动方法在量子软件工程中的潜力。

论文 Qiskit 代码迁移 RAG Google Gemini Flash-2.5 量子软件工程

推荐理由：量子开发者福音！用LLM+RAG自动搞定Qiskit代码跨版本迁移，减少手动返工。Google Gemini Flash-2.5效果最佳，值得看看。

原文

09:37

arXiv: OpenAI@Guneesh Vats, Anubha Agrawal, Shikha Singhal, Ajita Dash, Praison Selvaraj, Vidhan Jhawar, Ranga Prasad Chenna, Bharadwaj Y M G

REDACT 是一个包含13,427条记录、324,078个实体标注、51种实体类型和4,127种表面形式模式的多语言PII检测基准，覆盖25种语言的9种文字系统。该基准通过强度2覆盖阵列采样器控制9个生成轴，包括领域、格式、难度等。评估了五个检测器（Presidio、GLiNER、OpenAI Privacy Filter、GPT-4.1、Claude Sonnet 4.6）在1,000条记录上的表现，发现基于规则的检测器在高风险数据上表现较差（HIGH敏感类别召回率0.07），而LLM检测器更鲁棒。该基准还提供了实体级元数据（披露状态、披露形式、GDPR敏感等级）以支持分层评估。

论文 REDACT PII检测多语言基准实体识别 LLM评估

推荐理由：这个基准提供了具体的数据和评估，能帮你了解不同检测器在处理多语言PII时的真实表现差异。

原文

09:36

arXiv: OpenAI@Ahmad Salimi, Wentao Ma, Yuzhi Tang, Dongming Shen, Mu Li, Alex Smola

IHBench评估语音助手在10个企业领域中断后的恢复能力，包含6种中断类型。27个音频语言模型配置来自OpenAI、Google和开源社区。闭源模型在任务完成度上显著优于开源模型，长对话中性能下降慢约3.3倍，且无音频-文本模态差距。人类研究验证了LLM评判的可靠性，交叉分析显示恢复质量是独立能力维度。

论文 IHBench OpenAI Google 语音助手基准测试

推荐理由：想测语音助手被用户打断后能不能接好活？IHBench专门看这个，比谁恢复得自然、不错步骤。闭源模型比开源稳太多了。

原文

09:35

arXiv: DeepSeek@Shi Chen, Rongcun Wang, Yuan Tian, Xiaoyuan Xie, Wei Song, Rubing Huang

该论文提出了SolidityBench，包含5,470个存储库级Solidity智能合约及其自然语言描述。同时提出SolidityScore，一种关注安全性修饰符、合约声明等域关键结构的语义度量。研究评估了Qwen2.5-Coder、DeepSeek-Coder和CodeLlama等模型在零样本、思维链、上下文学习、检索增强生成和监督微调五种方法上的表现。结果显示，通用模型在存储库级Solidity生成中存在结构性缺陷；在非参数方法中，检索增强生成效果最佳，而上下文学习在超过两个示例后因上下文饱和而性能下降；监督微调通过将Solidity特定约束内化到模型参数中实现了最大改进。

论文 Solidity SolidityBench SolidityScore Qwen2.5-Coder DeepSeek-Coder CodeLlama 智能合约代码生成

推荐理由：这篇论文为Solidity智能合约代码生成建了个新基准（5470个合约）和专用评分指标，测试了多个主流代码模型的各种方法，结论明确：靠谱的领域数据+微调最管用。

原文

09:34

arXiv: DeepSeek@Ruiyang Ma, Teng Ma, Junru Li, Hantian Zha, Xuchun Shang, Qingda Hu, Zheng Liu, Xinjun Yang, Tao Ma, Guojie Luo

精选71°

长上下文LLM推理的内存瓶颈日益突出。传统RDMA解耦内存池对于稀疏注意力模型效率低下，仍需完整获取KV缓存。SAC系统利用CXL的低延迟、缓存行粒度加载/存储语义，仅在推理时按需获取所需的top-k KV条目。在DeepSeek-V3.2上使用SGLang的评估显示，相比RDMA基线，SAC实现了2.1倍吞吐量提升、9.7倍TTFT降低和1.8倍TBT降低。

论文 SAC CXL KV缓存稀疏注意力 DeepSeek-V3.2

推荐理由：长上下文推理，内存传输是瓶颈。新方案SAC用CXL按需取KV缓存，比RDMA吞吐量翻倍、延迟降到十分之一，做稀疏推理的值得一看。

原文

09:33

arXiv: DeepSeek@Gregory Matsnev

该论文提出一种基于提示的不确定性分解方法，将动作置信度与请求不确定性分离，使智能体在任务规格模糊时主动请求澄清。作者引入WebShop-Clarification和ALFWorld-Clarification两个基准，其中50%任务故意模糊。在GPT-5.1、DeepSeek-v3.2-exp、GLM-4.7、Qwen3.5-35B、GPT-OSS-120B五个大模型上测试，该方法在ALFWorld-Clarification上的澄清F1比ReAct+UE提升73%，比UAM提升36%。

论文 GPT-5.1 DeepSeek-v3.2-exp GLM-4.7 Qwen3.5-35B 智能体

推荐理由：这篇论文给出了一个简单实用的方法，让智能体在任务模糊时主动提问，而非盲目执行。五个大模型上都有提升，值得做Agent的同学看看。

原文

07:44

orange.ai@oran_ge

86°

OpenAI发现对齐大模型时存在涌现失调现象，即坏行为会泛化。他们反向实验用RL训练模型诚实、谦逊、可纠正等特质，仅混入小部分此类数据。结果在训练领域内模型变得更诚实透明；在44个独立评测（未见过）中，欺骗、谄媚、有害建议等行为全面下降，即使只用健康数据训练，非健康领域也受益。模型在对抗性提示和恶意微调下更坚韧，正常指令仍可听从。

论文 OpenAI RL 涌现失调对齐 AI安全

推荐理由：OpenAI这篇论文反直觉：用RL教模型做好事，坏行为自己就减少了。实验覆盖44个新场景，效果还抗攻击。值得一看。

原文

07:11

OpenAI@OpenAI

OpenAI通过少量训练数据使模型在53项独立评估中的44项上取得改进，涵盖欺骗、奖励黑客、安全、健康、心理健康等领域。该表现优于计算匹配的基线模型。评估涉及多种领域、任务格式和评分方案。

论文 OpenAI 对齐 AI安全模型训练

推荐理由：OpenAI发现用一点额外数据就能让模型在超多对齐测试里变好，覆盖欺骗、安全、健康等方面，挺牛的。

原文

06:22

OpenAI@OpenAI

73°

OpenAI发布新研究，旨在训练AI模型将有益和安全行为推广到训练范围之外的新领域，并在压力下维持。该方法聚焦于让模型具备广泛且持久的利他性，论文名为《Beneficial RL》。研究通过强化学习框架，让模型学会在更长、更高风险的任务中自主保持符合人类意图的行为，而不仅是拟合训练数据。相关论文和代码已发布在alignment.openai.com/beneficial-rl/。

论文 OpenAI AI安全智能体强化学习

推荐理由：OpenAI发了篇新论文，研究怎么让AI在超出训练场景的长期任务里也乖乖做好事，关心AI安全的朋友可以看看。

原文

03:46

Jeff Dean@JeffDean

73°

Jeff Dean宣布一篇将发表于IEEE Micro 2026年7/8月刊的论文，详细回顾Google从TPU v2到Ironwood共五代训练超算的架构演变。论文披露TPU每芯片每瓦TFLOPS提升了约30倍，每个pod的芯片数从TPU v2的256颗扩增至Ironwood的9216颗。冷却方式从风冷（TPU v2）转为水冷（TPU v3起），互连从2D torus升级为3D torus。论文还指出工作负载已大幅转向Transformer模型。

论文 TPU Google Ironwood AI芯片能效

推荐理由：想看TPU五代真实进化数据和能效提升细节？这篇论文从256芯片到9216芯片、从风冷到水冷、30倍每瓦算力提升，全是硬货。

原文

6月18日

23:35

OpenAI@OpenAI

OpenAI发布一项研究，表明AI系统能帮助临床医生重新分析多年未解的病例。这些病例此前多年未被专家分析。AI使专家主导的周期性重分析更可扩展，医生可随着医学知识进步重新审视旧病例。AI还能识别值得调查的线索，可能为更多家庭带来答案。

论文 OpenAI 医疗AI 诊断辅助

推荐理由：OpenAI出了个研究，说AI能帮医生重新分析那些多年没解决的病例，以前专家都搞不定，现在用AI也许能找到新线索。

原文

23:34

OpenAI@OpenAI

研究发表在 NEJM AI，使用 OpenAI 的 o3 Deep Research 模型。模型帮助临床医生回顾长期未解决的罕见儿科疾病病例。为等待多年的家庭找到了答案。

论文 OpenAI o3 Deep Research NEJM AI AI医疗罕见病

推荐理由：OpenAI 联合顶级医院用 o3 Deep Research 分析多年未解的罕见儿科病例，帮家庭找到答案，有温度也有技术含量。

原文

23:10

elvis@omarsar0

精选

SkillWeaver系统提出组合技能路由（Compositional Skill Routing），将复杂查询分解为原子子任务，为每个子任务检索对应技能，并通过依赖感知的DAG规划器组合成可执行计划。配套基准CompSkillBench包含300个组合查询和2,209个真实技能，直接评估多技能场景。系统使用LLM分解器、bi-encoder FAISS检索器和DAG规划器。该工作解决了技能库增长时单技能检索限制智能体能力的问题。

论文 SkillWeaver CompSkillBench 智能体组合技能

推荐理由：这篇论文做了件实在事：给AI智能体设计了一个能自动拆复杂任务、按顺序调多个技能的系统。还附带了新评测集，想了解多技能路由可以看看。

原文

23:04

23:04OpenAI Blog（博客/媒体）

研究人员利用OpenAI的推理模型分析儿童罕见遗传病病例，在之前未解决的病例中识别出18个新诊断。该模型通过分析基因组数据和临床信息提供诊断建议，帮助医生定位致病基因。这项研究展示了AI在精准医疗中辅助诊断罕见病的潜力。

论文 OpenAI 推理模型罕见病医疗AI 基因组学

推荐理由：OpenAI的推理模型帮医生从旧病例里揪出18个罕见病新诊断，这种实战成果很实在。

原文

22:40

Decoder@Maximilian Schreiner

两项发表在Nature上的研究显示，专用AI系统在模拟病例中诊断疾病和治疗决策的能力与医生相当或更优。例如，一个基于GPT-4的AI系统在诊断准确率上达到92%，而医生为87%。不过，这两个系统使用的底层基础模型（GPT-4和Claude 3）均已不是最新版本，暗示模型更新速度可能影响医疗AI的长期有效性。

论文 Nature AI诊断医疗AI 模型老化

推荐理由：Nature发了两个研究，说AI诊断跟医生差不多，但用的模型已经老了，这意味着啥值得看看。

原文

15:43

15:43IT之家（博客/媒体）

加州大学伯克利分校研究团队研发的电子嗅觉芯片集成了16个微型气体传感器阵列，每个传感器涂有不同感应膜，通过化学反应产生独特电信号。团队使用机器学习模型训练芯片，覆盖草莓、蓝莓等7种食品香气谱及鸡肉等新鲜与腐败状态（室温放置24或48小时）的气体特征。测试表明，芯片可在沙拉等复杂气味背景中辨别仅0.05克的核桃（约一颗去壳核桃的百分之一），但开放环境下准确性仍需验证。

论文 UC Berkeley 电子嗅觉芯片机器学习传感器食品检测

推荐理由：伯克利团队搞了个电子鼻，能闻出0.05克腐坏坚果，比人鼻子还准，适合食品检测场景。

原文

11:13

arXiv cs.LG@Kaustubh Kapil, Kishor P. Upla

研究者提出Transformer Geometry Observatory (TGO) 系统框架，用于探索视觉Transformer的表征几何与动力学。TGO-I聚焦光谱几何，使用ViT-Small/16模型在ImageNet-100上训练，分析有效秩、稳定秩、参与比、光谱熵、光谱平坦度、光谱各向异性等指标。结果发现训练中维度利用率持续增加，各向异性降低，光谱熵和参与比上升，特征谱趋于平坦。与直觉相反，方差在表征维度上再分配，CLS token表征展现出最高有效维度和最低各向异性。

论文 Vision Transformers ViT 表征几何光谱几何 ImageNet-100

推荐理由：这篇论文用TGO框架搞清楚了ViT的维度在训练中怎么变化——不是集中而是越来越分散，尤其CLS token最明显，对理解视觉Transformer内部机制很有参考价值。

原文

10:58

arXiv cs.AI@Zongmin Zhang, Yuyang Lou, Bowen Zhang, Junwu Chen, Ryo Kuroki, Xuan Vu Nguyen, Edvin Fako, Lixue Cheng, Philippe Schwaller

AdsMind提出闭环多智能体框架，通过机器学习力场（MLFF）松弛反馈实现自主纠错。在AA20和OCD-GMAE62基准上分别达到100%和98.8%的成功率。每个案例仅需4.11和4.67次MLFF松弛，比启发式枚举减少约14倍。DFT验证（VASP/PBE）显示，相比开放循环基线，AdsMind在所有测试案例中保持正确的吸附能符号。该框架兼顾可靠性、自反思和可解释性。

论文 AdsMind 多智能体系统机器学习力场吸附构型

推荐理由：AdsMind用物理反馈让AI自纠错，在催化剂吸附搜索中达到近乎完美成功率，比暴力枚举快14倍，值得做计算化学的试试。

原文

10:58

arXiv cs.AI@Linus Sander, Habtom Kahsay Gidey, Alexander Lenz, Alois Knoll

该论文提出一个包含对手方、负载、交互状态、发现机制和模式灵活性5个维度的分类法，对9个活跃维护的开源协议进行迭代分析。研究发现所有智能体间协议均结合混合负载与会话状态持久化，多数协议支持多个预定义模式，两个协议在运行时协商模式，显示模式灵活性趋势。去中心化发现仍属罕见。短期看协议将趋同统一智能体间与智能体-上下文通信，长期则可能发展为分层协议栈。

论文 LLM 通信协议智能体分类法

推荐理由：这篇论文把9个主流的智能体通信协议拆成5个维度做分类，告诉你哪种协议适合什么场景，以及未来会怎么演进。如果你在做多智能体系统，想选协议或者设计协议，这篇很有参考价值。

原文

10:58

arXiv cs.AI@Jingyi Zhou, Senlin Luo, Haofan Chen

HACD-H是一个统一框架，将情感适应、关系组织、社交记忆和人格一致性整合为动态系统。实验基于约14,700轮对话数据，发现社交智能与社交认知能量显著负相关（r=-0.391，p<0.001）。交互轨迹展示出稳定的关系吸引子和阶段性发展模式，社交智能源于长期共演而非孤立能力。该理论为构建自适应社交智能AI系统提供了基础。

论文 HACD-H 人机共演社交智能社交认知长期交互

推荐理由：这篇论文提出了HACD-H框架，用近1.5万轮对话数据说明AI和人的社交智能是在长期互动中慢慢涌现的，而不是单靠单次对话或简单记忆就能做到的。

原文

10:58

arXiv cs.AI@Haewoon Kwak

该论文研究多智能体LLM团队中过程级协调控制的价值，通过行为签名（多数锁定、探索、恢复）和逐动作消融实验，将交易型、变革型、情境型三种领导风格作为控制器。在四种任务制度和三个开源模型族（包括Llama-4-Scout）的12种组合中，没有控制器在准确率上占优，交易型控制与共享第0轮投票的差距在1.3个百分点内。情境型控制在Llama-4-Scout social任务上比平坦基线高出8个百分点，仅当初始多数不可靠且任务可恢复时才有效。结果表明协调控制是权变，而非排行榜驱动，与团队科学的权变理论一致。

论文 Multi-Agent LLM Teams Llama-4-Scout 多智能体领导力协调控制

推荐理由：这篇论文用实验证明多智能体团队里领导不是万能的，只有在初始投票不靠谱且能补救的特定条件下才有用，比如情境领导在Llama-4-Scout上提升了8个点。挺扎实的研究。

原文

10:58

arXiv cs.AI@Kasper Helverskov Petersen, François R J Cornet, Martin Ovesen, Mikkel Jordahn, Kristian S. Thygesen, Mikkel N. Schmidt

研究团队将等变图神经网络GotenNet应用于光学光谱预测，在包含10,533个结构的RPA级别光谱数据集上进行评估。该模型在0-8 eV能量范围内和静态实介电常数预测上显著超越现有最佳方法。结果表明等变几何特征能提升材料光学性质预测精度，对太阳能电池等光电器件的高通量筛选具有直接价值。

论文 Equivariant Graph Neural Networks GotenNet 材料筛选光学光谱图神经网络

推荐理由：这篇论文用GotenNet做光学光谱预测，在1万个结构上比现有模型准不少，特别是0-8 eV区间，搞材料筛选的可以看看。

原文

10:58

arXiv cs.AI@Eranga Bandara, Ross Gore, Ravi Mukkamala, Asanga Gunaratna, Safdar H. Bouk, Xueping Liang, Peter Foytik, Abdul Rahman, Sachini Rajapakse, Isurunima Kularathna, Pramoda Karunarathna, Chalani Rajapakse, Ng Wee Keong, Kasun De Zoysa, Tharaka Hewa, Amin Hass, Wathsala Herath, Aruna Withanage, Nilaan Loganathan, Atmaram Yarlagadda, Sachin Shetty

该论文指出万维网基于人作为主要消费者的假设运行三十年，但AI代理的崛起使这一假设失效。论文提出在访问层为代理提供等效访问权限（通过速率限制和代理识别元数据），在经济层引入基于意图的层级框架和代币订阅模型，在内容层提出代理文本标记语言（ATML）和加密来源链对抗知识递归问题。包含十项设计原则，涵盖访问、经济、内容三个层面。

论文 Agent-First Web ATML 智能体 AI安全 Web设计

推荐理由：这篇论文讨论了如何让网站不再封杀AI代理，而是为它们设计合理的访问、收费和内容标注机制，比如ATML语言。适合关心Web未来和AI治理的人看。

原文

10:58

arXiv cs.AI@Mukund Khanna, Raj Singh Yadav, Kunal Singh

当前指令式图像编辑模型在处理产品图片时，难以保持品牌标识和文字细节。该工作构建了包含87k SFT样本和869张产品图像的RL数据集，并提出Cyclic Consistency奖励来强制产品身份语义保持。在Qwen-Image-Edit-2511和Flux.1-Kontext-dev上微调后，模型在OCR和感知指标上取得一致提升，其中Qwen模型字符错误率降低5倍。研究还发布了ProductConsistency Benchmark用于标准化评估。

论文 ProductConsistency Qwen-Image-Edit-2511 Flux.1-Kontext-dev 图像编辑产品身份保持

推荐理由：这篇论文搞了一个新数据集和训练方法，能让AI改产品图时更准地保留品牌和文字，Qwen的错字率降到原来的五分之一，做电商图片编辑的可以看看。

原文

10:57

arXiv cs.LG@Yaniv Livertovsky, Shahar Somin, Gonen Singer

CAHP将注意力头选择重新定义为全局图论问题，利用图聚类和信息论距离识别互补子集。该方法无需预定义稀疏度，通过检测边际性能下降曲线自动确定每层保留的头数。在SST-5和MNLI基准上，CAHP在不同规模Transformer中均优于梯度方法，尤其在高压缩率下。结构分析表明，CAHP避免了梯度方法的“邻近偏差”，保留了模型中间层的功能关键头。

论文 CAHP Transformer 注意力头剪枝模型压缩 SST-5

推荐理由：想压缩Transformer模型？CAHP自动剪掉冗余注意力头，不用调参，在SST-5和MNLI上比梯度方法更强，还保住了中间层的关键结构。

原文

10:57

arXiv cs.AI@Anoushka Vyas, Aarushi Dhanuka, Sina Khoshfetrat Pakazad, Henrik Ohlsson

Data Intelligence Agents (DIA) 系统包含三个自主编码智能体：Data Interpreter、Schema Creator 和 Query Generator。该系统将自主编码智能体(ACA)作为第一类抽象，通过生成、执行、验证和修复具体构件，并利用共享记忆重用经验。DIA 已在企业客户的生产环境中部署。研究者对 Query Generator 进行了深入评估，在涵盖4个任务类别和4种方言的7个SQL基准上，其全自主模式匹配或超越了所有7个基准的最佳公开结果。

论文 Data Intelligence Agents ACA Query Generator SQL 智能体

推荐理由：这篇论文搞了个DIA系统，用三个自主编码智能体自动处理企业数据查询，在7个SQL基准上全自主跑赢了所有已知最佳结果。

原文

10:57

arXiv cs.AI@Biswadeep Sen, Yi-Chieh Lee

一项针对120人的实验比较了社交聊天机器人三种纠错策略：网页撤回、自我纠正和专家聊天机器人纠正。结果显示三种策略均能纠正错误，但只有自我纠正不损害聊天机器人的可信度（信任度和专业感知评分更高）。用户与聊天机器人的社交连接强度（社交吸引力、自我披露）显著预测信念改变幅度，但仅在自我纠正时成立。外部来源纠正会切断社交连接与信念改变之间的关联。

论文社交聊天机器人用户信任错误纠正人机交互

推荐理由：这篇论文发现聊天机器人自己认错比让别人纠正更能维护信任，而且和用户关系越好效果越好，实测120人，结果很实用。

原文

10:57

arXiv cs.AI@Ikram Belmadani, Oumaima El Khettari, Carlos Ramisch, Frederic Bechet, Richard Dufour, Benoit Favre

该研究以法语医疗问答为案例，比较了持续预训练（CPT）、监督微调（SFT）及其组合在Llama 2、Mistral、Bloom三个模型家族、7B-70B多种规模和三种初始化类型上的效果。对于多项选择问答（MCQA），CPT+SFT通常得分最高，但相对于单独SFT的提升很小且常不显著，SFT成为强且成本效益高的默认选择。对于开放问答（OEQA），CPT一致提升基于重叠的指标（如BLEU、ROUGE），而SFT常降低生成质量；指令微调和CPT+SFT在LLM评估中更受偏好。跨语言实验显示，法语适应可有效迁移到英语基准（如MedQA）。

论文 LLM 医疗领域领域适应法语问答微调

推荐理由：这篇论文用扎实的数据告诉你，在医疗领域微调模型时SFT性价比最高，CPT对开放问答有帮助但别盲目上全套，省钱又省力。

原文

10:57

arXiv cs.AI@Keran Wang, Drishti Goel, Jiayue Melissa Shi, Violeta J. Rodriguez, Daniel S. Brown, Dong Whi Yoo, Ravi Karkar, Koustuv Saha

2023年，超过1100万美国护理人员提供了180亿小时无偿护理，但心理健康问题普遍。现有研究常将复杂的心理社会经验简化为“照顾者负担”，忽略了具体未满足的需求。该论文基于跨学科文献综述和两项定性研究，提出了一套分类法，系统链接护理人员需求与技术支持类型，发现关系紧张和同情疲劳等未被充分服务的领域。该分类法为临床医生、研究人员和技术设计者提供了共同词汇，以开发更以人为本的痴呆症护理创新。

论文阿尔茨海默病痴呆症护理人员心理健康技术干预

推荐理由：这篇论文给照顾痴呆症家人的护理人员做了个心理需求与技术支持的分类，很实用，适合关心护理者健康的人看。

原文

10:57

arXiv cs.AI@Haodong Chen, Xuanhe Zhou, Wei Zhou, Xinyue Shao, Yanbing Zhu, Bo Wang, Jiawei Hong, Anya Jia, Fan Wu

X+Slides 是一个评估大语言模型根据受众条件自动生成幻灯片的新基准。它覆盖 113 个主题和 7 种演示场景，使用 8133 个去重、基于源文本的探针，并引入四个互补指标：Audience Coverage、Domain-wise Coverage、Efficiency 和 Correctness。在 DeepPresenter、SlideTailor 和 NotebookLM 上的实验表明，在 τ_A=0.7 阈值下，NotebookLM 消融版达到最高 Audience Coverage 0.853，而 DeepPresenter 为 0.714，SlideTailor 为 0.594。结果显示当前系统仍无法完整恢复受众关键信息，且视觉质量不能替代源文本验证。

论文 X+Slides LLM 幻灯片生成基准 NotebookLM

推荐理由：想了解如何科学评估AI做PPT的水平？这篇论文用113个主题和8133个探针，测出NotebookLM能覆盖85%的受众关键信息，比DeepPresenter和SlideTailor强不少。

原文

10:57

arXiv cs.AI@Chenyu Zhou, Qiliang Jiang, Shuning Wu, Xu Zhou

论文提出MAST方法，在Qwen2.5-Math-1.5B和Qwen3-1.7B-Base上选择性遗忘RLVR诱导的推理，相比全参数更新附带损害更小。MAST通过token级delta-log-probability分析发现SFT-to-RLVR增量与SFT更新差异显著，全参数梯度上升会损害MATH和GSM8K保留性能。MAST基于离主成分能量、更新幅度和遗忘梯度耦合幅度排序注意力投影张量，仅更新前k个子集。在Qwen2.5-Math-1.5B上，MAST使MATH遗忘从45/150降至37/150（McNemar p=0.0078），且GSM8K提升0.8个百分点，MATH保留仅下降0.5个百分点。在Qwen3上，MAST保持GSM8K，而全参数遗忘使其崩溃。

论文 MAST Qwen2.5 Qwen3 推理模型选择性遗忘

推荐理由：这篇论文提出了MAST，一种更精准的模型遗忘方法，在Qwen2.5和Qwen3上只遗忘你想忘的，保留数学能力不掉。适合研究模型编辑或推理安全的同学。

原文

10:57

arXiv cs.LG@V. Samuel Pérez-Díaz, Vinay L. Kashyap, Joshua D. Ingram, David Fouhey, Juan Rafael Martínez-Galarza, Pavlos Protopapas, Jeremy J. Drake, Dong-Woo Kim, Cecilia Garraffo

研究利用LightGBM梯度提升分类器，对钱德拉源目录（CSC v2.1）约25.4万个X射线源与盖亚DR3光学数据进行交叉匹配。基于贝叶斯框架NWAY构建高质量训练集，利用星等、颜色和距离等特征，识别出约11.3万个对应体，其中约7000个有多个候选。在钱德拉猎户座超深度项目（COUP）上验证，机器学习方法在不使用位置信息时重现了95%的NWAY匹配结果。研究还发现约2万个源虽在空间上匹配但为偶然重合，并发布了对应的目录。

论文 Chandra Gaia LightGBM X射线源交叉匹配

推荐理由：这篇论文教你用机器学习给X射线源找光学配对，比纯靠位置准多了。他们用LightGBM找到了11万多个钱德拉对应体，还公开了目录，做多波段天文的人别错过。

原文

10:57

arXiv cs.LG@Denis Peskoff, Joe Barrow, Christopher Vu, Diag Davenport

LOCUS是美国首个大规模地方法规语料库，收录9,239个市县的法典。该数据集通过OCR处理了多种文档格式，覆盖3,144个县中的2,309个，覆盖多数美国人口。研究团队训练了基于ModernBERT的分类器，用于分析法规的模糊性和家长主义等维度。LOCUS-v1及其衍生模型已在Hugging Face上开源。

论文 LOCUS Legal AI 数据集 OCR 法规语料库

推荐理由：法律AI研究者有福了！LOCUS提供了9,239个美国地方法规的机器可读语料，还附带了基于ModernBERT的分析工具，解决碎片化问题。

原文

10:57

arXiv cs.LG@Mohamed Nabail, Leo Cheng, Jingmin Wang, Nicholas Rhinehart

UBP2是一种基于模型的偏好强化学习方法，通过联合推理奖励、动态和价值函数的不确定性来主动引导探索。该方法使用集成模型对候选轨迹进行评分，平衡期望奖励、终止价值和认知不确定性。在Meta-World基准测试中，UBP2比无模型的偏好方法和非乐观的基于模型基线实现了更高的样本效率。

论文 UBP2 偏好强化学习样本效率 Meta-World 不确定性

推荐理由：UBP2通过主动探索和不确定性平衡，有效解决了偏好强化学习中样本效率低的问题。在Meta-World测试中效果显著。

原文

10:57

arXiv cs.LG@Amiri Hayes, Belinda Li, Jacob Andreas

研究者提出用程序合成方法反向工程Transformer注意力头。他们先计算注意力矩阵，再让预训练语言模型生成Python程序来重现注意力模式。在GPT-2、TinyLlama-1.1B和Llama-3B上，不到1000个程序实现了平均IoU>75%。替换25%的注意力头仅导致16%的困惑度增加，并在下游问答基准上保持性能。

论文 GPT-2 TinyLlama Llama-3B 可解释性注意力机制

推荐理由：这篇论文用Python程序解释了注意力头怎么工作，还能直接用程序替换掉原始头，精度很高，想看模型内部机制的可以读。

原文

10:57

arXiv cs.LG@ Xizhuo, Zhang, Zekai Wang, Fei Liu, Bing Yao

本文提出P-K-GCN框架，结合连续样条GCN从粗粒度图提取空间依赖，并引入Koopman算子理论将非线性时间动力学线性化到紧凑潜空间。优化目标加入物理损失，确保重建结果符合物理定律。理论分析证明物理增强和Koopman正则化通过降低Rademacher复杂度收紧泛化界，减小超分辨率误差。在3D心脏几何上从稀疏低分辨率测量重建高分辨率电动力学，P-K-GCN相比基线模型取得更优精度。

论文 P-K-GCN Koopman 图卷积网络时空超分辨率物理约束

推荐理由：这篇论文提出P-K-GCN，用图卷积加Koopman算子做时空超分辨率，在3D心脏建模上比现有方法更准，物理约束让结果更可靠。

原文

10:57

arXiv cs.LG@Christopher B. Womack, Shahine Bouabid, Andrei Sokolov, Popat Salunke, Glenn Flierl, Sebastian D. Eastham, Noelle E. Selin

该论文发现机器学习气候仿真模型的预测能力受限于训练数据的结构多样性不足。作者提出一种通过可微简单气候模型(SCM)优化训练情景的方法，使仿真模型能泛化到训练数据中未出现的新情景。实验表明，使用单个优化情景训练的仿真模型，其技能优于使用6个标准ScenarioMIP路径训练的模型。即使训练数据更小，优化后的模型也能成功分离不同气候强迫因子（如温室气体与气溶胶）的物理行为。用SCM优化的情景驱动中等复杂度气候模型时，产生的训练数据比直接使用ScenarioMIP输出更有效。

论文 SCM ScenarioMIP 气候仿真数据优化泛化能力

推荐理由：这篇论文告诉你，与其堆模型复杂度，不如优化训练数据——用同一个气候模型设计动态丰富的情景，能让仿真模型比用六个标准路径表现更好。

原文

10:57

arXiv cs.LG@Nikita Kachaev, Andrey Moskalenko, Matvey Skripkin, Nikita Kurlaev, Daria Pugacheva, Albina Burlova, Mikhail Kolosov, Denis Shepelev, Andrey Kuznetsov, Elena Tutubalina, Aleksandr I. Panov, Alexey K. Kovalev, Vlad Shakhuro

论文提出 Act2Answer 协议，通过让智能体在桌面场景中执行物体放置动作来选择答案，从而在动作层面评估 7 个 VLA 模型和 9 个 VLM 基线在常识与知识任务上的表现。研究发现，VLA 在简单概念上表现扎实，但在丰富语义类别上相比源 VLM 出现更大差距。实验还表明，VQA 联合训练有助于提升知识保留，而答案相关信息在 VLA 中层达到峰值，上层则衰减。

论文 VLA VLM Act2Answer 常识推理多模态

推荐理由：想知道微调后的机器人模型到底还记不记得常识？这篇论文用动作答题的方式测了7个VLA，发现简单概念还行，复杂知识掉得厉害。

原文

10:57

arXiv cs.LG@Jiaqing Zhang, Sabyasachi Bandyopadhyay, Miguel Contreras, Jessica Sena, Yuanfang Ren, Andrea Davidson, Ziyuan Guan, Tezcan Ozrazgat-Baslanti, Subhash Nerella, Azra Bihorac, Parisa Rashidi

该研究探讨环境声音和光照强度能否独立预测ICU谵妄。基于9个ICU的309名患者数据，评估了四种高效序贯神经网络模型在10个预测窗口上的表现。卷积模型在声音数据上取得最强辨别能力，AUC达0.80。结合声音与光照可改善短期（<1周）预测，模型在感知期结束后立即分配最高风险。

论文 ICU谵妄环境感知声音光照风险预测

推荐理由：这篇论文发现ICU里的环境声音比光照更能预测谵妄，卷积模型AUC达到0.80，为无创预警提供了新思路。

原文

10:56