精选 AI 资讯 · AI 热点

AITOP

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

12:42

arXiv cs.AI@Xucong Wang, Ziyu Ma, Shidong Yang, Tongwen Huang, Pengkun Wang, Yong Wang, Xiangxiang Chu

精选

Role-Agent 是一种让单个 LLM 同时扮演智能体和环境的框架，通过自举式协同进化提升性能。它包含两个核心组件：World-In-Agent（WIA）让模型在每次行动后预测未来状态，利用预测与实际状态的对齐作为过程奖励，促进环境感知推理；Agent-In-World（AIW）则分析失败轨迹中的模式，并检索具有相似失败模式的任务，重新调整训练数据分布进行针对性练习。在多个基准测试中，Role-Agent 平均提升超过 4%，解决了传统智能体学习依赖低效交互反馈和静态训练环境的问题。

论文 LLM智能体自举学习过程奖励双角色演进 arXiv论文

推荐理由：做 LLM 智能体训练的团队终于有了一个无需外部环境反馈的自我进化方案——Role-Agent 让模型自己当裁判和教练，平均提效 4%+，值得在复杂任务场景中试试。

原文

11:04

arXiv cs.LG@Weixian Xu, Shilong Liu, Mengdi Wang

精选

EEVEE 是首个支持多数据集测试时提示学习的框架，解决了 LLM 智能体在真实任务流中处理异构输入（来自多个数据集、领域和任务分布）的难题。现有方法多针对单数据集设计，无法应对跨数据集干扰。EEVEE 通过引入路由器将输入划分为任务簇并分配合适提示配置，采用路由器与提示协同进化策略优化。实验显示，在 Qwen3-4B-Instruct 和 DeepSeek-V3.2 上，多基准平均分分别提升 10.38 和 24.32 分，超越 SOTA 方法 GEPA 和 ACE 最高达 37.2% 和 48.2%。

论文 LLM智能体提示学习多数据集测试时学习路由策略

推荐理由：做 LLM 智能体部署的团队终于有了处理真实异构数据流的方案——EEVEE 的提示学习框架能自动适应多任务流，建议做 Agent 落地的开发者关注。

原文

6月9日

11:52

arXiv cs.AI@Wesley Pegden

精选

Trellis 是一个自动形式化系统，利用 LLM 智能体在确定性约束的工作流中，通过迭代优化自然语言证明，逐步推进 Lean 自动形式化任务。该系统受数学家对“严谨证明”的直觉启发——即证明的任何部分都可以被进一步详细阐述。Trellis 在有限预算下使用通用智能体实现了可靠的自动形式化，其专业化来自“严谨性”含义驱动的工作流，而非特定任务训练。论文还展示了该系统生成的 Ramsey 理论最新突破的端到端 Lean 形式化证明。

论文自动形式化 Lean LLM智能体定理证明工作流

推荐理由：Trellis 解决了自动形式化中可靠性与成本之间的平衡问题，做定理证明或形式化验证的开发者可以直接用这个工作流来生成 Lean 证明，值得关注其开源实现。

原文

10:28

arXiv: DeepSeek@Yishuo Cai, Xingyu Guo, Xuancheng Huang, Jinhua Du, Can Huang, Wenxuan Huang, Wenhan Ma, Yuyang Hu, Aohan Zeng, Jie Tang, Xu Sun

精选

论文提出MemoPilot，一种插件式记忆副驾驶，通过强化学习显式训练记忆更新过程，使冻结的LLM在连续交互中提升性能。该方法将记忆更新建模为多轮决策问题，采用多轮GRPO端到端优化，引入轮次奖励信号和上下文无关的轮级优势估计，实现更精细的信用分配和稳定训练。在多人石头剪刀布和有限注德州扑克两个测试环境中，MemoPilot的Elo评分分别达到1590和1762，超越所有基线记忆方法和包括DeepSeek-V3.2在内的闭源模型。这项工作解决了现有方法依赖手工设计提示规则、难以对齐记忆更新与长期目标的痛点。

论文 LLM智能体记忆更新强化学习测试时学习博弈

推荐理由：做LLM智能体长期部署和持续学习的团队可以关注——MemoPilot用强化学习自动优化记忆策略，比手工调提示更系统，在博弈场景中效果显著，值得在类似任务中尝试。

原文

6月5日

11:38

rohanpaul_ai@rohanpaul_ai

精选72°

一篇新论文挑战了“把最强模型放在进化器位置”的常见做法，指出自我进化智能体的关键在于更好的求解器，而非更大的更新编写模型。研究将“编写有用更新”和“在任务执行中受益于更新”这两个通常混为一谈的任务分开。实验发现，较小的Qwen3.5-9B模型作为进化器，其更新效果与Claude Opus 4.6相当；而昂贵模型更适合作为实际求解任务的智能体。中等规模模型是甜点：既能有效调用和遵循新程序，又不会因自身能力过强而让更新失去提升空间。

论文自我进化智能体 LLM智能体模型选择求解器进化器

推荐理由：这篇论文戳破了“越大越好”的直觉，做智能体自我进化的团队会发现，把预算花在求解器上比花在进化器上更划算，值得重新审视你的架构设计。

原文

6月4日

19:10

rohanpaul_ai@rohanpaul_ai

精选72°

伊利诺伊大学和清华大学等实验室的研究发现，LLM智能体在持续重写自身记忆时，记忆会变得不可靠。许多智能体系统通过让LLM将混乱经验压缩成整洁教训来存储过往工作，但论文表明反复重写会逐渐损害记忆。原始经验（实际尝试和解决方案）往往比精炼后的教训更有用。在网页购物、模拟世界、应用使用和ARC-AGI谜题等任务中测试，GPT-5.4在无记忆时解决100%的ARC-AGI任务，但用正确解决方案构建记忆后，流式更新导致准确率降至约54%。失败源于错误分组、过度泛化和过拟合，记忆丢失细节、混淆任务类型或学习到仅适用于狭窄示例的规则。论文建议智能体记忆不应自动将每次经验重写为摘要，保留原始证据并仅偶尔制作摘要效果更好。

论文 LLM智能体记忆机制可靠性 ARC-AGI 经验压缩

推荐理由：做AI智能体开发的团队会立刻警觉——你精心设计的记忆系统可能在悄悄退化。这篇论文用实验数据戳破了「自动总结记忆」的幻觉，建议所有用LLM做长期任务的开发者点开看看，别让记忆成为瓶颈。

原文

6月3日

10:13

arXiv cs.AI@Yingqi Zhang

精选72°

Agent libOS 提出了一种受库操作系统启发的运行时架构，将LLM智能体视为可调度的进程，具备身份、生命周期、对象内存、显式能力、人工审批队列和审计记录。其核心设计原则是工具作为类似libc的包装器，运行时原语作为权限边界，文件系统访问、对象访问、睡眠、人工批准、JIT工具注册和外部副作用都在原语边界处通过显式能力和策略进行检查。原型实现了异步调度、命名空间本地对象内存、运行时集成的人工批准、一次性权限授予、每个进程的工作目录、shell和图像注册原语、Deno/TypeScript JIT工具、文件系统/对象桥接工具、可注入的资源提供者子系统和123个回归测试。该工作不旨在提高规划器准确性，而是展示一种运行时基板，使长期运行的LLM智能体能够被调度、授权、恢复和审计，而无需将工具调度视为信任边界。

论文 LLM智能体运行时能力控制审计库操作系统

推荐理由：做LLM智能体工程化的团队终于有了一个正经的运行时方案——Agent libOS把智能体当进程管理，解决了长期运行、权限控制和审计的痛点，做智能体框架或生产部署的开发者值得细读。

原文

6月2日

12:06

arXiv: Anthropic@Hiskias Dingeto, Will Leeney

精选72°

LLM智能体通过工具调用访问第三方服务（如Gmail、Salesforce）时，面临间接提示注入攻击的威胁，但现有基准测试覆盖不足。研究者推出AgentRedBench，包含215个跨24种企业集成的微妙授权攻击场景，覆盖9个功能家族和5种攻击类型。在8个模型（Anthropic、OpenAI、Google）上，无防护的攻击成功率（ASR）从32%（Claude Sonnet 4.6）到81%（Gemini 3 Flash）不等。同时发布AgentRedGuard防护模型，在集成多样化的对抗性工具响应内容上训练，将ASR从69.9%降至2.4%，误报率仅0.37%，显著优于所有开源基线。该工作为智能体安全提供了更真实的评估基准和有效防御方案。

论文 LLM智能体安全/红队测试提示注入 SaaS集成开源/仓库

推荐理由：做LLM智能体安全或SaaS集成开发的团队，终于有了一个能真实反映生产环境威胁的测试基准和可用的防护模型，建议直接看论文和开源代码。

原文

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

13:58

arXiv: OpenAI@Alejandra Zambrano, Sara Vera Marjanovic, Imene Kerboua, Xing Han Lù, Leila Kosseim

精选

LLM网页智能体在探索、关键步骤遗漏和任务约束敏感性上存在不足，现有研究认为这些失败源于规划弱点，但自然语言计划表示的影响尚未被系统探索。PlanAhead提出静态规划-执行框架，自动将WebArena任务分为三个难度级别，并在困难任务上评估四种计划表示（顺序子目标、叙事、伪代码、清单）对多模态LLM智能体（OpenAI、阿里巴巴、Google）的影响。引入两个新指标：达成率和解决任务一致性，发现计划形式和底层LLM都显著影响智能体的鲁棒性和任务成功率。

论文 LLM智能体规划表示 WebArena 多模态模型评估指标

推荐理由：做LLM智能体开发的团队终于有了计划表示的系统性对比——选对计划形式能直接提升任务成功率，建议做Web Agent的开发者点开看看具体指标差异。

原文

13:03

arXiv: DeepSeek@Johannes Moll, Jean-Philippe Corbeil, Jiazhen Pan, Martin Hadamitzky, Daniel Rueckert, Lisa Adams, Keno Bressem

精选72°

LLM智能体在结构化环境中常因操作失败而非对话失败，其可靠性依赖于对环境的程序性知识。现有自我改进方法会累积自然语言指导，但不检查新条目是否破坏已有正确行为，导致修复一个轨迹却使另一个退化。GRASP将智能体改进视为对有限技能库的编辑序列，仅当候选技能在平衡的保留测试集上产生净改进且不超过硬回归预算时才被接受。在五个基础模型和两个临床基准上，GRASP将gpt-oss-120b从40.6%提升至88.8%，超过最强基线21.0个百分点，并提升其他模型17.2至40.3个百分点。该方法还泛化到非临床环境，且技能库可在模型间迁移，强模型技能能提升弱模型表现，反之则不行。

论文 LLM智能体自我改进技能库回归预算门控机制

推荐理由：做LLM智能体自我改进的团队终于有了一个不担心「修好一个、搞坏一个」的方案——GRASP用硬回归预算和门控机制确保每次改进都是净收益，临床场景提升显著，建议做智能体可靠性的开发者点开看看。

原文

09:17

arXiv: Anthropic@James P. Balhoff, Hilmar Lapp

精选

表型注释是将自由文本描述链接到本体术语的关键步骤，但传统上依赖高训练专家，难以规模化。本研究使用Anthropic和OpenAI的五个前沿LLM作为“智能体策展人”，在自包含工作空间中提供原始论文PDF、注释指南和本体文件，评估其与人类策展人的一致性。结果显示，所有智能体均达到原始研究中三位训练人类策展人的一致性范围，最佳智能体接近但未超越最佳人类策展人，且在所有指标上大幅优于传统NLP工具。这表明LLM智能体有潜力自动化表型注释，缓解本体策展瓶颈。

论文 LLM智能体表型注释本体策展生物信息学自动化

推荐理由：做生物信息学或本体工程的研究者终于有了可扩展的自动化方案——LLM智能体直接对标人类专家水平，建议点开看具体实现和评估细节。

原文

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

5月28日

11:28

arXiv cs.AI@Jizhan Fang, Buqiang Xu, Zhixian Wang, Haoliang Cao, Xinle Deng, Baohua Dong, Hangcheng Zhu, Ruohui Huang, Gang Yu, Ying Wei, Guozhou Zheng, Feiyu Xiong, Haofen Wang, Huajun Chen, Ningyu Zhang

精选72°

现有记忆增强型LLM智能体通常将记忆视为静态仓库，在动态环境中表现脆弱。为此，研究者提出FluxMem框架，将记忆建模为异构图，并通过初始连接形成、反馈驱动精炼和长期巩固三个阶段逐步优化拓扑结构。在执行过程中，FluxMem能自动修复缺失链接、剪枝干扰、对齐抽象粒度，并将成功轨迹蒸馏为可复用的程序化回路。在LoCoMo、Mind2Web和GAIA三个基准测试中，FluxMem均取得最先进性能，展现出强大的适应性和泛化能力。代码已开源。

论文 LLM智能体记忆增强图神经网络开源/仓库动态环境

推荐理由：FluxMem解决了LLM智能体在动态环境中记忆僵化的痛点，做复杂任务自动化的开发者可以直接参考其开源实现，提升智能体的长期记忆和适应能力。

原文

5月27日

10:28

arXiv cs.AI@Huawei Lin, Peng Li, Jie Song, Fuxin Jiang, Tieying Zhang

精选

MUSE-Autoskill 提出了一种以技能为中心的智能体框架，让LLM智能体能够持续创建、记忆、管理和评估技能，实现自我进化。传统方法将技能视为孤立静态的产物，而该框架通过统一的技能生命周期（创建、记忆、管理、评估、优化）显著提升了技能的可复用性和可靠性。框架引入了技能级记忆，让每个技能跨任务积累经验，从而更有效地适应新场景。在SkillsBench上的实验表明，这种生命周期管理的技能能提高任务成功率、效率、复用率，甚至支持跨智能体迁移。这项工作对构建长期自主进化的AI智能体系统具有重要参考价值。

论文智能体技能管理自我进化 LLM智能体生命周期

推荐理由：做智能体开发或研究自主系统的团队，MUSE-Autoskill 给出了一个可落地的技能管理闭环——从创建到评估再到跨任务复用，值得直接参考其设计思路。

原文

5月22日

11:12

arXiv cs.AI@Girish Narayanswamy, Maxwell A. Xu, A. Ali Heydari, Samy Abdel-Ghaffar, Marius Guerard, Kara Vaillancourt, Zhihan Zhang, Jake Garrison, Levi Albuquerque, Dimitris Spathis, Hong Yu, Hamid Palangi, Xuhai "Orson" Xu, David G. T. Barrett, Joseph Breda, Jed McGiffin, Yubin Kim, Yuwei Zhang, Naghmeh Rezaei, Samuel Solomon, Karan Ahuja, Tim Althoff, Jake Sunshine, Ming-Zher Poh, Benjamin Yetton, Ari Winbush, Nicholas B. Allen, James M. Rehg, Isaac Galatzer-Levy, Yun Liu, John Hernandez, Anupam Pathak, Conor Heneghan, Yuzhe Yang, Ahmed A. Metwally, Pushmeet Kohli, Mark Malhotra, Shwetak Patel, Xin Liu, Daniel McDuff

精选72°

研究人员提出了一种面向可穿戴健康数据的基础模型，该模型在来自500万参与者的超过1万亿分钟未标记传感器信号上进行了预训练。通过联合扩展模型容量和预训练数据量，该模型在35项健康预测任务上（涵盖心血管、代谢、睡眠、心理健康及生活方式等）表现出系统性性能提升。该模型支持少样本学习和生成能力，可稳健估计日常健康指标。研究还部署了一组LLM智能体来自动搜索基于模型嵌入的下游预测头，并展示了性能随LLM能力提升而增强。最后，将下游预测器集成到个人健康代理中，经1860次临床医生评分验证，模型响应更相关、更具上下文意识且更安全。

论文基础模型可穿戴健康少样本学习 LLM智能体个人健康代理

推荐理由：这项研究解决了可穿戴数据标注稀缺和个体差异大的核心难题，做健康AI或可穿戴设备开发的团队可以直接参考其预训练方法和少样本学习策略，值得关注。

原文

5月21日

09:46