精选 AI 资讯 · AI 热点

AITOP

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月9日

10:41

arXiv cs.AI@Rakibul Hasan Rajib, Mengxin Zheng, Qian Lou

精选72°

多轮LLM Agent服务将无状态请求处理转变为有状态程序执行，需要调度、KV缓存管理和路由策略利用程序级上下文。直接在真实系统上评估这些策略成本高昂，而现有模拟器仅针对无状态请求。AGENTSERVESIM 是一个硬件感知模拟器，通过程序编排器、工具模拟器、会话感知路由器和KV驻留模型等模块，在程序粒度上评估服务策略。在真实部署和硬件配置下，AGENTSERVESIM 在关键性能指标上误差小于6%，且完全在普通CPU上运行。该工具使得无需在昂贵加速器上大规模部署即可进行可控、可重复的Agent服务策略探索。

论文 LLM Agent 模拟器 KV缓存服务调度硬件感知

推荐理由：做LLM Agent服务部署和优化的团队，终于有了一个低成本、高精度的模拟工具来测试调度和缓存策略，不用再烧GPU时间试错，建议直接看论文细节。

原文

09:27

arXiv: DeepSeek@Xiaojun Wu, Cehao Yang, Honghao Liu, Xueyuan Lin, Wenjie Zhang, Zhichao Shi, Xuhui Jiang, Chengjin Xu, Jia Li, Jian Guo

精选

Bayesian-Agent 是一个跨框架的 LLM Agent 技能优化框架，它将可复用的技能和 SOP 视为关于冻结模型在特定提示、上下文和环境下能否成功的假设。该框架记录验证过的轨迹证据，维护每个技能的特征条件分类后验，并根据后验状态执行修补、拆分、压缩、退役和探索等操作。在 deepseek-v4-flash 上，增量修复将 SOP-Bench 从 80% 提升至 95%，Lifelong AgentBench 从 90% 提升至 100%，RealFin-Bench 从 45% 提升至 65%。该框架还支持 GenericAgent、mini-swe-agent 和 Claude Code 等后端，表明 Agent 技能进化应视为后验引导的优化，而非未校准的提示积累。代码已开源。

论文 LLM Agent 技能进化后验引导开源/仓库推理模型

推荐理由：做 LLM Agent 开发的团队终于有了一个系统化的技能进化方法，不用再靠试错和启发式反思——Bayesian-Agent 用后验概率指导优化，效果显著且可审计，建议直接看论文和代码。

原文

6月1日

10:49

arXiv: DeepSeek@Xiaonan Xu, Wenjing Wu

精选

一篇来自 arXiv 的论文系统研究了技能文档的呈现粒度对大型语言模型智能体任务成功率的影响。实验基于 SkillsBench 基准，包含 30 个领域平衡的任务，测试了 GPT-5.5 和 DeepSeek V4-Flash 两种模型。结果显示，提供技能文档相比无技能条件，任务平均通过率提升 18 到 36 个百分点，效果显著。然而，技能文档的抽象程度（低抽象 vs 高抽象）以及是否包含示例对成功率的影响很小且统计上不显著。该研究表明，技能可用性是关键因素，而呈现细节的调整影响有限且依赖模型。

论文 LLM Agent 技能文档任务成功率 GPT-5.5 DeepSeek V4-Flash

推荐理由：做 LLM Agent 开发的团队终于有了实证依据：给智能体塞技能文档比纠结怎么写更管用。建议直接参考这个实验设计来优化自己的 RAG 或工具调用策略。

原文

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

5月20日

10:09

arXiv cs.AI@Dmitry Redko, Albert Fazlyev, Konstantin Sozykin, Maria Ivanova, Evgeny Burnaev, Egor Shvetsov

精选

该研究通过三个受控实验，系统评估了 LLM Agent 在硬件感知代码优化中的表现。研究发现，LLM 在纯黑盒优化中表现为贪婪优化器；在零样本内核生成中，提供显式输入大小信息没有可测量的效果，模型会收敛到相同的内核参数；在反馈循环优化中，CUDA 在迭代反馈下单调改进，而 TVM IR 则主动退化。结论表明，LLM 在代码优化任务中高度依赖预训练先验知识，而非提供的反馈或智能体结构。

论文 LLM Agent 代码优化硬件感知先验知识反馈循环

推荐理由：做 AI 编译器或硬件优化的开发者会关心——LLM Agent 的搜索能力被高估了，实际表现受限于预训练数据分布，直接套用反馈循环可能适得其反，建议先看实验设计再决定是否采用。

原文

5月19日

10:28

arXiv: Anthropic@Aman Desai

精选

RooAgent 是一个基于 LLM 的智能体，为高能物理领域的 Root 数据分析提供自然语言接口。它将物理分析功能封装为工具，LLM 根据用户自然语言指令调用这些工具。支持两种模式：基于 LangGraph 的 Agent（兼容 GPT-4.1 和 DeepSeek-V3），以及 MCP 服务器模式（兼容 Claude Sonnet 4.6）。功能包括直方图检查、事件选择、运动学分布可视化、拟合和显著性估计。已在多个模拟和 ATLAS 开放数据上验证，代码开源在 GitHub。

AI产品 RooAgent 高能物理 LLM Agent Root分析开源/仓库

推荐理由：高能物理研究者终于可以用自然语言做 Root 分析了——RooAgent 把复杂的 PyRoot 操作封装成 LLM 可调用的工具，做粒子物理数据分析的团队可以直接试，省去手写大量脚本的麻烦。

原文

5月18日

12:12

arXiv cs.AI@Ziang Ye, Wentao Shi, Yuxin Liu, Yu Wang, Zhengzhou Cai, Yaorui Shi, Qi Gu, Xunliang Cai, Fuli Feng

精选72°

论文指出基于大语言模型的智能体在陌生环境中常因过早利用先验知识而失败，提出自主探索能力是关键但被忽视的环节。作者引入可验证的探索检查点覆盖率指标，量化智能体发现关键状态、物体和功能的能力。实验发现标准任务导向强化学习训练出的智能体行为狭窄重复，阻碍下游性能。为此提出探索-执行交替训练策略，并构建先探索后行动的范式，让智能体先利用交互预算获取环境知识再执行任务。结果表明系统学习探索对构建通用、真实世界可用的智能体至关重要。

论文智能体自主探索强化学习 LLM Agent 探索-执行范式

推荐理由：这篇论文直击 LLM Agent 在陌生环境中的核心短板——过早行动，做智能体开发或强化学习的研究者值得一读，提出的探索-执行范式可以直接启发你的训练策略。

原文