精选 AI 资讯 · AI 热点

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月3日

08:02

08:02

NVIDIA AI@NVIDIAAI

精选

NVIDIA 旗下 Nemotron Labs 发布了 Self-Evolving Hermes Agents，一种能够在使用中自我改进的企业级 AI 智能体。该智能体通过持续学习用户交互和反馈，自动优化自身行为，无需人工重新训练。这解决了传统企业 AI 部署后性能停滞的问题，显著降低了维护成本。Hermes Agents 基于 Nemotron 模型，专为复杂企业任务设计，如客户服务、流程自动化等。NVIDIA 在直播中展示了其在实际场景中的自适应能力，引发广泛关注。

AI产品智能体企业AI 自我进化 NVIDIA Nemotron

推荐理由：企业 AI 终于能自己变强了——Self-Evolving Hermes Agents 解决了部署后性能衰减的痛点，做企业级 AI 落地的团队值得关注，看看它如何通过使用自动进化。

6月1日

23:56

23:56

elvis@omarsar0

精选72°

一项新研究挑战了自我进化智能体的普遍假设，即更强的模型能写出更好的提示和技能编辑。实验表明，模型生成进化更新的能力在不同能力级别上基本持平，Qwen3.5-9B与Claude Opus 4.6表现相当。而受益于这些更新的能力呈倒U型曲线，中等模型效果最佳，弱模型无法激活更新，强模型改进空间有限。因此，建议将廉价模型用于进化器角色，昂贵模型用于求解器角色，以最大化收益。该发现对构建长期任务智能体的开发者具有重要指导意义。

论文智能体自我进化模型选择研究论文成本优化

推荐理由：这篇研究戳破了“大模型=好进化器”的直觉误区，做智能体开发的团队可以重新分配预算——用便宜模型写更新，贵模型做执行，效果反而更好。

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？

5月27日

10:28

10:28

arXiv cs.AI@Huawei Lin, Peng Li, Jie Song, Fuxin Jiang, Tieying Zhang

精选

MUSE-Autoskill 提出了一种以技能为中心的智能体框架，让LLM智能体能够持续创建、记忆、管理和评估技能，实现自我进化。传统方法将技能视为孤立静态的产物，而该框架通过统一的技能生命周期（创建、记忆、管理、评估、优化）显著提升了技能的可复用性和可靠性。框架引入了技能级记忆，让每个技能跨任务积累经验，从而更有效地适应新场景。在SkillsBench上的实验表明，这种生命周期管理的技能能提高任务成功率、效率、复用率，甚至支持跨智能体迁移。这项工作对构建长期自主进化的AI智能体系统具有重要参考价值。

论文智能体技能管理自我进化 LLM智能体生命周期

推荐理由：做智能体开发或研究自主系统的团队，MUSE-Autoskill 给出了一个可落地的技能管理闭环——从创建到评估再到跨任务复用，值得直接参考其设计思路。

5月22日

11:01

11:01

arXiv cs.AI@Qianshu Cai, Yonggang Zhang, Xianzhang Jia, Wei Xue, Jun Song, Xinmei Tian, Yike Guo

精选

现有自主智能体系统部署后基本静态，无法从用户交互中学习，重复故障需等待人工更新修复。MOSS 提出源码级自我进化方法，直接修改智能体系统的源代码，而非仅调整文本可变的技能文件或提示配置。系统通过自动收集生产故障证据、多阶段确定性流水线生成代码修改，并在临时工作器中验证候选版本，最后通过用户同意的容器热替换实现部署。在 OpenClaw 基准测试中，MOSS 单次循环将平均评分从 0.25 提升至 0.61，无需人工干预。该方法解决了文本层无法触及的结构性故障（如路由、钩子顺序、状态不变量等），为智能体系统持续自我改进提供了更通用的框架。

论文自主智能体自我进化源码重写故障修复 OpenClaw

推荐理由：做自主智能体系统开发的团队终于有了能自动修复代码级故障的方案——MOSS 让智能体从用户交互中学习并自我改进，建议关注其源码级重写机制如何解决传统文本层无法触及的结构性问题。