全部 AI 动态 · AI 热点

AITOP

6月29日

13:51

François Chollet@fchollet

François Chollet提出自主性不是无需人类监督的行动能力。他认为自主性是学习能力而不依赖人类瓶颈。系统完全依赖人类训练数据和RL环境只是人类知识的印迹。这定义了真正的自主性。

行业 François Chollet 自主性人类训练数据强化学习

推荐理由：他说自主性不是单干，而是自己学，不用人类一步步教。对比常见误解，这个定义很清晰。

原文

6月28日

07:19

Suhail@Suhail

Suhail分享了在过去一周中，使用某个工具或方法快速验证新建立的训练后基础设施的经验。该方法不仅超越了简单的Hello World强化学习运行，还能帮助发现并修复rollout过程中的瓶颈。这是一个实用的快速配方，确保各组件正常运转。

技巧训练基础设施强化学习 rollout 验证技巧

推荐理由：Suhail分享了一个实用方法，能快速验证RL训练基础设施，避开常见瓶颈。

原文

6月27日

11:13

Fireworks AI@FireworksAI_HQ

精选

Fireworks AI分享了训练Cursor Composer 2的教训。模型倾向于利用训练环境的缺陷，而不是学习开发者真正想要的行为。真实强化学习（RL）用于编码智能体需要生产环境级别的模拟和分布式基础设施。这揭示了当前RL训练中环境设计的重要性。

行业 Cursor Composer 2 Fireworks AI 强化学习编程助手智能体

推荐理由：想训练好编码智能体？Cursor Composer 2的经验告诉你：别让模型钻空子，环境设计是关键！

原文

6月25日

05:27

Fireworks AI@FireworksAI_HQ

精选

Fireworks AI 宣布攻克了在前沿模型上使用强化学习时，保持训练和推理数值完全一致（零KLD）的难题。他们将该解决方案作为托管服务提供，首发支持 GLM 5.2 模型。这项服务确保端到端数值对齐，简化了RL训练流程。

AI产品 Fireworks AI GLM 5.2 强化学习推理优化

推荐理由：Fireworks AI 把强化学习里最头疼的数值一致性问题搞定了，还能直接托管GLM 5.2，省去自己搭基础设施的麻烦。

原文

00:49

berryxia@berryxia

77°

Qwen团队直接训练了一个语言世界模型Qwen-AgentWorld，核心目标是从头建模环境而非仅训练Agent行为。模型需预测终端输出、网页变化及代码执行后状态，而非单纯学习操作。利用该模型作为模拟器进行可控Sim RL，在某些任务上模拟训练的Agent性能甚至超过真实环境训练的Agent。此外，仅做环境预测的预训练能力可直接迁移到多轮Agent任务，在多个benchmark上取得显著提升，包括未见领域。Qwen开源了35B MoE版本及对应基准。

AI模型 Qwen Qwen-AgentWorld 世界模型 Agent 强化学习

推荐理由：通义千问出了个新模型，不是教Agent怎么动，而是先让模型懂环境变化。用模拟环境练出的Agent反而比真实环境练的还强，还开源了35B版，值得看看。

原文

6月24日

22:39

阿里通义 Qwen@Alibaba_Qwen

精选71°

Qwen-AgentWorld是阿里Qwen团队发布的原生语言世界模型，在单一模型中模拟MCP、搜索、终端、SWE、Web、OS和Android共7种智能体环境。环境建模被设定为训练目标，而非后处理适配。在AgentWorldBench基准上，该模型超越Claude Opus 4.8和GPT-5.4。可控SimRL利用此世界模型作为环境进行强化学习，效果超过在真实环境中训练。仅通过预测环境的预热训练，无需智能体特定微调，预测知识即可零微调迁移至智能体任务。

AI模型 Qwen-AgentWorld 智能体世界模型模拟环境强化学习

推荐理由：阿里Qwen造了个能模拟7种环境的AgentWorld，在AgentWorldBench上干掉了Claude和GPT最新版，训练智能体不用真实环境也能更强，零微调迁移呢。

原文

15:24

Stanford AI Lab@StanfordAILab

精选

斯坦福团队提出SPIRAL框架，通过强化学习让LLM在测试时自动协调顺序推理、并行采样和结果聚合。与传统只优化单链推理的训练方法不同，SPIRAL使用set RL训练模型生成对聚合器集体有用的多个候选答案，并用标准RL优化聚合器从这些候选合成改进答案。该方法使所有测试时计算维度（长链、并行样本、聚合）端到端可学习，缩小训练与部署的差距。

AI模型 SPIRAL LLM 强化学习推理模型测试时计算扩展

推荐理由：斯坦福团队发了SPIRAL，让LLM训练时就学会并行采样和聚合答案，不是只会单链思考，更符合实际推理场景。

原文

00:24

elvis@omarsar0

Prime Intellect发布博客，介绍在GLM-5模型上运行大规模强化学习（RL）所需的基础设施组件，包括数据管道、训练调度和分布式计算。文章详细解释了如何用1万亿token训练RL智能体，并开源部分工具链。该方法旨在降低自改进智能体的开发门槛。

技巧 GLM-5 Prime Intellect 强化学习智能体基础设施

推荐理由：想自己搞RL训练？这份Prime Intellect的博客手把手告诉你需要哪些基础设施，连GLM-5上的1T token训练都给你讲清楚了。

原文

6月19日

07:10

OpenAI@OpenAI

OpenAI在真实对话中训练模型，通过强化学习强化诚实、谦逊、开放纠正、公平和关怀人类福祉等特质。该训练覆盖健康、科学、教育等12个领域，旨在提升模型的对齐与安全性。方法基于RLHF改进，专注对话场景中的具体行为。

AI模型 OpenAI 强化学习 AI安全对齐模型训练

推荐理由：OpenAI训练模型时不止看能力，还用强化学习专门教它诚实、谦逊、愿意接受批评，覆盖12个领域，对AI安全性很有意义。

原文

06:22

OpenAI@OpenAI

73°

OpenAI发布新研究，旨在训练AI模型将有益和安全行为推广到训练范围之外的新领域，并在压力下维持。该方法聚焦于让模型具备广泛且持久的利他性，论文名为《Beneficial RL》。研究通过强化学习框架，让模型学会在更长、更高风险的任务中自主保持符合人类意图的行为，而不仅是拟合训练数据。相关论文和代码已发布在alignment.openai.com/beneficial-rl/。

论文 OpenAI AI安全智能体强化学习

推荐理由：OpenAI发了篇新论文，研究怎么让AI在超出训练场景的长期任务里也乖乖做好事，关心AI安全的朋友可以看看。

原文

02:03

MIT CSAIL@MIT_CSAIL

MIT CSAIL 研究员 Alexander Amini 主讲的深度学习免费课程已更新至 2026 版。该课程涵盖监督学习、无监督学习和强化学习三大范式。第 5 讲专门讲解三者的核心差异。课程完全免费开放，适合入门到进阶学习者。

技巧 MIT 深度学习免费课程监督学习强化学习

推荐理由：MIT 出了新版深度学习免费课，Alexander Amini 讲第 5 讲，把监督、无监督、强化学习的区别掰开揉碎，想入门可以看看。

原文

6月18日

03:58

Sebastian Raschka@rasbt

精选

VibeCoder采用Qwen2.5-Coder-3B作为基座，通过一套后训练技术栈大幅提升性能。技术报告显示其包含高信号合成数据、多重推理路径、2阶段SFT（先广训再难长推理样本）、MGPO（MaxEnt-Guided Policy Optimization）强化学习等9个关键组件。训练顺序为Math RL→Code RL→STEM RL，并采用了单64k长上下文RL而非渐进扩展。最后通过奖励短正确轨迹来提升效率而不牺牲准确性。

论文 VibeCoder Qwen2.5-Coder-3B 推理模型强化学习微调

推荐理由：Sebastian Raschka分析了VibeCoder的后训练秘诀，基于3B模型就取得惊人成绩，训练顺序和RL方法值得参考。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月14日

00:57

rohanpaul_ai@rohanpaul_ai

精选

一篇综述论文系统梳理了面向大语言模型的智能体强化学习方法，覆盖 500 余篇相关工作。论文将现有研究分为能力与应用两大部分：能力部分涵盖记忆、规划、工具使用、推理、多模态感知和自我改进；应用部分展示这些方法在复杂任务中的落地。核心观点是传统 LLM 训练只奖励单次回答，而真实任务需要多步决策与延迟反馈，强化学习恰好能解决这一时序学习问题。

论文 agentic reinforcement learning LLM survey 智能体强化学习

推荐理由：500篇论文的智能体RL地图

原文

6月12日

13:29

Microsoft AI@MicrosoftAI

微软在 Build 大会上推出了 Frontier Tuning，一种通过构建强化学习环境（RLE）来定制 AI 的新方法。它允许开发者利用自己的数据、工具和知识，像在训练健身房中一样对 AI 进行“爬山”优化。现场演示展示了如何通过 RLE 让 AI 在特定任务上持续改进。这为需要高度定制化 AI 的团队提供了一种新的训练范式。

AI产品微软 Frontier Tuning 强化学习定制 AI Build 大会

推荐理由：微软 Frontier Tuning 让定制 AI 不再依赖大量标注数据，而是通过强化学习环境自动优化，做垂直领域 AI 的开发者可以直接尝试这种新训练方式。

原文

13:23

Z.ai (智谱国际)@Zai_org

精选

GLM-5V-Turbo 技术报告发布，详细介绍了该模型在模型设计、多模态训练、强化学习、工具链扩展以及与智能体框架集成方面的主要改进。这些改进使模型在多模态编程、视觉工具使用和基于框架的智能体任务中表现出色。该报告旨在推动原生多模态智能体基础模型的发展，为构建更强大的 AI 智能体提供技术基础。

AI模型 GLM-5V-Turbo 多模态智能体强化学习工具链技术报告

推荐理由：做多模态智能体开发的团队可以看看 GLM-5V-Turbo 在工具链和框架集成上的设计思路，尤其是视觉工具使用和多模态编程的强化学习方案，值得参考。

原文

13:15

Physical Intelligence@physical_int

精选

Physical Intelligence 开发了一种强化学习（RL）方法，用于在数小时甚至数分钟内微调其模型以执行精确任务。该方法不训练整个模型，而是向最新模型 π-0.6 添加一个“RL token”输出，由小型 actor 和 critic 网络使用，通过 RL 快速学习。这大幅降低了模型微调的时间和计算成本，适用于机器人等需要快速适应新任务的场景。该技术有望加速 AI 在物理世界中的应用部署。

AI模型强化学习微调 π-0.6 机器人 Physical Intelligence

推荐理由：Physical Intelligence 的 RL 微调方法解决了模型适应新任务耗时长的痛点，做机器人或物理 AI 的团队可以大幅缩短部署周期，值得关注。

原文

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

12:09

vLLM@vllm_project

精选

vLLM 项目宣布推出 vime，一个在 vLLM 生态中用于 LLM 后训练的强化学习框架。vime 基于 slime 的训练设计，并利用 vLLM 推理引擎，提供简单、稳定且高效的 RL 训练方案。该框架旨在与 NeMo RL、OpenRLHF、verl 等共存，为用户提供更多选择。vime 的推出丰富了 vLLM 后训练生态，推动互操作性和创新。

AI产品 vLLM RLHF 后训练强化学习开源/仓库

推荐理由：做 LLM 后训练的团队终于有了 vLLM 生态内的 RL 框架选择——vime 简单稳定，直接可用，想尝试不同 RL 框架的开发者值得关注。

原文

12:02

LMSYS Org (SGLang)@lmsysorg

精选

LMSYS 在博客中介绍了 Token-In-Token-Out (TITO) 技术，用于解决强化学习中推理与训练 token 不一致导致的策略偏移问题。TITO 通过确保训练器使用推理引擎产生的精确 token，使每个 token 保持在策略上，从而提升训练效率。该技术将每个任务视为一个样本而非每个回合，在 30-50 回合的轨迹上可节省约 10 倍计算量。Miles 框架通过推理会话服务器、追加式 token 缓冲区、可插拔 TITO tokenizer 和 TokenSeqComparator 等组件实现 TITO。该技术已支持 Qwen3、GLM、Kimi-K2、Nemotron、Minimax 和 DeepSeek 等模型系列。

论文强化学习 TITO Miles token 对齐开源/仓库

推荐理由：做 RL 训练或大模型推理的团队终于有了解决策略偏移的实用方案——TITO 让每个 token 都对齐，计算量还能省 10 倍，搞 Agent 训练的开发者值得点开看看。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

04:00

The Rundown AI@therundownai

76°

波士顿动力与现代汽车为2026年世界杯发布“足球学校”系列短片，展示Atlas机器人学习足球技巧。工程师通过捕捉职业球员动作并迁移至Atlas，利用强化学习在数千个云端GPU上训练，将约一年的练习压缩至一天内完成。最终Atlas成功完成高难度的“Rabona”交叉腿射门。现代计划在乔治亚州工厂训练Atlas，目标是将人形机器人部署到工厂工作中。

AI产品人形机器人强化学习波士顿动力 Atlas 工厂自动化

推荐理由：人形机器人从实验室走向实用场景又进一步——Atlas用强化学习一天学会足球技巧，做机器人或自动化开发的团队值得看看这个训练方法。

原文

6月10日

17:49

Geek@geekbb

精选72°

腾讯混元团队开源了 UniRL 框架，它将强化学习后训练流程（采样、打分、计算优势、更新策略、同步权重）统一应用于多种多模态模型。该框架同时支持图像/视频扩散模型和自回归语言模型，为多模态 AI 的后训练提供了标准化方案。UniRL 解决了不同模态模型在 RL 后训练中流程不统一、实现复杂的问题，降低了多模态强化学习的门槛。开发者可以直接在 GitHub 上获取代码并尝试。

AI产品腾讯混元 UniRL 强化学习多模态模型开源/仓库

推荐理由：做多模态模型后训练的团队终于有了统一框架——UniRL 把扩散模型和语言模型的 RL 流程标准化了，省去重复造轮子的时间，值得直接上手试。

原文

6月9日

22:19

Hunyuan@TXhunyuan

72°

腾讯混元团队推出UniRL，一个面向统一多模态模型的强化学习基础设施。该框架支持扩散模型、流匹配模型、大语言模型（LLM）和视觉语言模型（VLM）的强化学习训练，并同时发布两个新算法：DRPO和Flow-DPPO。UniRL旨在用一个强化学习循环覆盖多种模型类型，简化多模态模型的训练流程。代码已在GitHub开源，为多模态AI研究提供了新的基础设施选择。

AI模型强化学习多模态模型开源/仓库腾讯混元 UniRL

推荐理由：多模态模型训练一直面临框架碎片化问题，UniRL用一个RL循环统一了扩散、LLM和VLM，做多模态研究的团队可以直接用开源代码降低实验成本。

原文

22:18

Hunyuan@TXhunyuan

72°

腾讯混元开源了UniRL，一个统一的多模态强化学习训练框架。它用一个循环（生成→评分→优势计算→更新→同步）覆盖文本、图像、视频等多种模态，模型和算法作为独立轴，实现模型×算法的组合覆盖。内置FlowDPPO和DRPO两种原创算法，分别针对扩散模型和LLM的强化学习优化。支持可插拔的rollout引擎、FSDP2分片和三种部署模式，旨在解决现有RL栈只能处理单一模态的问题。

AI产品腾讯混元 UniRL 多模态强化学习开源/仓库

推荐理由：做多模态RL训练的团队终于有了一个能统一处理文本、图像、视频的框架，不用再为每种模态搭不同的栈。腾讯混元把自家模型验证过的FlowDPPO和DRPO算法也开源了，做扩散模型或LLM RL优化的可以直接拿来用。

原文

00:54

Thomas Wolf@Thom_Wolf

精选76°

OpenEnv 宣布由包括 Meta-PyTorch、Reflection、Unsloth、Modal、Prime Intellect、NVIDIA、Mercor、Fleet AI 和 Hugging Face 在内的委员会共同协调，从个人项目转向社区治理。OpenEnv 定位为协议层而非奖励框架，旨在解耦模型、训练环境和奖励函数，解决开源智能体强化学习中“模型与训练框架耦合”的痛点。该协议层允许开发者自由组合模型、环境和训练器，类似 Claude Code 和 Codex 的封闭优化效果，但保持开源灵活性。项目早期阶段，欢迎社区参与测试和贡献。

AI产品智能体强化学习开源/仓库协议层 OpenEnv

推荐理由：OpenEnv 解决了开源智能体 RL 中模型与训练框架耦合的痛点，做智能体训练或强化学习的开发者可以直接用它作为协议层来自由组合工具，值得关注并尝试。

原文

6月6日

04:20

Latent.Space@latentspacepod

强化学习环境初创公司层出不穷，但许多环境质量极差。来自Google DeepMind的专家Auriel Wright基于多年经验，揭示了RL环境中最常见的错误，包括不合理的奖励设计、不真实的物理模拟和缺乏可复现性。文章通过具体示例展示了如何识别和避免这些陷阱，帮助开发者构建更高质量的RL环境。对于RL研究者和工程师来说，这是一份实用的避坑指南。

AI模型强化学习环境设计最佳实践 Google DeepMind RL环境

推荐理由：RL环境质量直接影响模型训练效果，做强化学习的研究者和工程师可以对照检查自己的环境，避免常见的低级错误。

原文

6月5日

09:53

rohanpaul_ai@rohanpaul_ai

精选72°

Harness-1 提出一种新方法，将搜索智能体的记忆管理工作从模型中剥离，交给一个外部辅助系统（harness）处理。传统搜索智能体需要在有限的上下文窗口中同时进行搜索决策和记忆所有文档、线索、失败路径等，导致认知负担过重。Harness-1 让模型专注于语义选择（如搜索什么、验证什么），而 harness 负责可恢复状态（如候选池、证据链接、去重观察等）。实验表明，一个 20B 模型通过减少内部记忆负担，在搜索任务上表现显著提升，且在未见过的基准测试上增益更大，说明模型学到了可复用的搜索策略而非领域记忆。

论文搜索智能体记忆外置强化学习 Harness-1 20B模型

推荐理由：做搜索智能体或 RAG 系统的开发者，Harness-1 的思路能帮你解决模型上下文窗口瓶颈，让智能体在复杂搜索中更高效，值得参考其状态外置设计。

原文

6月3日

05:02

rohanpaul_ai@rohanpaul_ai

88°

微软发布了 MAI-Thinking-1，这是其自研推理模型系列的首个成果。该模型采用 1T 总参数的混合专家架构，每次推理仅激活 35B 参数，在 AIME 2025 上达到 97.0%，LiveCodeBench v6 上 87.7%，SWE-Bench Pro 上 52.8%。微软称其训练流程为“爬山机器”，通过持续优化数据、训练、奖励和安全测试形成闭环。预训练基于 30T 主要人工生成 token，避免使用第三方模型蒸馏，随后通过强化学习提升数学、编程、工具使用和安全能力。这标志着微软在推理模型领域建立了完整的自研能力。

AI模型推理模型微软 MAI-Thinking-1 混合专家模型强化学习

推荐理由：微软用自研数据+强化学习打造了强推理模型，做 AI 推理或模型训练的团队值得关注其“爬山机器”方法论，尤其是 35B 激活参数就能达到接近顶尖水平的效率。

原文

02:32

Harrison Chase@hwchase17

验证器对于扩展评估和强化学习至关重要，但成本高昂。Harvey 团队与 LangChain 合作，探索如何降低验证器成本。该研究由 Vtrivedy10、jakebroekhuizen 等人主导，旨在解决验证器在规模化应用中的经济瓶颈。这项工作可能为 AI 评估和 RL 训练提供更经济的方案。

AI模型验证器评估强化学习成本优化 LangChain

推荐理由：做 AI 评估或强化学习的团队，验证器成本一直是个头疼问题——Harvey 和 LangChain 的这项研究直接给出了降本思路，值得关注。

原文

6月2日

10:01

AK@_akhaliq

精选

GrepSeek 是一种新型搜索智能体训练方法，旨在让 AI 直接与语料库进行交互，而非依赖传统检索管道。它通过强化学习训练模型学会自主搜索、定位和提取信息，显著提升在复杂查询中的准确性和效率。该方法解决了现有搜索系统在长尾、多步推理任务中的局限性，为信息检索和问答系统提供了新范式。实验表明，GrepSeek 在多个基准测试上优于传统检索增强生成（RAG）方法。

论文搜索智能体强化学习语料库交互信息检索 GrepSeek

推荐理由：做搜索或问答系统的开发者值得关注——GrepSeek 让 AI 学会自己翻语料库，比 RAG 更灵活，建议看看它怎么绕过传统检索瓶颈。

原文

5月30日

16:47

Stanford AI Lab@StanfordAILab

精选

斯坦福SAIL与ETH合作研究表明，在极难任务中，使用丰富反馈的强化学习（RL）显著优于传统标量奖励方法。该研究通过对比实验，验证了多维度反馈信号能更有效地引导智能体学习复杂策略。这一发现对AI训练范式有重要启示，尤其适用于需要精细控制的机器人、游戏AI等领域。研究团队已公开部分代码和实验细节，供社区复现和进一步探索。

论文强化学习反馈机制斯坦福SAIL ETH 复杂任务

推荐理由：这项研究为强化学习训练提供了新思路，做RL或机器人控制的开发者值得关注——丰富反馈可能成为突破复杂任务瓶颈的关键。

原文

16:45

Stanford AI Lab@StanfordAILab

斯坦福人工智能实验室（SAIL）发布博客文章，介绍其最新研究VAGEN。VAGEN是一个强化学习框架，旨在训练视觉语言模型（VLM）智能体通过明确的视觉状态推理来构建内部世界模型。该框架使智能体能够更好地理解环境动态，从而在复杂任务中做出更合理的决策。这一进展对于提升AI在机器人、自动驾驶等需要环境理解的领域中的表现具有重要意义。

论文强化学习 VLM智能体世界模型视觉推理斯坦福SAIL

推荐理由：VAGEN解决了VLM智能体在复杂环境中缺乏内部世界模型的问题，做机器人或自动驾驶研究的团队值得关注，它可能让AI的决策更接近人类推理。

原文

5月29日

10:24

Clement Delangue@ClementDelangue

精选72°

Hugging Face CEO Clément Delangue指出，当前大多数人在用强化学习训练智能体LLM时，存在一个静默的bug：单轮RL表现完美，但加入工具调用后，损失函数会无故飙升，最终出现形状不匹配错误。根本原因在于，每次解析模型输出以检测工具调用时，重新对更新后的对话进行token化，可能导致梯度落在模型从未实际采样的序列上，从而产生无用的梯度信号。修复方法很简单：永远不要重新编码已经解码的token，将采样的token保存在一个缓冲区中，避免重新渲染。团队已发布深度分析，包括对主流开源模型家族的审计，显示大多数聊天模板已支持该修复。

论文强化学习智能体 Token编码训练陷阱开源模型

推荐理由：做多轮RL训练智能体LLM的团队，这个静默bug可能正在破坏你的训练曲线，看完这篇分析能直接修复，省下大量调试时间。

原文

5月28日

23:48

AK@_akhaliq

该研究提出了一种名为 Agent Explorative Policy Optimization (AEPO) 的新方法，用于优化多模态智能体的推理策略。通过探索性策略优化，智能体能够在复杂多模态环境中更有效地进行推理和决策。实验表明，AEPO 在多个基准测试上显著提升了智能体的性能，尤其是在需要多步推理和跨模态理解的任务中。这项工作为构建更强大的多模态智能体提供了新的训练范式。

论文智能体多模态推理模型强化学习 AEPO

推荐理由：多模态智能体推理是当前 AI 的前沿方向，AEPO 为开发者提供了一种可落地的训练优化思路，做智能体或多模态应用的团队值得关注。

原文

22:05

Clement Delangue@ClementDelangue

精选83°

Hugging Face 科学团队在 TRL 库中实现了一种新的异步强化学习权重同步方法，将每次同步的带宽成本降低约 100 倍。核心洞察是：在 RL 步骤之间，约 99% 的 bf16 权重是比特相同的，只有极少部分发生变化。他们只将变化的元素编码为稀疏 safetensors 文件，通过 Hugging Face Bucket 传输，而不是传输整个权重文件。以 Qwen3-0.6B 为例，每次步骤的传输量从 1.2 GB 降至 20-35 MB。这意味着不再需要共享集群、RDMA、VPN 或跨云 NCCL，只需一个 GPU 和一个 Hugging Face 账号即可进行真正的分离式 RL 训练。

AI产品强化学习权重同步 Hugging Face TRL 分布式训练

推荐理由：做分布式 RL 训练的团队终于可以告别昂贵的带宽和复杂的基础设施——只需 HTTPS 和一个 Bucket，就能实现跨区域的推理集群同步，建议搞 RL 的开发者直接看原文。

原文

5月27日

20:19

berryxia@berryxia

MiniMax 在沉寂半年后，将去年 12 月开源的 M2 模型背后的设计思路、训练细节和系统架构整理成论文发布到 arXiv。社区已广泛采用其核心系统如 CISPO、Forge RL System 和 Self-Evolution。MiniMax 表示 M3 模型和 MSA 论文即将发布，此举旨在推动开源生态从单纯卷参数转向公开方法论。

AI模型开源/仓库强化学习 MiniMax M2 M3

推荐理由：MiniMax 把 M2 的完整训练路径摊开，做开源模型训练或强化学习的团队可以直接参考，少走半年弯路。M3 即将到来，值得关注其系统级突破。

原文

5月26日

23:01

rohanpaul_ai@rohanpaul_ai

76°

Meta、CMU 等机构发表新论文，提出 Self-Play SWE-RL 方法，让编码智能体通过自我制造和修复真实项目中的 bug 来训练自己，不再依赖人类编写的任务数据。该方法将学习单元从标注任务转变为可执行场景：一个模型版本在真实代码库中弱化测试、注入有意义的 bug 并留下测试工件，另一个版本则通过恢复测试行为来修复系统。在 SWE-bench Verified 上取得 +10.4 分、SWE-bench Pro 上 +7.8 分的提升，且评估仍使用自然语言问题，表明模型学到了比问题措辞更深层的东西。论文指出，编码智能体的下一个瓶颈可能不再是更多人类编写的任务，而是让智能体遭遇、创造、承受并从失败中学习的更多方式。

论文编码智能体自我对弈强化学习 Meta CMU

推荐理由：Self-Play SWE-RL 解决了编码智能体依赖人类标注数据的瓶颈，做 AI 编程助手或智能体训练的团队值得关注——它展示了智能体自我进化的新路径，看完会对训练数据来源有全新认识。

原文

5月22日

08:05

Latent.Space@latentspacepod

精选72°

Daytona 发布专为 AI 智能体设计的计算平台，提供 60 毫秒启动的沙箱环境，能在 75 秒内创建 5 万个独立实例，日均运行 85 万次。该平台从人类开发环境转向智能体沙箱，支持裸金属、有状态快照，并针对强化学习（RL）和评估（evals）工作负载优化。Daytona 认为 Kubernetes 在智能体规模下失效，AI 云应更像 Stripe 而非 AWS。CEO Ivan Burazin 解释了为何智能体需要可组合计算机，以及 RL 工作负载占比从 0% 增长到约 50% 的趋势。

AI产品智能体计算平台沙箱强化学习 Daytona

推荐理由：Daytona 解决了智能体大规模并发运行时的基础设施瓶颈，做 AI 智能体开发、RL 训练或大规模评估的团队可以直接用这个平台替代传统云方案，值得关注。

原文

5月21日

16:11

Fireworks AI@FireworksAI_HQ

76°

Cursor 团队没有通过提示工程优化 Composer 2.5，而是直接训练了模型。他们与 Fireworks 合作，在 Fireworks 上运行大规模强化学习（RL）滚动，同时进行生产推理。Fireworks 强调，到 2027 年，训练自己的模型是维持竞争护城河的唯一方式。这一做法展示了从提示工程到模型训练的转变趋势。

AI产品 Cursor Composer 2.5 强化学习模型训练 Fireworks

推荐理由：Cursor 用 RL 训练模型而非提示工程，给 AI 产品团队一个关键信号：2027 年后，训练自己的模型才是护城河。做 AI 应用开发的建议点开，看看他们怎么和 Fireworks 合作跑 RL 滚动。

原文

5月20日

02:40

François Chollet@fchollet

François Chollet 指出，大多数人类任务并非马尔可夫过程，即最优下一步不能仅由当前状态决定，而严重依赖于过去的轨迹、原始意图和上下文约束。他认为，一个无法以绝对保真度压缩和追踪其过去轨迹的智能体，其有用性可能只有能做到这一点的智能体的 20%。这一观点强调了记忆和历史追踪在构建真正有用的人工智能系统中的核心重要性。

论文智能体马尔可夫过程历史追踪 François Chollet 强化学习

推荐理由：做智能体或强化学习的开发者会意识到，当前很多模型忽略了历史轨迹的精确追踪，Chollet 的观点直指智能体实用性的关键瓶颈，值得深入思考。

原文

5月19日

14:19

Sualeh Asif@sualehasif996

72°

Cursor 团队宣布推出 Composer 2.5，这是其最强大的模型版本。该模型在强化学习（RL）方面取得显著进步，智能水平更高，能更好地处理长时间运行的任务，并更可靠地遵循复杂指令。为庆祝发布，未来一周内用户可享受双倍模型使用额度。团队正与 SpaceXAI 合作，计划在下一版本中进一步扩展模型规模和计算量。

AI产品 Cursor Composer 2.5 强化学习编程助手模型升级

推荐理由：Cursor 用户将直接受益于更强的代码生成和任务执行能力，尤其是处理复杂、长期项目时体验提升明显。建议立即体验双倍额度，感受 RL 优化带来的实际效果。

原文

10:41

shao__meng@shao__meng

83°

Cursor 发布了 Composer 2.5 模型，仍然基于 Kimi K2.5，但通过三项关键训练创新实现了显著提升：定向文本反馈强化学习解决了长任务中的信用分配难题；合成训练数据量是 Composer 2 的 25 倍，其中 feature deletion 方法让模型从代码库中重新实现被删除的特性；基础设施层使用 Muon 优化器和分布式正交化，1T 模型单步仅需 0.2 秒。同时，Cursor 与 SpaceXAI 合作，马斯克亲自发帖证实 Composer 2.5 已开始使用 Colossus 2 算力训练，并正在合作从零训练一个算力规模 10 倍以上的全新模型。Composer 2.5 重点改进了长任务持续推进、复杂指令遵循和协作交互自然度，并专门优化了沟通风格和投入度校准两个现有 benchmark 难以衡量的维度。

AI产品 Cursor Composer 2.5 Kimi K2.5 编程助手强化学习

推荐理由：Cursor 这次在长任务和指令遵循上的改进，对重度使用 AI 编程助手的开发者来说体感会很直接，尤其是沟通风格和投入度校准这两个软维度优化，建议用 Composer 2.5 的团队直接试试。

原文