15:27marktechpost@Asif Razzaq精选Prime Intellect 发布了 prime-rl 0.6.0,这是一个用于异步强化学习的开源框架,支持训练万亿参数规模的 Mixture-of-Experts (MoE) 模型。该框架在 SWE 编程任务上训练了 GLM-5 模型,序列长度达到 131k,单步训练时间低于 5 分钟,并实现了 256 个并行 rollout。所有这些性能建立在 28 个 NVIDIA H200 节点上,优化技术包括 FP8 推理、Wide Expert Parallelism、预填充/解码分离以及 3-D 并行(FSDP、EP、CP)。AI产品prime-rlGLM-5Prime Intellect强化学习MoE8 个信源在谈推荐理由:Prime Intellect 新开源的 prime-rl 0.6.0,专为训练万亿参数 MoE 模型的强化学习设计。他们在 SWE 任务上用 GLM-5 跑到 131k 序列长度,速度还很快,想了解大规模 RL 训练优化的可以看看。原文
18:27Decoder@Maximilian SchreinerOpenAI研究者发现,通过强化学习对诚实性、可修正性等理想行为特质进行训练,模型在跨领域表现提升。在健康数据上训练后,欺骗检测能力也增强,模型在53个基准中的44个上得分更高。该方法与Anthropic的基于宪法的对齐方法不同。研究显示少量特质训练即可带来广泛安全改善。论文OpenAIAI安全强化学习对齐基准测试10 个信源在谈推荐理由:OpenAI发现,只给模型一点点“诚实”训练,它就在53个测试里赢了44个,连健康领域的骗术都能识破。和Anthropic的路数不一样,挺有意思。原文
14:27marktechpost@Asif Razzaq精选UIUC与Chroma联合推出Harness-1,一个20B参数的检索子智能体,通过强化学习在状态搜索框架中训练。该框架维护候选池、重要性标记的精选集、证据图和验证记录,策略决定搜索、筛选、验证和停止时机。在8个基准测试中,Harness-1平均精选召回率达0.730,领先下一名开源子智能体11.4个百分点,仅次于Opus-4.6。模型权重和框架代码已开源。AI模型Harness-1检索子智能体强化学习状态搜索框架开源推荐理由:Harness-1用强化学习解决了检索子智能体的搜索策略优化问题,做信息检索或RAG系统的开发者可以直接用开源代码复现,效果接近闭源最强模型。原文
09:48pandaily@contact@pandaily.com (Pandaily)精选小红书(RED)研究团队提出Evolving-RL框架,通过强化学习让AI智能体在经验中自主进化技能,无需额外技能提取模块。该框架使智能体能够动态调整行为策略,适应新任务和环境变化,显著提升在复杂场景下的表现。这一方法为构建更灵活、自适应的AI系统提供了新思路,尤其适用于需要持续学习的应用场景。AI模型强化学习智能体技能进化小红书自适应系统推荐理由:做AI智能体开发的团队终于有了让模型自主进化的方案——Evolving-RL省去了手动设计技能模块的麻烦,做强化学习或自适应系统的开发者值得深入研究。原文
11:02IT之家(博客/媒体)精选72°图灵奖得主理查德·萨顿指出,普通生成式AI(如大语言模型)缺乏自我评估与持续筛选能力,因此难以完成真正的科学发现。他认为科学发现需要变异、评估和选择性保留三步,而生成式AI只擅长生成变体,缺少测试环节来筛选更好方案。萨顿列举AlphaGo、AlphaFold等系统作为正面案例,这些系统都有评估闭环。他还批评AI行业过度押注更大语言模型,更看好能与环境互动、从经验中学习的AI智能体。行业生成式AI科学发现强化学习评估闭环理查德·萨顿推荐理由:萨顿点出了生成式AI在科学发现上的根本局限,做AI研究和科学发现的团队值得反思:你的系统有评估闭环吗?原文
10:19marktechpost@Michal Sutter精选72°Trajectory 与 UC Berkeley Sky Lab 和 Anyscale 合作,构建了一个用于持续学习的并发多 LoRA 训练栈。该方案将每个强化学习实验映射到始终热运行的引擎上的专用 LoRA 适配器,相比单租户基线实现了 2.81 倍的端到端实验吞吐量提升,且无奖励回归。代码已在 NovaSky-AI/SkyRL 开源。这一进展解决了持续学习中多实验并行效率低下的问题,对强化学习研究和工程团队有直接价值。AI模型LoRA持续学习强化学习开源/仓库训练栈推荐理由:做强化学习持续训练的团队终于有了高效的并行方案——2.81 倍吞吐量提升且不损失奖励,直接开源可用,建议试试。原文
15:39pandaily@contact@pandaily.com (Pandaily)精选76°Sphere AI Lab 开源了 Orbit,一个强化学习后训练框架,支持在单个 8×B200 节点上对万亿参数模型(如 DeepSeek-V4)进行微调。该框架通过优化内存和计算效率,大幅降低了大规模模型训练的门槛,使得资源有限的团队也能进行高效的后训练。Orbit 的发布解决了万亿参数模型训练需要大规模集群的痛点,有望推动更多研究者和开发者参与大模型的后训练优化。AI模型开源/仓库强化学习后训练万亿参数DeepSeek-V4推荐理由:Orbit 让万亿参数模型的后训练不再依赖大规模集群,做 RL 微调或大模型优化的团队可以直接在单节点上跑 DeepSeek-V4,建议试试这个开源方案。原文
10:34IT之家(博客/媒体)精选76°英伟达研究团队发布开源框架 Polar,通过在不改动现有智能体框架(如 Codex、Claude Code、Qwen Code)的前提下接入 GRPO 强化学习训练,大幅提升代码智能体在 SWE-Bench 上的表现。Polar 将智能体与模型的接口作为训练边界,而非重写执行框架,从而保留原生工具调用和上下文组织能力。实验显示,基于 Qwen3.5-4B 模型,Codex 的 pass@1 分数从 3.8% 提升至 26.4%,涨幅达 594.74%。同时,Polar 通过 prefix_merging 等技术将训练效率提升约 5.39 倍,GPU 利用率从 20.4% 升至 87.7%。该框架解决了智能体强化学习从单步任务转向长流程任务时的接入难题,为代码仓库修改、浏览器操作等复杂场景提供了高效训练方案。AI产品英伟达PolarGRPO代码智能体强化学习1 个信源在谈推荐理由:做代码智能体训练的团队终于有了一个不用重写框架就能接入强化学习的方案——Polar 让 Codex 跑分暴涨近 6 倍,建议搞 AI 编程的开发者直接看论文和代码。原文
01:12marktechpost@Asif Razzaq76°NVIDIA 研究人员推出 Polar,一个 token 忠实展开框架,用于通过强化学习训练语言智能体,无需修改其智能体框架。Polar 在框架和推理服务器之间放置模型 API 代理,捕获 token 级交互并重建训练器就绪轨迹。基于 Qwen3.5-4B 基础模型使用 GRPO,Polar 在 Codex 框架下将 SWE-Bench Verified pass@1 提升 22.6 个百分点,在 Claude Code 下提升 4.8 个百分点,在 Pi 下提升 6.2 个百分点。该框架已注册为 NeMo Gym 环境,并在 ProRL Agent Server 仓库中发布。AI模型NVIDIAPolarGRPO代码智能体强化学习4 个信源在谈推荐理由:Polar 解决了 RL 训练智能体时需修改框架的痛点,做代码智能体或 RL 训练的开发者可以直接集成,无需改动现有工具链,值得一试。原文
21:23IT之家(博客/媒体)精选波士顿动力Atlas人形机器人通过观看世界杯历史视频学习足球动作,并进行复刻训练。机器人已完成搬运45公斤冰箱等重物技能,计划亮相2026世界杯。训练基于强化学习,在仿真环境中累计数百万小时。机器人动作从预设编程转向自适应工业作业模式。AI产品Atlas波士顿动力人形机器人世界杯强化学习推荐理由:Atlas学踢球,拟亮相世界杯原文
16:35marktechpost@Sana Hassan本文是一篇技术教程,详细介绍了如何使用 TuringEnterprises/Open-MM-RL 数据集构建完整的多模态强化学习与可验证奖励(RLVR)管线。教程涵盖数据集加载、模式检查、领域分析、问题长度与答案类型统计、图像分布可视化等预处理步骤。还构建了轻量级奖励函数,支持精确匹配与语义评分,并演示了 GRPO 导出流程。该管线为多模态推理任务提供了可复现的实践框架,适合研究者和开发者快速上手。论文多模态强化学习RLVRGRPOOpen-MM-RL推荐理由:多模态 RLVR 是当前强化学习与视觉语言结合的热点方向,这篇教程从数据集到奖励函数再到导出一步到位,做多模态推理或 RL 研究的团队可以直接照着搭,省去自己踩坑的时间。原文
15:30IT之家(博客/媒体)76°波士顿动力5月18日发布视频,展示其Atlas人形机器人通过AI驱动行为,成功将一台冰箱搬到桌子上。机器人利用强化学习模拟抬起重物,学会协调全身以负载重物,并准确平衡复杂接触点。视频中,Atlas用双手抬起冰箱,走到桌旁后上半身旋转180度,将冰箱平稳放置。官方表示,这是构建通用实体工作工具的重要一步,旨在提升真实环境下的性能和可靠性。该技术展示了身体智能在搬运重物中的关键作用,结合控制和感知能力,适应不同冰箱的位置、质量和抓力。AI产品人形机器人波士顿动力Atlas强化学习搬运推荐理由:波士顿动力让Atlas学会搬冰箱,解决了人形机器人搬运重物时平衡与适应性的难题,做机器人研发或自动化搬运的团队值得关注,看看强化学习如何让机器人学会“身体智能”。原文
13:55IT之家(博客/媒体)88°马斯克在推特上邀请用户测试 Cursor 最新 AI 模型 Composer 2.5,该模型基于月之暗面的 Kimi K2.5 训练,号称是 Cursor 最强模型。核心改进包括基于文本反馈的定向强化学习,能精准定位长任务中的错误步骤;合成任务规模扩大至 Composer 2 的 25 倍,并动态筛选更难任务。训练中使用了分片 Muon 与双网格 HSDP 等基础设施优化,单步耗时仅 0.2 秒。价格方面,标准版输入 0.50 美元/百万 token,输出 2.50 美元/百万 token;fast 版更贵但速度更快。AI产品CursorComposer 2.5Kimi K2.5强化学习编程助手10 个信源在谈推荐理由:Cursor 用户和 AI 编程重度依赖者值得关注——Composer 2.5 解决了长任务中错误定位的痛点,基于 Kimi K2.5 的强化学习让复杂指令执行更稳定,建议试试看能否提升你的编码效率。原文
11:46IT之家(博客/媒体)Momenta 宣布广汽昊铂 S600 全系搭载其 R6 强化学习大模型,集成于广汽星灵智行 ADiGO GSD 3.0 系统。该车全系标配激光雷达,支持城市和高速领航辅助驾驶,以及全场景智能泊车,包括记忆泊车和代客泊车。此外,车辆具备长时间未控制自主靠边功能,提升安全性。昊铂 S600 已开启预售,起售价 18.89 万元,定位新豪华智慧运动 SUV。AI产品Momenta强化学习智能驾驶广汽昊铂领航辅助推荐理由:Momenta 强化学习大模型首次量产上车,解决了城市复杂路况的领航难题,关注智能驾驶的消费者和行业从业者可以看看这款 18.89 万起的新车表现。原文
20:58IT之家(博客/媒体)特斯拉已推送 FSD V14.3.3(监督版)软件更新,版本号为 2026.14.6.6。此次更新重点优化了智能召唤功能(ASS),最高行驶速度从 6 英里/小时提升至 8 英里/小时(约 13 公里/小时),首批用户反馈在商超等人流密集场景中更实用。FSD 核心软件引入了升级的强化学习模块和视觉编码器,提升三维空间感知和决策逻辑。AI 编译程序被重写,系统反应速度提升 20%,同时优化了乘车舒适度,减少无故偏道和近距离跟车。该版本已在美国、加拿大推送,马斯克称体验极为出色。AI产品特斯拉FSD自动驾驶智能召唤强化学习推荐理由:特斯拉车主和自动驾驶爱好者值得关注——智能召唤速度提升让日常泊车更自然,FSD 核心性能优化也提升了驾驶体验,建议更新后试试。原文
13:03Greg Brockman Blog(博客/媒体)70°OpenAI 在 Benchmark 活动中首次展示了其 AI 系统 OpenAI Five,该系统在 Dota 游戏中与人类玩家对战。OpenAI Five 通过每天自我对弈 180 年的训练,掌握了复杂的团队协作和实时策略,而此前该系统仅适用于 1v1 模式。AI 系统由五个神经网络组成,其计算能力相当于蚂蚁大脑,但展示了从游戏中学习策略的潜力。OpenAI 强调 Dota 是训练 AI 的理想环境,涉及不完美信息和复杂组合,而类似技术已成功应用于机器人控制。随着 AI 计算能力每 3.5 个月翻一番,这类技术未来将更加普及。AI产品OpenAI FiveDota强化学习多智能体协作游戏AI2 个信源在谈推荐理由:该事件展示了强化学习在复杂博弈中的突破,OpenAI Five 从 1v1 扩展到 5v5 团队对抗,表明 AI 可迁移学习策略能力。对 AI 从业者而言,这验证了自我博弈训练范式的有效性,并为多智能体协作研究提供了基准。原文
13:03Greg Brockman Blog(博客/媒体)精选85°OpenAI Five在总决赛中首次公开击败Dota 2世界冠军OG,这是AI首次在现场比赛中战胜顶级电竞职业战队。该AI基于深度强化学习,经过10个月(相当于45000年游戏内时间)的自我对弈训练,形成了独特的创新玩法。尽管是AI首次与人类冠军公开较量,但OpenAI强调这一事件的核心是让公众直观感受AI技术的真实能力。该通用学习代码未来可应用于机器人控制、辅助系统等领域。AI产品AI里程碑强化学习游戏AIOpenAI FiveDota 22 个信源在谈推荐理由:此事件是强化学习在复杂策略游戏中的重大突破,证明了无人工编码的AI能够通过自我学习达到超人水平。它对AI通用性(代码不依赖特定游戏)和未来应用(如机器人交互)有深远启示。原文