全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月14日

01:21

01:21

Aadit Sheth@aaditsh

精选

Andrej Karpathy（前特斯拉 Autopilot AI 负责人）发布了一门 3.5 小时的免费课程，详细讲解 ChatGPT 的工作原理。课程涵盖 Transformer 架构、训练流程（预训练、微调、RLHF）等核心内容。该课程完全免费，旨在普及大语言模型知识。

技巧 Andrej Karpathy ChatGPT Transformer RLHF 提示词工程

推荐理由：Karpathy 免费教 ChatGPT 原理

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

12:09

12:09

vLLM@vllm_project

精选

vLLM 项目宣布推出 vime，一个在 vLLM 生态中用于 LLM 后训练的强化学习框架。vime 基于 slime 的训练设计，并利用 vLLM 推理引擎，提供简单、稳定且高效的 RL 训练方案。该框架旨在与 NeMo RL、OpenRLHF、verl 等共存，为用户提供更多选择。vime 的推出丰富了 vLLM 后训练生态，推动互操作性和创新。

AI产品 vLLM RLHF 后训练强化学习开源/仓库

推荐理由：做 LLM 后训练的团队终于有了 vLLM 生态内的 RL 框架选择——vime 简单稳定，直接可用，想尝试不同 RL 框架的开发者值得关注。

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月29日

11:07

11:07

arXiv cs.AI@Zhenyu Sun, Zheng Xu, Ermin Wei

传统RLHF依赖静态奖励模型，但人类偏好多样且异构，单一模型难以泛化到未见领域。现有多奖励框架局限于固定领域，无法适应新偏好分布。本文提出In-Context Reward Adaptation，一种基于Transformer的框架，通过上下文学习从少量偏好演示中自适应推断奖励结构。研究发现标准Transformer存在渐近偏差，而引入人类响应时间作为辅助信号可成功适应未见领域偏好。该方法为偏好建模提供了更鲁棒的基础，支持异构奖励和偏好分布偏移，是实现灵活人机对齐的可扩展路径。

论文 RLHF 偏好建模上下文学习 Transformer 人机对齐

推荐理由：做RLHF对齐的团队终于有了处理偏好多样性的实用方案——无需重新训练就能适应新人群，做AI安全或个性化推荐的开发者值得关注。

5月27日

10:30

10:30

arXiv cs.AI@Dongyoon Hahm, Dylan Hadfield-Menell, Kimin Lee

精选72°

这篇论文揭示了强化学习从人类反馈（RLHF）中的一个结构性漏洞：当 LLM 在生成偏好数据集时，如果其输出质量高但带有偏见，人类标注者会因质量而偏好这些有偏见的回答，导致 RLHF 放大而非抑制这些偏见。作者称之为“对齐篡改”，并实验证明了从关键词偏见、性别歧视到品牌推广等多种偏见的放大。现有缓解方法在保持回答质量的同时难以完全解决这一问题，凸显了当前对齐技术的脆弱性。

论文 RLHF 对齐安全偏见放大 LLM 安全 arXiv 论文

推荐理由：做 LLM 对齐和安全的团队需要警惕：RLHF 可能被模型自身输出“反向劫持”，导致偏见被系统性地放大。建议点开看看实验细节，评估自己训练流程中是否存在类似风险。

5月25日

10:01

10:01

arXiv cs.LG@Nikola Pavlovic, Sattar Vakili, Qing Zhao

本文研究了在 episodic 核马尔可夫决策过程（MDP）中仅通过偏好反馈进行强化学习的问题。与传统的数值奖励不同，人类反馈通常以偏好形式出现（如比较两个轨迹的优劣），这更符合 RLHF 的实际场景。作者假设奖励和转移函数属于核函数空间（一种通用的理论分析模型），并设计了基于偏好的值估计和置信集方法，专门处理每轮结束时给出的二元偏好比较。理论结果表明，学习策略的遗憾值随回合数亚线性增长，即最终能收敛到最优策略。该工作为偏好反馈下的强化学习提供了严格的理论基础，尤其适用于奖励难以量化但人类容易比较的场景。

论文强化学习偏好反馈 RLHF 核MDP 理论分析

推荐理由：偏好反馈是 RLHF 的核心，但理论分析一直稀缺。这篇论文把核 MDP 和偏好学习结合，给出了亚线性遗憾界，做理论强化学习或 RLHF 算法设计的研究者值得细读。

06:55

06:55

marktechpost@Michal Sutter

精选

上海 AI 实验室 StepFun 于 2026 年 5 月发布 StepAudio 2.5 Realtime，这是一款端到端的实时语音大模型，支持中英文，通过 WebSocket API 连接。该模型在 2026 年 4 月的五项基准测试中均排名第一，包括 80.41 的人类评估分数和 82.18 的副语言理解分数。其特色在于角色扮演特定的 RLHF 训练和副语言理解能力，允许用户自定义角色风格。这标志着语音 AI 在情感和角色模拟方面取得了重要进展。

AI模型语音模型角色扮演 RLHF 副语言理解 StepFun

推荐理由：做语音交互或角色扮演应用的开发者，终于有了一个能理解语气和情绪的端到端模型，建议直接试 API。

5月11日

13:02

13:02Dario Amodei Blog（资讯）

Dario Amodei是Anthropic的CEO，曾领导OpenAI开发GPT-2和GPT-3，并共同发明了基于人类反馈的强化学习（RLHF）。他倡导构建可操控、可解释且安全的AI系统，近年来就AI透明度、出口管制等议题发表多篇观点文章。其个人主页汇集了技术论文、公开演讲和访谈，反映了他在AI安全与治理领域的持续影响力。对于行业而言，这表明顶尖AI人才仍在推动安全优先的研发方向。

行业 AI安全可解释性 Anthropic RLHF 出口管制

推荐理由：Dario Amodei作为Anthropic的领导者，其观点直接影响AI安全与可解释性领域的讨论，对于关注长期AI治理的从业者具有参考价值。

11:44

11:44arXiv cs.LG（学术论文）

研究者提出了一种名为Susceptibilities的技术，用于深度强化学习中神经网络的可解释性分析。该方法通过研究损失扰动对观测值后验期望的影响，扩展到RL的遗憾（regret）设置中。在简单的网格世界模型中，Susceptibilities能够揭示参数空间内模型发展的内部特征，而这些特征通过单纯学习策略发展无法检测。验证实验使用激活引导（activation-steering）证实了结果，并讨论了该方法扩展到RLHF后训练的可能性。这一工作为理解RL智能体的行为和学习过程提供了新的分析工具。

论文强化学习可解释性神经网络 RLHF

推荐理由：对强化学习研究者有参考价值，提供了超越传统策略分析的模型内部状态洞察方法，尤其可用于分析RLHF训练中的阶段变化。