全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

14:21

14:21

Fireworks AI@FireworksAI_HQ

Fireworks AI 与 LangChain 合作推出新方案，允许客户从应用 traces 中生成定制训练数据。该方案支持持续后训练（continuous post training），帮助企业利用自有数据建立数据护城河。研究由 LangChain Labs 与 Fireworks AI 联合开展，旨在降低 AI 定制门槛。

AI产品 FireworksAI LangChain 训练数据后训练数据护城河

推荐理由：Fireworks AI 和 LangChain 搞了个新路子：从你的 traces 里自动生成训练数据，然后持续后训练，让你真正掌控自己的 AI 和数据。

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

12:09

12:09

vLLM@vllm_project

精选

vLLM 项目宣布推出 vime，一个在 vLLM 生态中用于 LLM 后训练的强化学习框架。vime 基于 slime 的训练设计，并利用 vLLM 推理引擎，提供简单、稳定且高效的 RL 训练方案。该框架旨在与 NeMo RL、OpenRLHF、verl 等共存，为用户提供更多选择。vime 的推出丰富了 vLLM 后训练生态，推动互操作性和创新。

AI产品 vLLM RLHF 后训练强化学习开源/仓库

推荐理由：做 LLM 后训练的团队终于有了 vLLM 生态内的 RL 框架选择——vime 简单稳定，直接可用，想尝试不同 RL 框架的开发者值得关注。

04:04

04:04

Together AI@togethercompute

精选

Trajectory Labs 在 Together Compute 和 NVIDIA 的支持下，仅用不到 24 小时就在一个开放模型上实现了前沿模型级别的性能。这展示了当优秀开源模型与合适的训练基础设施结合时，可以快速取得显著成果。Together Compute 为此提供了算力支持，凸显了开放模型生态的潜力。

AI模型开放模型后训练算力基础设施 Together Compute NVIDIA

推荐理由：对于关注开源模型训练效率的团队，这个案例证明了 24 小时内就能让开放模型达到前沿水平，值得研究其训练流程。

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月30日

05:15

05:15

NVIDIA AI@NVIDIAAI

NVIDIA AI 宣布，Harvey 与 Trajectory Labs 合作，基于 NVIDIA Nemotron 3 Super 模型进行后训练，专注于复杂法律任务。他们在 Harvey 的 Legal Agent Benchmark（LAB）上测试了 1200+ 端到端法律任务，覆盖 24 个业务领域。初始结果显示，后训练的 Nemotron 3 Super 在性能上可媲美闭源前沿模型。该项目强调开放权重、可审计性和数据主权，支持持续学习（continual learning），使法律智能体能够从反馈中不断改进。这标志着开放模型在专业领域应用的重要突破。

AI模型 NVIDIA Nemotron 3 Super 法律 AI 后训练开放权重

推荐理由：法律 AI 团队终于有了可审计、可定制的开放模型选择——Nemotron 3 Super 在复杂法律任务上追平闭源模型，做法律科技或合规自动化的开发者可以直接关注这个开源方案。

5月28日

10:25

10:25

Lenny Rachitsky@lennysan

精选76°

Trajectory 是一家研究实验室兼产品公司，宣布获得 1500 万美元融资，投资方包括 Conviction、Bessemer Venture Partners 等。该公司正在构建持续学习平台，能够从产品使用数据中提取信号，让企业持续后训练大规模智能体模型，使其性能超越前沿模型。Trajectory 已与 Clay、Harvey、Decagon 等 AI 原生公司合作，部分已进入生产阶段。团队汇聚了来自 DeepMind、OpenAI、Apple、Meta 等机构的顶尖研究人员。

AI产品持续学习智能体后训练融资 Trajectory

推荐理由：持续学习是智能体落地的关键瓶颈，Trajectory 用产品使用数据后训练模型，做 AI 智能体的团队值得关注其技术路线。

5月26日

07:36

07:36

Y Combinator@ycombinator

BioStack 是一家初创公司，其平台能将真实的临床数据（如病历、实验室检测、笔记和长期结果）转化为医疗 AI 的后训练循环，包括数据、评估、奖励和基准测试。该平台通过模拟环境让 AI 模型在真实临床数据上练习，从而提升其准确性和可靠性。这一创新解决了医疗 AI 训练中数据稀缺和模拟环境不真实的问题。BioStack 已获得 Y Combinator 支持，并正式发布。

AI产品医疗 AI 模拟环境临床数据后训练 BioStack

推荐理由：医疗 AI 开发者终于有了一个能模拟真实临床数据流的训练环境——BioStack 把杂乱病历和长期结果变成可迭代的后训练循环，做医疗 AI 的团队可以直接用它来提升模型可靠性。

5月22日

13:25

13:25

Logan Kilpatrick@OfficialLoganK

88°

Google 的 Gemini 3.5 Flash 模型在 GDPval 基准测试中相比 3.1 Pro 取得了显著进步，性能已接近前沿水平。这表明后训练（post-training）技术仍在持续提升模型能力。该消息由开发者 Logan Kilpatrick 在 X 上分享，引发社区关注。Gemini 3.5 Flash 作为轻量级模型，其竞争力提升对开发者选择高效模型具有参考价值。

AI模型 Gemini 3.5 Flash GDPval 后训练基准测试模型进步

推荐理由：轻量模型逼近前沿，做推理或成本敏感应用的开发者值得关注——Flash 系列可能成为性价比新选择。

5月16日

21:49

21:49

向阳乔木@vista8

本文用简洁的图示对比了三种主流大语言模型后训练技术：SFT（监督微调）让模型学会遵循指令；DPO（直接偏好优化）使输出更符合人类偏好；GRPO（群体相对策略优化）进一步激发模型的推理和思考能力。三者在训练目标和方法上层层递进，是当前LLM对齐和增强推理能力的关键技术路径。对于想了解模型训练流程或优化模型输出的开发者，这是一份直观的入门参考。

AI模型 LLM 后训练 SFT DPO GRPO

推荐理由：想搞懂LLM后训练技术栈的开发者，这张图帮你三分钟理清SFT、DPO、GRPO的关系和演进逻辑，建议收藏。