14:21Fireworks AI@FireworksAI_HQFireworks AI 与 LangChain 合作推出新方案,允许客户从应用 traces 中生成定制训练数据。该方案支持持续后训练(continuous post training),帮助企业利用自有数据建立数据护城河。研究由 LangChain Labs 与 Fireworks AI 联合开展,旨在降低 AI 定制门槛。AI产品FireworksAILangChain训练数据后训练数据护城河推荐理由:Fireworks AI 和 LangChain 搞了个新路子:从你的 traces 里自动生成训练数据,然后持续后训练,让你真正掌控自己的 AI 和数据。原文
12:09vLLM@vllm_project精选vLLM 项目宣布推出 vime,一个在 vLLM 生态中用于 LLM 后训练的强化学习框架。vime 基于 slime 的训练设计,并利用 vLLM 推理引擎,提供简单、稳定且高效的 RL 训练方案。该框架旨在与 NeMo RL、OpenRLHF、verl 等共存,为用户提供更多选择。vime 的推出丰富了 vLLM 后训练生态,推动互操作性和创新。AI产品vLLMRLHF后训练强化学习开源/仓库推荐理由:做 LLM 后训练的团队终于有了 vLLM 生态内的 RL 框架选择——vime 简单稳定,直接可用,想尝试不同 RL 框架的开发者值得关注。原文
04:04Together AI@togethercompute精选Trajectory Labs 在 Together Compute 和 NVIDIA 的支持下,仅用不到 24 小时就在一个开放模型上实现了前沿模型级别的性能。这展示了当优秀开源模型与合适的训练基础设施结合时,可以快速取得显著成果。Together Compute 为此提供了算力支持,凸显了开放模型生态的潜力。AI模型开放模型后训练算力基础设施Together ComputeNVIDIA10 个信源在谈推荐理由:对于关注开源模型训练效率的团队,这个案例证明了 24 小时内就能让开放模型达到前沿水平,值得研究其训练流程。原文
05:15NVIDIA AI@NVIDIAAINVIDIA AI 宣布,Harvey 与 Trajectory Labs 合作,基于 NVIDIA Nemotron 3 Super 模型进行后训练,专注于复杂法律任务。他们在 Harvey 的 Legal Agent Benchmark(LAB)上测试了 1200+ 端到端法律任务,覆盖 24 个业务领域。初始结果显示,后训练的 Nemotron 3 Super 在性能上可媲美闭源前沿模型。该项目强调开放权重、可审计性和数据主权,支持持续学习(continual learning),使法律智能体能够从反馈中不断改进。这标志着开放模型在专业领域应用的重要突破。AI模型NVIDIANemotron 3 Super法律 AI后训练开放权重5 个信源在谈推荐理由:法律 AI 团队终于有了可审计、可定制的开放模型选择——Nemotron 3 Super 在复杂法律任务上追平闭源模型,做法律科技或合规自动化的开发者可以直接关注这个开源方案。原文
10:25Lenny Rachitsky@lennysan精选76°Trajectory 是一家研究实验室兼产品公司,宣布获得 1500 万美元融资,投资方包括 Conviction、Bessemer Venture Partners 等。该公司正在构建持续学习平台,能够从产品使用数据中提取信号,让企业持续后训练大规模智能体模型,使其性能超越前沿模型。Trajectory 已与 Clay、Harvey、Decagon 等 AI 原生公司合作,部分已进入生产阶段。团队汇聚了来自 DeepMind、OpenAI、Apple、Meta 等机构的顶尖研究人员。AI产品持续学习智能体后训练融资Trajectory10 个信源在谈推荐理由:持续学习是智能体落地的关键瓶颈,Trajectory 用产品使用数据后训练模型,做 AI 智能体的团队值得关注其技术路线。原文
07:36Y Combinator@ycombinatorBioStack 是一家初创公司,其平台能将真实的临床数据(如病历、实验室检测、笔记和长期结果)转化为医疗 AI 的后训练循环,包括数据、评估、奖励和基准测试。该平台通过模拟环境让 AI 模型在真实临床数据上练习,从而提升其准确性和可靠性。这一创新解决了医疗 AI 训练中数据稀缺和模拟环境不真实的问题。BioStack 已获得 Y Combinator 支持,并正式发布。AI产品医疗 AI模拟环境临床数据后训练BioStack推荐理由:医疗 AI 开发者终于有了一个能模拟真实临床数据流的训练环境——BioStack 把杂乱病历和长期结果变成可迭代的后训练循环,做医疗 AI 的团队可以直接用它来提升模型可靠性。原文
13:25Logan Kilpatrick@OfficialLoganK88°Google 的 Gemini 3.5 Flash 模型在 GDPval 基准测试中相比 3.1 Pro 取得了显著进步,性能已接近前沿水平。这表明后训练(post-training)技术仍在持续提升模型能力。该消息由开发者 Logan Kilpatrick 在 X 上分享,引发社区关注。Gemini 3.5 Flash 作为轻量级模型,其竞争力提升对开发者选择高效模型具有参考价值。AI模型Gemini 3.5 FlashGDPval后训练基准测试模型进步推荐理由:轻量模型逼近前沿,做推理或成本敏感应用的开发者值得关注——Flash 系列可能成为性价比新选择。原文
21:49向阳乔木@vista8本文用简洁的图示对比了三种主流大语言模型后训练技术:SFT(监督微调)让模型学会遵循指令;DPO(直接偏好优化)使输出更符合人类偏好;GRPO(群体相对策略优化)进一步激发模型的推理和思考能力。三者在训练目标和方法上层层递进,是当前LLM对齐和增强推理能力的关键技术路径。对于想了解模型训练流程或优化模型输出的开发者,这是一份直观的入门参考。AI模型LLM后训练SFTDPOGRPO推荐理由:想搞懂LLM后训练技术栈的开发者,这张图帮你三分钟理清SFT、DPO、GRPO的关系和演进逻辑,建议收藏。原文