全部 AI 动态 · AI 热点

6月30日

03:05

@koltregaskes@koltregaskes

精选

前沿模型成本上升、令牌使用量攀升以及近期禁令，使企业自建AI变得更加必要。通过下载Llama或Qwen等开源模型，使用LoRA在自有数据上微调，部署在自有基础设施，可一次性计算成本取代按席收费。Hugging Face和LoRA已降低技术门槛，关键在于管理层是否将其视为基础设施投资而非普通软件开支。

行业 Llama Qwen LoRA Hugging Face 微调

推荐理由：前沿模型越来越贵还被禁，自己微调Llama或Qwen更可控，一次性投入省月费，数据也安全。

原文

6月26日

08:55

Fireworks AI@FireworksAI_HQ

精选

Fireworks 宣布对 NVIDIA Nemotron 3 的强化学习微调功能上线，首批支持 Nemotron 3 Super 的 LoRA 微调。训练采用 GRPO 算法，可在一处平台完成训练和部署。计费方式改为按 GPU 小时而非按 token，解决了长多轮对话成本不可控的问题。

AI产品 Nemotron 3 Fireworks 微调 RL训练 GRPO

推荐理由：Fireworks 刚上线了 Nemotron 3 的 RL 微调，按 GPU 小时计费不怕长对话烧钱，用 GRPO 训练一条龙搞定。

原文

04:52

LangChain@LangChainAI

LangChain与Fireworks AI合作，基于阿里巴巴Qwen模型微调了一个法官模型。该模型用于检测用户交互中的“感知错误”（Perceived Error）。具体微调方法和评估结果已在LangChain博客文章中发布。

AI模型 LangChain Fireworks AI Qwen 微调感知错误

推荐理由：LangChain和Fireworks用Qwen搞了个裁判模型，专门抓对话里的感知错误，挺实用的，去博客看具体数据吧。

原文

04:51

LangChain@LangChainAI

LangChain 与 FireworksAI 合作研究显示，微调后的阿里巴巴 Qwen 模型在所有规模上性能优于原版模型。与使用顶级前沿模型相比，微调模型在规模运行时可降低 10-100 倍成本，具体取决于追踪数量和模型选择。随着追踪量增长，微调模型的成本节约效果将更加显著。该结果基于对多个模型规模和基准的对比测试。

AI模型 Qwen FireworksAI 微调推理模型

推荐理由：微调 Qwen 能跑赢大模型，还省 10-100 倍成本，适合大批量任务。

原文

6月25日

05:58

Fireworks AI@FireworksAI_HQ

Fireworks AI 宣布其平台现支持对开源编码模型 GLM 5.2 进行微调，涵盖 SFT、DPO 和 RL 三种方法。GLM 5.2 在多个编码基准上表现强势，但 Fireworks 指出排行榜赢家未必适合你的代码库，微调可缩小差距。训练后的模型可直接在同一生产栈上提供服务，无需切换或迁移。早期客户反馈热烈，目前开放私测申请。

AI产品 GLM 5.2 Fireworks SFT DPO 微调

推荐理由：想用最强开源编码模型但通用版不顺手？Fireworks 让你微调 GLM 5.2，SFT/DPO/RL 全包，训练完直接上线，不用折腾。

原文

6月23日

22:09

LangChain@LangChainAI

精选76°

LangChain与Fireworks AI合作，微调阿里Qwen模型构建了trace judge，用于检测生产trace中的“感知错误”。该judge在性能上匹敌或超越前沿模型，同时运行成本降低100倍。相关研究成果已发表在LangChain Labs博客。

AI产品 LangChain Fireworks AI Qwen 微调 AI评估

推荐理由：LangChain搞了个低成本trace judge，用阿里Qwen微调，性能不输顶级模型还便宜100倍，做trace监控的可以看看。

原文

12:52

Ate-a-Pi@svpino

精选

作者指出现有基准往往在部署后失效，因为真实用户会使用你未测试过的表述。解决方案是分析推理日志和追踪，提取真实提示、响应、拒绝和格式错误。Nebius在Token Factory内推出Data Lab工作区，可将失败案例转化为评估和微调数据集。推荐循环：读日志→找失败→建数据集→评估→微调→部署→重复。

技巧 Nebius Data Lab Token Factory 模型评估微调

推荐理由：Nebius 出了个 Data Lab，能帮你从日志里挖出模型翻车的真实案例，直接做成数据集来微调和评估，比啥基准都管用。

原文

6月20日

08:51

Sakana AI@SakanaAILabs

Sakana AI 研究科学家 Rujikorn (Tan) Charakorn 在 MLCollective 的 DLCT 期刊俱乐部上介绍了 Doc-to-LoRA 方法。该方法利用超网络生成 LoRA 权重，通过成本分摊降低计算开销。演讲还讨论了 Doc-to-LoRA 的未来方向，并引发了热烈讨论。

论文 Sakana AI Doc-to-LoRA LoRA 微调超网络

推荐理由：Sakana AI 介绍了 Doc-to-LoRA，用超网络一键生成 LoRA 权重，微调更省钱。

原文

6月19日

23:57

Thomas Wolf@Thom_Wolf

开源模型生态欢迎新手尝试Opus 4.8级别的模型。GLM-5.2是ZAI org发布的开放权重模型，可通过Hugging Face页面使用。多个供应商竞争价格，智能体价格便宜。模型可本地运行、微调并构建商业应用，无需许可。HuggingChat提供免费聊天界面。

AI模型 GLM-5.2 Hugging Face 开源模型本地部署微调

推荐理由：GLM-5.2达到Opus 4.8水平，免费、可本地跑、可微调，比闭源灵活还便宜，快试试！

原文

6月18日

03:58

Sebastian Raschka@rasbt

精选

VibeCoder采用Qwen2.5-Coder-3B作为基座，通过一套后训练技术栈大幅提升性能。技术报告显示其包含高信号合成数据、多重推理路径、2阶段SFT（先广训再难长推理样本）、MGPO（MaxEnt-Guided Policy Optimization）强化学习等9个关键组件。训练顺序为Math RL→Code RL→STEM RL，并采用了单64k长上下文RL而非渐进扩展。最后通过奖励短正确轨迹来提升效率而不牺牲准确性。

论文 VibeCoder Qwen2.5-Coder-3B 推理模型强化学习微调

推荐理由：Sebastian Raschka分析了VibeCoder的后训练秘诀，基于3B模型就取得惊人成绩，训练顺序和RL方法值得参考。

原文

03:55

LangChain@LangChainAI

LangChain测试显示，Alibaba Qwen基础模型配合良好提示在感知错误分类任务上性能接近前沿模型。使用LoRA SFT微调后，模型性能接近或超过前沿模型。实验表明微调能使开源模型与顶级闭源模型竞争。

AI模型 Qwen Alibaba LoRA 微调开源模型

推荐理由：LangChain实测：Qwen基础版+好提示就能追平顶级模型，微调后甚至超越。开源模型潜力很大！

原文

6月17日

12:01

宝玉@dotey

Agent默认生成HTML结果，可在其内置浏览器中打开。用户暂停视频播放后，用鼠标标记要修改的具体位置。Agent会根据标记在对应区域进行修改，实现局部微调。该方法无需从头生成，节省时间且精准。

技巧 Agent HTML 浏览器视频编辑微调

推荐理由：想用Agent微调视频？在它生成的HTML里标记位置让它改，比重新生成省事多了。

原文

09:34

Fireworks AI@FireworksAI_HQ

Kimi 2.7 现已完全在 Fireworks 上可训练，支持 SFT、DPO、RL 等训练方式。用户可以使用自己的数据微调模型，构建比前沿模型成本更低的护城河。Fireworks 提供托管点击或原始 API，支持大上下文和巨大 LoRA 秩。

AI产品 Kimi 2.7 Fireworks 微调模型训练

推荐理由：Fireworks 让你拿 Kimi 2.7 自己训练，便宜还能干翻前沿模型，想定制模型的赶紧试试。

原文

02:58

Arthur Mensch@arthurmensch

Arthur Mensch宣布与全球公司和政府合作，使用Forge工具确保AI系统远离外部控制并提升效率。Forge基于记录的人机交互持续训练模型，每次模型发布都会迭代改进。该工具强调成本结构优化，通过高效训练实现可控性。

AI产品 Forge 微调智能体 AI安全

推荐理由：Forge让你用真实人机交互数据持续微调模型，成本低、可控性高，适合企业和政府部署AI。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

13:37

elvis@omarsar0

该推文建议当微调模型资源消耗过大时，改用验证器（verifiers）作为替代方案。同样，LLM-as-a-Judge系统也值得尝试。通过验证器可评估微调专用模型的价值，降低训练成本。

技巧微调验证器 LLM-as-a-Judge 模型评估

推荐理由：觉得微调太烧钱？试试验证器吧，还能顺带评估LLM-as-a-Judge的效果。

原文

6月14日

02:22

Paul Couvert@itsPaulAi

PaulAI在推文中强调AI不应被封闭组织垄断，建议使用闭源模型创建技能、工具、数据集和工作流，以改进本地模型。他指出本地AI模型现在易于使用且能力远超预期，可连接Codex、Claude Code等工具实现自动化。用户可根据需要微调这些模型。

技巧开源模型本地模型 Codex Claude Code 微调

推荐理由：教你用闭源模型养本地模型

原文

6月12日

13:15

Physical Intelligence@physical_int

精选

Physical Intelligence 开发了一种强化学习（RL）方法，用于在数小时甚至数分钟内微调其模型以执行精确任务。该方法不训练整个模型，而是向最新模型 π-0.6 添加一个“RL token”输出，由小型 actor 和 critic 网络使用，通过 RL 快速学习。这大幅降低了模型微调的时间和计算成本，适用于机器人等需要快速适应新任务的场景。该技术有望加速 AI 在物理世界中的应用部署。

AI模型强化学习微调 π-0.6 机器人 Physical Intelligence

推荐理由：Physical Intelligence 的 RL 微调方法解决了模型适应新任务耗时长的痛点，做机器人或物理 AI 的团队可以大幅缩短部署周期，值得关注。

原文

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

12:05

Allen AI (Ai2)@allen_ai

精选

Allen AI 宣布其机器人基础模型 MolmoAct 2 在不到一个月内被下载超过 40 万次。现在他们开源了完整的代码和训练数据，允许开发者进行微调或在此基础上构建。这标志着机器人领域的一个重要开放资源，降低了进入门槛。

AI模型机器人开源/仓库基础模型微调 Allen AI

推荐理由：机器人开发者终于有了一个完全开源的基础模型可用，MolmoAct 2 的完整代码和数据让你可以直接微调或构建自己的机器人应用，值得立即尝试。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

11:24

小互@imxiaohu

精选

DiffusionGemma 模型支持微调，Unsloth 团队已成功演示通过微调让该模型学会解数独。这利用了双向注意力的优势，解决了自回归模型在全局约束任务上的天然短板。在特定垂直任务上，微调后的 DiffusionGemma 质量有望追上甚至超越自回归模型。这一进展为扩散模型在需要全局推理的领域打开了新可能。

AI模型 DiffusionGemma 微调双向注意力数独 Unsloth

推荐理由：做垂直任务微调的开发者值得关注——DiffusionGemma 的双向注意力让数独这类全局约束问题有了新解法，建议试试在自家任务上微调对比效果。

原文

6月4日

03:42

Fireworks AI@FireworksAI_HQ

在微软 Build 大会上，Fireworks AI、Unsloth AI 和 CoreAuto AI 的专家讨论了从模型微调到生产推理之间的关键瓶颈。他们聚焦于模型定制权衡、服务基础设施决策以及大规模优化成本和延迟。这场讨论揭示了团队在将微调模型投入生产时常遇到的挑战，并提供了实用建议。对于正在构建或部署 AI 应用的团队，这是一次值得关注的经验分享。

行业微调生产推理模型部署成本优化 MSBuild

推荐理由：微调模型上线难是很多团队的痛点，做模型部署或 AI 工程化的开发者可以听听一线专家的实战经验，直接避开常见坑。

原文

6月2日

10:20

elvis@omarsar0

精选

受 Karpathy 关于 LLM 知识库的帖子启发，作者认为微调模型以优化智能体技能、记忆、上下文工程、路由效率和知识库将变得非常重要。这一方向可能改变 AI 系统的实用性和效率，尤其对构建复杂智能体的开发者有深远影响。作者还分享了一篇相关阅读链接，供进一步探讨。

AI模型微调智能体知识库上下文工程路由效率

推荐理由：Karpathy 的洞察点出了微调在智能体系统中的关键作用，做 AI 智能体开发的团队值得关注这一趋势，建议点开原文看看具体思路。

原文

5月16日

23:20

Fireworks AI@FireworksAI_HQ

Fireworks AI 宣布其托管微调服务现已支持阿里巴巴 Qwen 3.6 27B 模型。该服务提供 128K 和 256K 上下文长度支持，并内置 SFT 和 DPO 训练方法。Fireworks AI 强调其产品已准备好投入生产环境，旨在让更多开发者能够在 2026 年训练前沿模型。此举降低了微调大型语言模型的门槛，使更多 AI 开发者能够定制化训练模型。

AI产品微调 Qwen 3.6 Fireworks AI 托管服务 SFT/DPO

推荐理由：Qwen 3.6 27B 的托管微调服务让开发者无需自建基础设施即可定制模型，做垂直领域应用或私有化部署的团队可以直接用，省去大量工程成本。

原文

23:00

Fireworks AI@FireworksAI_HQ

Fireworks AI 宣布其训练平台支持对 Gemma 4 Dense 模型进行全参数和 LoRA 强化学习微调，包括 SFT、DPO 或 RL 训练，支持 256K 上下文。这意味开发者可以不再依赖外部发布周期，自主微调模型以持续提升 Vibe Coding 体验。该平台旨在让周末编码的开发者能随时优化自己的模型，实现“持续改进的 vibe”。

AI产品微调 Gemma 4 Dense 强化学习 Vibe Coding Fireworks AI

推荐理由：做 Vibe Coding 的开发者终于可以自己掌控模型迭代节奏——Fireworks 让 Gemma 4 Dense 的微调变得触手可及，想摆脱“等别人发新版本”的团队可以直接上手试试。

原文

19:14

AI Engineer@aiDotEngineer

精选73°

开源模型 GLM 5.1 在 Artificial Analysis 智能指数上超越闭源模型，差距持续缩小。权重开放意味着可以在不离开基础设施的情况下进行量化、微调和边缘部署。Hugging Face 生态已为智能体工作构建：推理提供商支持工具路由、按 SWE bench 分数过滤的基准数据集、存储智能体会话的追踪仓库类型，以及可插入编码智能体的技能。现场演示中，Claude Code 被要求微调一个视觉语言模型，智能体自动计算 VRAM 需求、选择实例并启动任务，将过去需要一天的手工计算变为一个提示。

AI模型 GLM 5.1 开源模型智能体 Hugging Face 微调

推荐理由：开源模型首次在权威指数上超越闭源模型，做模型部署和微调的团队可以直接利用权重优势，而 Hugging Face 的智能体生态让训练任务自动化成为现实——建议点开看 Claude Code 如何一键微调模型。

原文