03:05@koltregaskes@koltregaskes精选前沿模型成本上升、令牌使用量攀升以及近期禁令,使企业自建AI变得更加必要。通过下载Llama或Qwen等开源模型,使用LoRA在自有数据上微调,部署在自有基础设施,可一次性计算成本取代按席收费。Hugging Face和LoRA已降低技术门槛,关键在于管理层是否将其视为基础设施投资而非普通软件开支。行业LlamaQwenLoRAHugging Face微调推荐理由:前沿模型越来越贵还被禁,自己微调Llama或Qwen更可控,一次性投入省月费,数据也安全。原文
08:55Fireworks AI@FireworksAI_HQ精选Fireworks 宣布对 NVIDIA Nemotron 3 的强化学习微调功能上线,首批支持 Nemotron 3 Super 的 LoRA 微调。训练采用 GRPO 算法,可在一处平台完成训练和部署。计费方式改为按 GPU 小时而非按 token,解决了长多轮对话成本不可控的问题。AI产品Nemotron 3Fireworks微调RL训练GRPO6 个信源在谈推荐理由:Fireworks 刚上线了 Nemotron 3 的 RL 微调,按 GPU 小时计费不怕长对话烧钱,用 GRPO 训练一条龙搞定。原文
04:52LangChain@LangChainAILangChain与Fireworks AI合作,基于阿里巴巴Qwen模型微调了一个法官模型。该模型用于检测用户交互中的“感知错误”(Perceived Error)。具体微调方法和评估结果已在LangChain博客文章中发布。AI模型LangChainFireworks AIQwen微调感知错误推荐理由:LangChain和Fireworks用Qwen搞了个裁判模型,专门抓对话里的感知错误,挺实用的,去博客看具体数据吧。原文
04:51LangChain@LangChainAILangChain 与 FireworksAI 合作研究显示,微调后的阿里巴巴 Qwen 模型在所有规模上性能优于原版模型。与使用顶级前沿模型相比,微调模型在规模运行时可降低 10-100 倍成本,具体取决于追踪数量和模型选择。随着追踪量增长,微调模型的成本节约效果将更加显著。该结果基于对多个模型规模和基准的对比测试。AI模型QwenFireworksAI微调推理模型推荐理由:微调 Qwen 能跑赢大模型,还省 10-100 倍成本,适合大批量任务。原文
05:58Fireworks AI@FireworksAI_HQFireworks AI 宣布其平台现支持对开源编码模型 GLM 5.2 进行微调,涵盖 SFT、DPO 和 RL 三种方法。GLM 5.2 在多个编码基准上表现强势,但 Fireworks 指出排行榜赢家未必适合你的代码库,微调可缩小差距。训练后的模型可直接在同一生产栈上提供服务,无需切换或迁移。早期客户反馈热烈,目前开放私测申请。AI产品GLM 5.2FireworksSFTDPO微调推荐理由:想用最强开源编码模型但通用版不顺手?Fireworks 让你微调 GLM 5.2,SFT/DPO/RL 全包,训练完直接上线,不用折腾。原文
22:09LangChain@LangChainAI精选76°LangChain与Fireworks AI合作,微调阿里Qwen模型构建了trace judge,用于检测生产trace中的“感知错误”。该judge在性能上匹敌或超越前沿模型,同时运行成本降低100倍。相关研究成果已发表在LangChain Labs博客。AI产品LangChainFireworks AIQwen微调AI评估推荐理由:LangChain搞了个低成本trace judge,用阿里Qwen微调,性能不输顶级模型还便宜100倍,做trace监控的可以看看。原文
12:52Ate-a-Pi@svpino精选作者指出现有基准往往在部署后失效,因为真实用户会使用你未测试过的表述。解决方案是分析推理日志和追踪,提取真实提示、响应、拒绝和格式错误。Nebius在Token Factory内推出Data Lab工作区,可将失败案例转化为评估和微调数据集。推荐循环:读日志→找失败→建数据集→评估→微调→部署→重复。技巧NebiusData LabToken Factory模型评估微调推荐理由:Nebius 出了个 Data Lab,能帮你从日志里挖出模型翻车的真实案例,直接做成数据集来微调和评估,比啥基准都管用。原文
08:51Sakana AI@SakanaAILabsSakana AI 研究科学家 Rujikorn (Tan) Charakorn 在 MLCollective 的 DLCT 期刊俱乐部上介绍了 Doc-to-LoRA 方法。该方法利用超网络生成 LoRA 权重,通过成本分摊降低计算开销。演讲还讨论了 Doc-to-LoRA 的未来方向,并引发了热烈讨论。论文Sakana AIDoc-to-LoRALoRA微调超网络推荐理由:Sakana AI 介绍了 Doc-to-LoRA,用超网络一键生成 LoRA 权重,微调更省钱。原文
23:57Thomas Wolf@Thom_Wolf开源模型生态欢迎新手尝试Opus 4.8级别的模型。GLM-5.2是ZAI org发布的开放权重模型,可通过Hugging Face页面使用。多个供应商竞争价格,智能体价格便宜。模型可本地运行、微调并构建商业应用,无需许可。HuggingChat提供免费聊天界面。AI模型GLM-5.2Hugging Face开源模型本地部署微调推荐理由:GLM-5.2达到Opus 4.8水平,免费、可本地跑、可微调,比闭源灵活还便宜,快试试!原文
03:58Sebastian Raschka@rasbt精选VibeCoder采用Qwen2.5-Coder-3B作为基座,通过一套后训练技术栈大幅提升性能。技术报告显示其包含高信号合成数据、多重推理路径、2阶段SFT(先广训再难长推理样本)、MGPO(MaxEnt-Guided Policy Optimization)强化学习等9个关键组件。训练顺序为Math RL→Code RL→STEM RL,并采用了单64k长上下文RL而非渐进扩展。最后通过奖励短正确轨迹来提升效率而不牺牲准确性。论文VibeCoderQwen2.5-Coder-3B推理模型强化学习微调推荐理由:Sebastian Raschka分析了VibeCoder的后训练秘诀,基于3B模型就取得惊人成绩,训练顺序和RL方法值得参考。原文
03:55LangChain@LangChainAILangChain测试显示,Alibaba Qwen基础模型配合良好提示在感知错误分类任务上性能接近前沿模型。使用LoRA SFT微调后,模型性能接近或超过前沿模型。实验表明微调能使开源模型与顶级闭源模型竞争。AI模型QwenAlibabaLoRA微调开源模型推荐理由:LangChain实测:Qwen基础版+好提示就能追平顶级模型,微调后甚至超越。开源模型潜力很大!原文
12:01宝玉@doteyAgent默认生成HTML结果,可在其内置浏览器中打开。用户暂停视频播放后,用鼠标标记要修改的具体位置。Agent会根据标记在对应区域进行修改,实现局部微调。该方法无需从头生成,节省时间且精准。技巧AgentHTML浏览器视频编辑微调推荐理由:想用Agent微调视频?在它生成的HTML里标记位置让它改,比重新生成省事多了。原文
09:34Fireworks AI@FireworksAI_HQKimi 2.7 现已完全在 Fireworks 上可训练,支持 SFT、DPO、RL 等训练方式。用户可以使用自己的数据微调模型,构建比前沿模型成本更低的护城河。Fireworks 提供托管点击或原始 API,支持大上下文和巨大 LoRA 秩。AI产品Kimi 2.7Fireworks微调模型训练推荐理由:Fireworks 让你拿 Kimi 2.7 自己训练,便宜还能干翻前沿模型,想定制模型的赶紧试试。原文
02:58Arthur Mensch@arthurmenschArthur Mensch宣布与全球公司和政府合作,使用Forge工具确保AI系统远离外部控制并提升效率。Forge基于记录的人机交互持续训练模型,每次模型发布都会迭代改进。该工具强调成本结构优化,通过高效训练实现可控性。AI产品Forge微调智能体AI安全推荐理由:Forge让你用真实人机交互数据持续微调模型,成本低、可控性高,适合企业和政府部署AI。原文
13:37elvis@omarsar0该推文建议当微调模型资源消耗过大时,改用验证器(verifiers)作为替代方案。同样,LLM-as-a-Judge系统也值得尝试。通过验证器可评估微调专用模型的价值,降低训练成本。技巧微调验证器LLM-as-a-Judge模型评估推荐理由:觉得微调太烧钱?试试验证器吧,还能顺带评估LLM-as-a-Judge的效果。原文
02:22Paul Couvert@itsPaulAiPaulAI在推文中强调AI不应被封闭组织垄断,建议使用闭源模型创建技能、工具、数据集和工作流,以改进本地模型。他指出本地AI模型现在易于使用且能力远超预期,可连接Codex、Claude Code等工具实现自动化。用户可根据需要微调这些模型。技巧开源模型本地模型CodexClaude Code微调推荐理由:教你用闭源模型养本地模型原文
13:15Physical Intelligence@physical_int精选Physical Intelligence 开发了一种强化学习(RL)方法,用于在数小时甚至数分钟内微调其模型以执行精确任务。该方法不训练整个模型,而是向最新模型 π-0.6 添加一个“RL token”输出,由小型 actor 和 critic 网络使用,通过 RL 快速学习。这大幅降低了模型微调的时间和计算成本,适用于机器人等需要快速适应新任务的场景。该技术有望加速 AI 在物理世界中的应用部署。AI模型强化学习微调π-0.6机器人Physical Intelligence推荐理由:Physical Intelligence 的 RL 微调方法解决了模型适应新任务耗时长的痛点,做机器人或物理 AI 的团队可以大幅缩短部署周期,值得关注。原文
12:05Allen AI (Ai2)@allen_ai精选Allen AI 宣布其机器人基础模型 MolmoAct 2 在不到一个月内被下载超过 40 万次。现在他们开源了完整的代码和训练数据,允许开发者进行微调或在此基础上构建。这标志着机器人领域的一个重要开放资源,降低了进入门槛。AI模型机器人开源/仓库基础模型微调Allen AI推荐理由:机器人开发者终于有了一个完全开源的基础模型可用,MolmoAct 2 的完整代码和数据让你可以直接微调或构建自己的机器人应用,值得立即尝试。原文
11:24小互@imxiaohu精选DiffusionGemma 模型支持微调,Unsloth 团队已成功演示通过微调让该模型学会解数独。这利用了双向注意力的优势,解决了自回归模型在全局约束任务上的天然短板。在特定垂直任务上,微调后的 DiffusionGemma 质量有望追上甚至超越自回归模型。这一进展为扩散模型在需要全局推理的领域打开了新可能。AI模型DiffusionGemma微调双向注意力数独Unsloth推荐理由:做垂直任务微调的开发者值得关注——DiffusionGemma 的双向注意力让数独这类全局约束问题有了新解法,建议试试在自家任务上微调对比效果。原文
03:42Fireworks AI@FireworksAI_HQ在微软 Build 大会上,Fireworks AI、Unsloth AI 和 CoreAuto AI 的专家讨论了从模型微调到生产推理之间的关键瓶颈。他们聚焦于模型定制权衡、服务基础设施决策以及大规模优化成本和延迟。这场讨论揭示了团队在将微调模型投入生产时常遇到的挑战,并提供了实用建议。对于正在构建或部署 AI 应用的团队,这是一次值得关注的经验分享。行业微调生产推理模型部署成本优化MSBuild推荐理由:微调模型上线难是很多团队的痛点,做模型部署或 AI 工程化的开发者可以听听一线专家的实战经验,直接避开常见坑。原文
10:20elvis@omarsar0精选受 Karpathy 关于 LLM 知识库的帖子启发,作者认为微调模型以优化智能体技能、记忆、上下文工程、路由效率和知识库将变得非常重要。这一方向可能改变 AI 系统的实用性和效率,尤其对构建复杂智能体的开发者有深远影响。作者还分享了一篇相关阅读链接,供进一步探讨。AI模型微调智能体知识库上下文工程路由效率推荐理由:Karpathy 的洞察点出了微调在智能体系统中的关键作用,做 AI 智能体开发的团队值得关注这一趋势,建议点开原文看看具体思路。原文
23:20Fireworks AI@FireworksAI_HQFireworks AI 宣布其托管微调服务现已支持阿里巴巴 Qwen 3.6 27B 模型。该服务提供 128K 和 256K 上下文长度支持,并内置 SFT 和 DPO 训练方法。Fireworks AI 强调其产品已准备好投入生产环境,旨在让更多开发者能够在 2026 年训练前沿模型。此举降低了微调大型语言模型的门槛,使更多 AI 开发者能够定制化训练模型。AI产品微调Qwen 3.6Fireworks AI托管服务SFT/DPO推荐理由:Qwen 3.6 27B 的托管微调服务让开发者无需自建基础设施即可定制模型,做垂直领域应用或私有化部署的团队可以直接用,省去大量工程成本。原文
23:00Fireworks AI@FireworksAI_HQFireworks AI 宣布其训练平台支持对 Gemma 4 Dense 模型进行全参数和 LoRA 强化学习微调,包括 SFT、DPO 或 RL 训练,支持 256K 上下文。这意味开发者可以不再依赖外部发布周期,自主微调模型以持续提升 Vibe Coding 体验。该平台旨在让周末编码的开发者能随时优化自己的模型,实现“持续改进的 vibe”。AI产品微调Gemma 4 Dense强化学习Vibe CodingFireworks AI推荐理由:做 Vibe Coding 的开发者终于可以自己掌控模型迭代节奏——Fireworks 让 Gemma 4 Dense 的微调变得触手可及,想摆脱“等别人发新版本”的团队可以直接上手试试。原文
19:14AI Engineer@aiDotEngineer精选73°开源模型 GLM 5.1 在 Artificial Analysis 智能指数上超越闭源模型,差距持续缩小。权重开放意味着可以在不离开基础设施的情况下进行量化、微调和边缘部署。Hugging Face 生态已为智能体工作构建:推理提供商支持工具路由、按 SWE bench 分数过滤的基准数据集、存储智能体会话的追踪仓库类型,以及可插入编码智能体的技能。现场演示中,Claude Code 被要求微调一个视觉语言模型,智能体自动计算 VRAM 需求、选择实例并启动任务,将过去需要一天的手工计算变为一个提示。AI模型GLM 5.1开源模型智能体Hugging Face微调推荐理由:开源模型首次在权威指数上超越闭源模型,做模型部署和微调的团队可以直接利用权重优势,而 Hugging Face 的智能体生态让训练任务自动化成为现实——建议点开看 Claude Code 如何一键微调模型。原文