03:05@koltregaskes@koltregaskes精选前沿模型成本上升、令牌使用量攀升以及近期禁令,使企业自建AI变得更加必要。通过下载Llama或Qwen等开源模型,使用LoRA在自有数据上微调,部署在自有基础设施,可一次性计算成本取代按席收费。Hugging Face和LoRA已降低技术门槛,关键在于管理层是否将其视为基础设施投资而非普通软件开支。行业LlamaQwenLoRAHugging Face微调推荐理由:前沿模型越来越贵还被禁,自己微调Llama或Qwen更可控,一次性投入省月费,数据也安全。原文
11:39marktechpost@Sana Hassan精选本教程演示如何从Hugging Face流式加载NVIDIA Open-SWE-Traces数据集,无需本地下载即可在Google Colab中高效处理。内容涵盖多轮智能体对话标准化、代码补丁解析、构建包含轨迹长度、工具使用次数、补丁大小、语言分布及解决结果的分析DataFrame。最后基于成功标签、Token限制、语言过滤和补丁可用性筛选出监督微调子集。技巧NVIDIAOpen-SWE-TracesHugging Face微调编程助手5 个信源在谈推荐理由:想自己动手做代码智能体微调数据?这教程手把手教你解析NVIDIA开源的Open-SWE-Traces,连Token预算和工具使用指标都算好了。原文
08:55Fireworks AI@FireworksAI_HQ精选Fireworks 宣布对 NVIDIA Nemotron 3 的强化学习微调功能上线,首批支持 Nemotron 3 Super 的 LoRA 微调。训练采用 GRPO 算法,可在一处平台完成训练和部署。计费方式改为按 GPU 小时而非按 token,解决了长多轮对话成本不可控的问题。AI产品Nemotron 3Fireworks微调RL训练GRPO6 个信源在谈推荐理由:Fireworks 刚上线了 Nemotron 3 的 RL 微调,按 GPU 小时计费不怕长对话烧钱,用 GRPO 训练一条龙搞定。原文
00:51Hugging Face: Blog(博客/媒体)精选NVIDIA 发布 NeMo AutoModel,通过自动化模型并行、混合精度训练和梯度检查点,简化 Transformer 模型微调流程。该工具可自动检测硬件配置,支持多 GPU 分布式训练,无需手动调整参数。在微调 BERT-base 模型时,相比标准 PyTorch 实现,NeMo AutoModel 将训练时间缩短约 40%,并保持相同精度。技巧NVIDIANeMoAutoModelTransformer微调2 个信源在谈推荐理由:NVIDIA 搞了个 NeMo AutoModel,能自动帮你加速微调 Transformer 模型,省去手动调参的麻烦,速度还快很多,适合想快速出结果的人。原文
22:09LangChain@LangChainAI精选76°LangChain与Fireworks AI合作,微调阿里Qwen模型构建了trace judge,用于检测生产trace中的“感知错误”。该judge在性能上匹敌或超越前沿模型,同时运行成本降低100倍。相关研究成果已发表在LangChain Labs博客。AI产品LangChainFireworks AIQwen微调AI评估推荐理由:LangChain搞了个低成本trace judge,用阿里Qwen微调,性能不输顶级模型还便宜100倍,做trace监控的可以看看。原文
12:52Ate-a-Pi@svpino精选作者指出现有基准往往在部署后失效,因为真实用户会使用你未测试过的表述。解决方案是分析推理日志和追踪,提取真实提示、响应、拒绝和格式错误。Nebius在Token Factory内推出Data Lab工作区,可将失败案例转化为评估和微调数据集。推荐循环:读日志→找失败→建数据集→评估→微调→部署→重复。技巧NebiusData LabToken Factory模型评估微调推荐理由:Nebius 出了个 Data Lab,能帮你从日志里挖出模型翻车的真实案例,直接做成数据集来微调和评估,比啥基准都管用。原文
03:58Sebastian Raschka@rasbt精选VibeCoder采用Qwen2.5-Coder-3B作为基座,通过一套后训练技术栈大幅提升性能。技术报告显示其包含高信号合成数据、多重推理路径、2阶段SFT(先广训再难长推理样本)、MGPO(MaxEnt-Guided Policy Optimization)强化学习等9个关键组件。训练顺序为Math RL→Code RL→STEM RL,并采用了单64k长上下文RL而非渐进扩展。最后通过奖励短正确轨迹来提升效率而不牺牲准确性。论文VibeCoderQwen2.5-Coder-3B推理模型强化学习微调推荐理由:Sebastian Raschka分析了VibeCoder的后训练秘诀,基于3B模型就取得惊人成绩,训练顺序和RL方法值得参考。原文
13:15Physical Intelligence@physical_int精选Physical Intelligence 开发了一种强化学习(RL)方法,用于在数小时甚至数分钟内微调其模型以执行精确任务。该方法不训练整个模型,而是向最新模型 π-0.6 添加一个“RL token”输出,由小型 actor 和 critic 网络使用,通过 RL 快速学习。这大幅降低了模型微调的时间和计算成本,适用于机器人等需要快速适应新任务的场景。该技术有望加速 AI 在物理世界中的应用部署。AI模型强化学习微调π-0.6机器人Physical Intelligence推荐理由:Physical Intelligence 的 RL 微调方法解决了模型适应新任务耗时长的痛点,做机器人或物理 AI 的团队可以大幅缩短部署周期,值得关注。原文
12:05Allen AI (Ai2)@allen_ai精选Allen AI 宣布其机器人基础模型 MolmoAct 2 在不到一个月内被下载超过 40 万次。现在他们开源了完整的代码和训练数据,允许开发者进行微调或在此基础上构建。这标志着机器人领域的一个重要开放资源,降低了进入门槛。AI模型机器人开源/仓库基础模型微调Allen AI推荐理由:机器人开发者终于有了一个完全开源的基础模型可用,MolmoAct 2 的完整代码和数据让你可以直接微调或构建自己的机器人应用,值得立即尝试。原文
11:24小互@imxiaohu精选DiffusionGemma 模型支持微调,Unsloth 团队已成功演示通过微调让该模型学会解数独。这利用了双向注意力的优势,解决了自回归模型在全局约束任务上的天然短板。在特定垂直任务上,微调后的 DiffusionGemma 质量有望追上甚至超越自回归模型。这一进展为扩散模型在需要全局推理的领域打开了新可能。AI模型DiffusionGemma微调双向注意力数独Unsloth推荐理由:做垂直任务微调的开发者值得关注——DiffusionGemma 的双向注意力让数独这类全局约束问题有了新解法,建议试试在自家任务上微调对比效果。原文
09:07arXiv: DeepSeek@Wu Yuerong, Mingni Luo精选该研究将 DeepSeek-R1-8B 与 LoRA 和 NEFTune 结合,用于金融命名实体识别。通过将 1693 条标注句子转换为指令-输入-输出三元组,并插入轻量 LoRA 矩阵及在训练时添加均匀噪声,模型在七类实体上达到 0.912 的 micro-F1,超越 Llama3-8B、Qwen3-8B 等基线。这证明低成本微调开源模型即可在专业领域取得优异效果。论文DeepSeek-R1-8BLoRANEFTune金融 NER微调推荐理由:金融 NER 是结构化非结构化数据的关键,做金融 NLP 的团队可以直接用这套方法低成本提升实体识别精度,值得一试。原文
10:20elvis@omarsar0精选受 Karpathy 关于 LLM 知识库的帖子启发,作者认为微调模型以优化智能体技能、记忆、上下文工程、路由效率和知识库将变得非常重要。这一方向可能改变 AI 系统的实用性和效率,尤其对构建复杂智能体的开发者有深远影响。作者还分享了一篇相关阅读链接,供进一步探讨。AI模型微调智能体知识库上下文工程路由效率推荐理由:Karpathy 的洞察点出了微调在智能体系统中的关键作用,做 AI 智能体开发的团队值得关注这一趋势,建议点开原文看看具体思路。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……
12:00arXiv cs.LG@Zelin Li, Caiwen Ding精选72°研究发现,大语言模型的零阶(ZO)微调本质上是推理密集型负载,而非传统训练。现有实现将ZO算法运行在训练循环中,导致工作负载与运行时的不匹配。研究者通过将ZO微调的重复评分阶段部署在推理运行时(如vLLM)上,在OPT-13B模型上实现了8.13倍加速,且精度几乎无损。该方法在多个模型规模下获得2.34-7.72倍加速,并支持MeZO风格的高秩分解实验。这项工作为将轻量级适配作为推理类负载调度提供了实用路径。论文零阶优化微调推理优化vLLM大语言模型推荐理由:做LLM微调优化的团队终于可以省下GPU时间了——把ZO微调当推理跑,vLLM直接提速8倍,建议做低成本微调的人点开看看实现细节。原文
10:22arXiv cs.LG@Lukas Twist, Helen Yannakoudakis, Jie M. Zhang精选论文揭示了一个关键问题:推理模型在微调时,若使用不含推理痕迹的普通指令-回复数据,会导致“推理痕迹坍塌”——模型虽能给出看似合理的最终答案,但中间推理步骤的结构性有效性大幅下降。研究者提出了一个结构评估框架,将答案正确性与推理痕迹有效性分离,测量有效、空、缺失和截断的推理痕迹。实验发现,标准监督微调会迅速抑制有效推理痕迹,而仅看答案正确率会掩盖这一失败。论文还表明,简单的损失掩码策略可以显著缓解坍塌,无需教师生成的推理痕迹。论文推理模型微调推理痕迹坍塌评估框架损失掩码推荐理由:做推理模型微调的团队必须警惕:只看答案正确率会误判模型能力,这篇论文给出了评估和缓解方案,建议做模型对齐的开发者仔细阅读。原文
09:46arXiv cs.AI@Samuele Pasini, Jinhan Kim, Paolo Tonella精选研究者提出MIST方法,通过分析深度神经网络在微调过程中内部表征的谱变化来检测后门攻击。该方法将良性模型更新建模为预激活谱的回归问题,通过检测谱偏差识别恶意更新。在四个数据集和八种后门攻击的实验中,MIST在单次更新后即达到最先进的检测准确率,且无需了解中毒数据或触发器。该方法在多步良性演化下仍保持有效,性能退化可控。这表明谱演化信号为检测恶意模型更新提供了稳定且假设较少的方案。论文后门检测谱回归分析模型安全微调DNN推荐理由:安全团队和AI部署者终于有了一个无需先验知识就能检测模型后门的方法——MIST通过分析微调时的谱变化,在单次更新后即可识别恶意植入,比现有方法更早更准。做模型安全审计的开发者值得关注。原文
19:14AI Engineer@aiDotEngineer精选73°开源模型 GLM 5.1 在 Artificial Analysis 智能指数上超越闭源模型,差距持续缩小。权重开放意味着可以在不离开基础设施的情况下进行量化、微调和边缘部署。Hugging Face 生态已为智能体工作构建:推理提供商支持工具路由、按 SWE bench 分数过滤的基准数据集、存储智能体会话的追踪仓库类型,以及可插入编码智能体的技能。现场演示中,Claude Code 被要求微调一个视觉语言模型,智能体自动计算 VRAM 需求、选择实例并启动任务,将过去需要一天的手工计算变为一个提示。AI模型GLM 5.1开源模型智能体Hugging Face微调推荐理由:开源模型首次在权威指数上超越闭源模型,做模型部署和微调的团队可以直接利用权重优势,而 Hugging Face 的智能体生态让训练任务自动化成为现实——建议点开看 Claude Code 如何一键微调模型。原文
13:26arXiv cs.LG@Harry Mayne, Lev McKinney, Jan Dubiński, Adam Karvonen, James Chua, Owain Evans精选72°研究人员发现一种名为“否定忽视”的现象:当用标注为假的信息(如“Ed Sheeran赢得2024奥运百米金牌”)微调大模型时,模型反而会相信这些假信息为真。实验显示,在Qwen3.5-397B等模型上,微调后对假信息的相信率从2.5%飙升至88.6%,几乎与直接学习真信息的效果(92.4%)相当。即使每个提及假信息的句子前后都加上“这是假的”声明,模型仍会忽略否定。只有当否定直接嵌入句子(如“Ed Sheeran没有赢得金牌”)时,模型才能正确学习。该现象在Kimi K2.5、GPT-4.1等所有测试模型中都存在,并且不仅限于事实,还会影响模型行为——用标注为恶意的对话微调,模型可能学会这些恶意行为。研究认为这反映了模型倾向于将陈述内容视为真的归纳偏差,对AI安全有重要警示。论文否定忽视微调AI安全假信息归纳偏差推荐理由:这个发现戳穿了微调中“加否定声明就能纠正模型”的幻觉,做安全对齐或数据清洗的团队必须警惕——你的训练数据里那些“假新闻”可能正在反向教坏模型。建议所有做微调的人点开看看,避免踩坑。原文