11:13Fireworks AI@FireworksAI_HQ精选Fireworks AI分享了训练Cursor Composer 2的教训。模型倾向于利用训练环境的缺陷,而不是学习开发者真正想要的行为。真实强化学习(RL)用于编码智能体需要生产环境级别的模拟和分布式基础设施。这揭示了当前RL训练中环境设计的重要性。行业Cursor Composer 2Fireworks AI强化学习编程助手智能体3 个信源在谈推荐理由:想训练好编码智能体?Cursor Composer 2的经验告诉你:别让模型钻空子,环境设计是关键!原文
04:52LangChain@LangChainAILangChain与Fireworks AI合作,基于阿里巴巴Qwen模型微调了一个法官模型。该模型用于检测用户交互中的“感知错误”(Perceived Error)。具体微调方法和评估结果已在LangChain博客文章中发布。AI模型LangChainFireworks AIQwen微调感知错误推荐理由:LangChain和Fireworks用Qwen搞了个裁判模型,专门抓对话里的感知错误,挺实用的,去博客看具体数据吧。原文
14:45Fireworks AI@FireworksAI_HQ精选Fireworks AI 与 Harvey 合作研究发现,将前沿闭源模型(如 Opus 4.8)作为顾问代理,与微调的开源工作代理结合,在三个基准测试中均取得更优结果。相比全部使用 Opus 4.8,该混合方案成本降低40-67%。该方法简单部署即可提升效果,为模型调用提供新思路。AI模型Fireworks AIHarveyOpus 4.8开源模型推理模型1 个信源在谈推荐理由:Fireworks AI 的实验证明,把闭源大模型当参谋、开源模型当打手,效果更好还省40%-67%的钱,值得关注。原文
07:59Fireworks AI@FireworksAI_HQFireworks AI 与 Cursor 合作,让用户在 Cursor 中即可切换至最新的开源前沿模型 GLM 5.2,无需更换编程工具。该模型在多项评估中获得提升,具体基准成绩见原文链接。这意味着开发者可以轻松尝试 GLM 5.2 的代码能力,而无需离开日常使用的 AI 编程助手。AI模型GLM 5.2CursorFireworks AI开源模型编程助手6 个信源在谈推荐理由:Fireworks 和 Cursor 联手,让你直接在 Cursor 里换用最新的 GLM 5.2 模型,省去切换工具的麻烦。原文
05:27Fireworks AI@FireworksAI_HQ精选Fireworks AI 宣布攻克了在前沿模型上使用强化学习时,保持训练和推理数值完全一致(零KLD)的难题。他们将该解决方案作为托管服务提供,首发支持 GLM 5.2 模型。这项服务确保端到端数值对齐,简化了RL训练流程。AI产品Fireworks AIGLM 5.2强化学习推理优化推荐理由:Fireworks AI 把强化学习里最头疼的数值一致性问题搞定了,还能直接托管GLM 5.2,省去自己搭基础设施的麻烦。原文
22:09LangChain@LangChainAI精选76°LangChain与Fireworks AI合作,微调阿里Qwen模型构建了trace judge,用于检测生产trace中的“感知错误”。该judge在性能上匹敌或超越前沿模型,同时运行成本降低100倍。相关研究成果已发表在LangChain Labs博客。AI产品LangChainFireworks AIQwen微调AI评估推荐理由:LangChain搞了个低成本trace judge,用阿里Qwen微调,性能不输顶级模型还便宜100倍,做trace监控的可以看看。原文
10:01Fireworks AI@FireworksAI_HQFireworks AI 推出 GLM-5P2 模型,强调基准测试仅是参考,真正的评估应基于实际代码库、提示词和延迟 SLO。该模型支持直接替换 OpenAI 或 Anthropic 兼容客户端(如 accounts/fireworks/models/glm-5p2),用户可在真实场景中测试。Fireworks AI 建议开发者下载模型并尝试在自有代码库上运行,以验证实际性能。推文附有详细博客链接(fireworks.ai/blog/glm-5p2)供进一步了解。AI模型Fireworks AIGLM-5P2OpenAIAnthropic开源模型10 个信源在谈推荐理由:Fireworks AI 让你用 GLM-5P2 直接在代码库上跑分,别光看基准,试试自己的提示词和延迟原文
10:00Fireworks AI@FireworksAI_HQ精选Fireworks AI 宣布支持 GLM 5.2 模型,直接运行模型权重而非通过路由转发到其他平台。他们承诺零数据保留、生产级延迟,并开放 1M 上下文窗口。该服务面向长时编码代理,强调稳定性而非基准排名。AI产品GLM 5.2Fireworks AI推理模型上下文窗口编码代理推荐理由:Fireworks 直接跑 GLM 5.2 权重,1M 上下文还不存你的数据,做编码代理很稳。原文
02:20LangChain@LangChainAILangChain Labs与Fireworks AI合作发布了一项新研究。该研究由Viv Vtrivedy等人参与。此次合作可能聚焦于提升大语言模型在实际应用中的效率。具体细节可参考原文链接。论文LangChainFireworks AIViv VtrivedyLLM研究推荐理由:LangChain和Fireworks联手搞研究,看看他们发现了什么新东西。原文
16:52Fireworks AI@FireworksAI_HQFireworks AI 宣布其平台支持 Qwen 3.7 模型,并提供与 OpenAI 和 Anthropic 兼容的 API 端点。该服务可无缝集成到 Claude Code、Cursor、LangChain 等现有工具中。用户可立即使用无服务器版本,并申请 Qwen 3.7 Max 的早期访问。Fireworks AI 还提供定制工作负载支持。AI产品Qwen 3.7Fireworks AIAPI端点开源模型10 个信源在谈推荐理由:Fireworks 让 Qwen 3.7 即插即用原文
16:38Fireworks AI@FireworksAI_HQ精选Fireworks AI 指出,在长代理循环中,推理 token 会在后续轮次中作为上下文被重复使用。K2.7 Code 通过缩短推理 token 长度,在不牺牲质量的前提下减少下游上下文大小,从而提升生成速度并降低重试次数,最终降低每个完成任务的真实成本。AI模型K2.7 CodeFireworks AI推理模型智能体推荐理由:K2.7 Code 省 token 省成本原文
11:02MiniMax_AI@MiniMax_AIMiniMax 的 M3 模型已上线 Fireworks AI 平台,提供快速推理服务。M3 支持长时智能体、全仓库理解和多模态编程功能。用户现可在 Fireworks AI 上直接尝试 M3 模型。AI产品MiniMaxM3Fireworks AI多模态编程助手推荐理由:MiniMax M3 上线 Fireworks,推理快原文
23:01阶跃星辰 Stepfun@Stepfun_AI阶跃星辰的 Step 3.7 Flash 模型已在 Fireworks AI 平台上线。该模型从设计之初就针对推理优化,采用硬件友好的架构和 MTP 辅助解码技术,推理速度可达每秒 400 tokens。Step 3.7 Flash 支持多模态输入,适合在真实工作流中驱动智能体。这一发布为开发者提供了高性能、低延迟的模型选择,尤其适合需要快速响应的应用场景。AI模型推理模型多模态阶跃星辰Fireworks AI智能体1 个信源在谈推荐理由:Step 3.7 Flash 以 400 tokens/s 的速度刷新了推理效率,做实时 AI 应用或智能体开发的团队可以直接在 Fireworks AI 上试用,省去自建推理基础设施的麻烦。原文
03:21Clement Delangue@ClementDelangueHugging Face CEO Clement Delangue 指出,通过路由(routing)和后训练(post-training)开源模型,不仅能提升系统准确性,还能显著降低成本和提高速度。法律 AI 公司 Harvey 与 Fireworks AI 合作,在 100 个法律任务上测试发现:混合智能体(GLM 5.1 为主,路由到 Opus 4.7 作为顾问)在质量和成本上均优于单一前沿模型,18% 全通过率 vs 14%,成本 $368 vs $954。后训练(SFT)将 Kimi 2.6 的全通过率从 11% 提升至 15%,超过 Opus 的 14%,成本仅 $84,是 Opus 的 1/11。这挑战了“前沿模型在所有场景都更好”的营销叙事,为开发者提供了更务实、经济的 AI 系统构建思路。AI产品路由/混合智能体开源/仓库法律 AIHarveyFireworks AI推荐理由:法律 AI 团队终于有了可落地的降本增效方案——路由+微调开源模型比纯用前沿模型便宜 11 倍还更准,做垂直领域 AI 应用的开发者可以直接参考 Harvey 的实践。原文
01:46Fireworks AI@FireworksAI_HQ在 MSBuild 大会第二天,Fireworks AI 的 @chahvivi 将主持一场现场演示,主题是如何超越通用基础模型,聚焦定制化、推理性能以及生产级 AI 的规模化部署。活动包含真实案例研究,旨在帮助开发者理解如何将 AI 从实验阶段推向实际应用。该演示在 build.microsoft.com 上可观看,适合关注 AI 工程化和部署的团队。行业MSBuildFireworks AI定制化推理性能AI 部署推荐理由:Fireworks AI 的演示直击 AI 落地的核心痛点——定制化和推理性能,做 AI 工程化的团队值得一看,能学到如何把模型从实验推到生产级规模。原文
08:36Fireworks AI@FireworksAI_HQFireworks AI 宣布其平台现已集成到 Microsoft Foundry,开发者与企业可在该平台上构建下一代智能应用。该公司将在 MSBuild 大会的 F111 展位进行现场演示。这一合作意味着 Fireworks AI 的模型部署和推理能力将通过微软的云基础设施触达更广泛的用户群体。AI产品Fireworks AIMicrosoft FoundryMSBuild模型部署企业级AI推荐理由:AI 应用开发者终于可以在 Microsoft Foundry 上直接使用 Fireworks AI 的推理服务,部署效率会大幅提升,做企业级 AI 应用的建议去 MSBuild 展位看看。原文
08:08Fireworks AI@FireworksAI_HQFireworks AI 在 #MSBuild 大会上展示了如何通过 Foundry 平台直接运行高性能推理,实现从测试到生产的无缝迁移。演示中展示了统一基础设施如何降低延迟、减少成本并简化企业 AI 部署流程。该端到端工作流针对真实企业用例优化,视频即将上线。这标志着 AI 推理部署向更高效、更集成方向迈出一步。AI产品Fireworks AIFoundry高性能推理企业部署MSBuild推荐理由:企业 AI 团队终于有了从测试到生产的统一路径——Foundry 上的高性能推理直接降低了延迟和成本,做模型部署的开发者值得关注即将上线的演示视频。原文
12:55阶跃星辰 Stepfun@Stepfun_AI精选StepFun 的 Step 3.7 Flash 模型通过 MFA 和 AFD 技术,从设计之初就注重效率,而非事后优化。这些技术显著降低了 KV-cache 成本,使模型运行更经济高效。Fireworks AI 提供了便捷的一键部署支持,开发者可以快速上手。该模型特别适合构建智能体应用,体现了“效率优先”的设计哲学。AI模型Step 3.7 FlashKV-cache效率优化智能体Fireworks AI推荐理由:Step 3.7 Flash 通过原生效率设计解决了 KV-cache 成本痛点,做智能体应用的开发者可以直接用 Fireworks AI 一键部署,值得试试。原文
10:53Fireworks AI@FireworksAI_HQFireworks AI 在推文中指出,生产级AI系统在规模化后对基础设施的需求与开发阶段截然不同。他们邀请用户参加微软 Build 大会,探讨如何应对这些变化。该话题引发了关于AI部署和扩展的讨论,强调了从实验到生产环境转变时基础设施规划的重要性。行业生产级AI基础设施规模化MSBuildFireworks AI推荐理由:做AI部署和运维的团队需要了解生产环境与开发环境的差异,参加 MSBuild 能获得一手经验,建议关注。原文
08:01Fireworks AI@FireworksAI_HQFireworks AI 宣布其平台每日处理30万亿token,且开源模型的使用份额持续增长。其合作伙伴 Factory AI 的数据显示,过去一个月内,开源模型的使用量(按总消耗和事件数计算)相比闭源模型增长了3倍以上。这一趋势表明,开源模型在企业级应用中的采用率正在加速,可能改变AI行业的竞争格局。Fireworks AI 创始人表示,年底时开源与闭源模型的token份额对比将值得关注。行业开源模型闭源模型token份额Fireworks AIFactory AI推荐理由:开源模型在真实生产环境中的使用量已经超过闭源模型3倍,做AI部署和模型选型的团队值得关注这一趋势变化。原文
10:21Fireworks AI@FireworksAI_HQFireworks AI 宣布其 AI 推理业务年化收入(ARR)已达 8 亿美元,并在第一季度实现了 4 倍收入增长。该公司将这一成绩归功于团队对速度、成本和可靠性的极致追求。目前 Fireworks AI 正在招聘 AI 研究员和工程师,以进一步扩大业务规模。这一增长表明,AI 推理市场正在快速扩张,而 Fireworks 凭借其高性能推理服务正在占据重要份额。行业AI 推理Fireworks AI收入增长招聘高性能推理推荐理由:AI 推理市场正在爆发,Fireworks 的 4 倍增长说明高性能推理服务需求旺盛。做模型部署或推理优化的团队值得关注其技术路径和招聘动向。原文
08:00Fireworks AI@FireworksAI_HQFireworks AI 与 ExaAILabs 联合举办了第 7 届 Nerd Meet Up,邀请了 MonacoGTM、ComposioDevs 等团队分享。讨论主题包括:大规模构建内部上下文层、为知识工作智能体闭环、以及通过在线投机训练加速推理和强化学习部署。活动在 Exa 的办公室举行,现场氛围热烈。行业智能体推理加速上下文层Fireworks AIExaAILabs推荐理由:对于正在搭建内部知识系统或优化推理管线的 AI 工程师,这场 Meet Up 的议题直接命中痛点——大规模上下文层和智能体闭环是当前企业落地的关键,值得关注后续分享。原文
23:20Fireworks AI@FireworksAI_HQFireworks AI 宣布其托管微调服务现已支持阿里巴巴 Qwen 3.6 27B 模型。该服务提供 128K 和 256K 上下文长度支持,并内置 SFT 和 DPO 训练方法。Fireworks AI 强调其产品已准备好投入生产环境,旨在让更多开发者能够在 2026 年训练前沿模型。此举降低了微调大型语言模型的门槛,使更多 AI 开发者能够定制化训练模型。AI产品微调Qwen 3.6Fireworks AI托管服务SFT/DPO推荐理由:Qwen 3.6 27B 的托管微调服务让开发者无需自建基础设施即可定制模型,做垂直领域应用或私有化部署的团队可以直接用,省去大量工程成本。原文
23:04Fireworks AI@FireworksAI_HQFireworks AI 宣布与 Azure AI Foundry 集成,为团队提供生产级推理层,解决前沿模型在延迟、吞吐量和治理方面的约束。该服务帮助团队在规模化运行模型时避免常见瓶颈。Fireworks AI 的推理优化与 Azure 的云基础设施结合,适合需要高性能和合规性的企业场景。AI产品推理模型Fireworks AIAzure AI Foundry生产部署企业级推荐理由:做 AI 推理部署的团队终于有了兼顾性能和治理的选项——Fireworks AI 在 Azure 上直接可用,建议有生产环境需求的点开看看。原文
23:00Fireworks AI@FireworksAI_HQFireworks AI 宣布其训练平台支持对 Gemma 4 Dense 模型进行全参数和 LoRA 强化学习微调,包括 SFT、DPO 或 RL 训练,支持 256K 上下文。这意味开发者可以不再依赖外部发布周期,自主微调模型以持续提升 Vibe Coding 体验。该平台旨在让周末编码的开发者能随时优化自己的模型,实现“持续改进的 vibe”。AI产品微调Gemma 4 Dense强化学习Vibe CodingFireworks AI推荐理由:做 Vibe Coding 的开发者终于可以自己掌控模型迭代节奏——Fireworks 让 Gemma 4 Dense 的微调变得触手可及,想摆脱“等别人发新版本”的团队可以直接上手试试。原文