Claude Fable 5 发布数日,社区已构建多个项目
Claude Fable 5 已发布数天,社区迅速基于该模型构建了多个项目。这些项目展示了 Fable 5 在创意、编程和交互方面的潜力。该模型因其强大的生成能力和灵活性受到开发者关注。目前已有 48 条评论、14 次转发和 280 个点赞,社区反响热烈。
Claude Fable 5 已发布数天,社区迅速基于该模型构建了多个项目。这些项目展示了 Fable 5 在创意、编程和交互方面的潜力。该模型因其强大的生成能力和灵活性受到开发者关注。目前已有 48 条评论、14 次转发和 280 个点赞,社区反响热烈。
MiniMax 团队发布了 MiniMax M3,这是一个支持文本、图像和视频推理的长上下文多模态模型。模型采用稀疏注意力机制,总参数量约 428B,激活参数仅约 23B,在保持高性能的同时大幅降低了计算成本。该模型已开源权重,可在 Hugging Face 获取,并可通过 NVIDIA 的 GPU 加速端点免费试用。M3 的长上下文能力使其在处理视频、长文档等场景中具有优势。
MiniMax AI 发布了新一代开源模型 MiniMax M3,具备前沿的编码和智能体能力,原生支持图像和视频输入、计算机使用功能,并拥有 100 万 token 的上下文窗口。其核心是 MSA(MiniMax Sparse Attention)稀疏注意力架构,通过仅对 top 128-token KV 块进行注意力计算,大幅降低了长上下文推理的计算成本。M3 已在 vLLM 中实现首日支持,可在 NVIDIA 和 AMD 硬件上运行,支持 BF16 和 MXFP8 检查点、MoE 后端、多模态输入、工具调用和推理控制。这一成果是 MiniMax、NVIDIA、AMD 和 vLLM 社区合作的结晶。
SGLang 宣布 Day-0 支持 MiniMax-M3,这是 MiniMax 推出的原生多模态 MoE 推理模型,总参数量约 428B(活跃参数约 23B),支持文本、图像和视频的融合处理。M3 采用 MiniMax 稀疏注意力机制,在 1M 上下文下相比 M2 实现 9 倍预填充和 15 倍解码加速,每 token 计算量降至 1/20。该模型在编码和协作任务上达到前沿智能体性能,并原生支持 NVIDIA Blackwell 和 AMD MI350X/MI355X 上的 MXFP8 格式。开发者可通过 SGLang 立即运行该模型。
Kimi 发布 K2.7-Code,一个专注于编程的智能体模型,基于 K2.6 构建。该模型采用 1T 参数的混合专家架构,每次推理仅激活 32B 参数,配备 MLA 注意力机制和 256K 上下文窗口。相比 K2.6,K2.7-Code 的思考 token 减少了约 30%,推理更高效。该模型已获 vLLM 支持,可直接复用 K2.6 的部署配置,降低了迁移成本。
月之暗面发布并开源了最新编程模型 Kimi-K2.7-Code,相比 K2.6 在 Kimi Code Bench v2 上提升 21.8%,在 Program Bench 上提升 11.0%,在 MLS Bench Lite 上提升 31.5%。该模型减少了过度思考,推理 token 使用量降低 30%,同时改进了长时编程任务中的指令遵循和成功率。模型已通过 Kimi API 和 Kimi Code 可用,即将推出 6 倍高速模式。
Kimi 开源了最新编码模型 K2.7-Code,基于 K2.6 针对编程 Agent 专项优化,重点提升长链路编码任务成功率并减少推理 token。在编码基准上全面进步,其中 Kimi Code Bench v2 提升 21.8%,MLS Bench Lite 提升 31.5%。Agent 方面,MCP Mark Verified 得分 81.1,超过 Opus 4.8 的 76.4,在多工具编排上具备竞争力。效率方面,推理 token 整体减少约 30%,Program Bench 的 token 消耗降低 42% 同时分数提升。模型支持强制 Thinking 模式、Preserve Thinking 和多模态输入,已在 Hugging Face 开源。
Replit CEO Amjad Masad 分享其 AI 编程实践:不再使用传统提示词工程,而是通过“循环”模式,用一句话表达目标,让编排器并行调用多个智能体(如安全、生产、SEO 智能体),再由计算机使用验证器提供反馈。他认为行业普遍落后于 Replit 当前实践 3-6 个月。这种模式将 AI 从单次对话升级为持续协作系统,显著提升开发效率。
Allen AI 发布了 olmo-eval,一个专为大型语言模型迭代开发设计的评估工作台。在训练 LLM 时,每次调整超参数或扩展模型规模,都需要重新进行基准测试,这个过程重复且耗时。olmo-eval 旨在简化这一循环,让开发者能更高效地评估模型变化。该工具面向模型开发团队,帮助他们快速迭代并验证模型性能。
OpenRouter 宣布本月为“成本削减月”,将每周至少推出一次重大功能更新,帮助用户降低推理成本。他们基于过去三年的数据发现,每次重大技术突破后,用户都会面临成本压力。首批策略包括多种优化方法,已在客户中广泛使用。这些措施旨在让开发者更经济地使用 AI 模型。
NousResearch 宣布 Hermes Agent 现已支持生产级 WhatsApp Business Cloud 集成。用户可将 Hermes 配置为私人 WhatsApp 机器人、团队协作工具或面向客户的客服支持。集成支持连接现有 WhatsApp Business Cloud 号码或通过 Meta Business Manager 创建新号码,运行 'hermes whatsapp-cloud' 命令即可通过引导式设置完成接入。功能包括安全 webhook、媒体/语音消息、已读回执、输入状态指示器和交互式审批按钮。这一更新让 Hermes Agent 从开发工具扩展为可直接落地的商业通信助手。
Vercel 在 AI SDK 中推出 HarnessAgent,这是一个统一抽象层,用于编排和集成任何智能体的“大脑”到应用中。它支持 Claude Code、Codex 和 Pi 等智能体框架,并提供沙箱会话和 AI SDK 兼容流。开发者可通过 npm i ai@canary 获取。该工具旨在消除模型和智能体锁定,提升开发体验。
CodeRabbit在App.js Conf、JS Nation和React Summit上做了一个实验:让开发者30秒内批准或拒绝一个PR,结果发现大量bug被放过。随后他们对参会开发者进行了调查,收集了关于实际代码审查习惯的反馈。结果显示,时间压力是导致审查质量下降的主要原因,许多开发者承认在快速审查中会忽略关键细节。这项调查揭示了当前代码审查流程中的常见痛点,为改进审查工具和流程提供了数据支持。
Meta CEO 扎克伯格在谈及非营利医学研究组织 Biohub 时表示,推动 AI 进步并不需要几百或几千名研究人员,一个由十几人或二十几人组成的强大团队就能取得进展。他认为,Biohub 结合前沿生物学与 AI 的独特使命,能吸引顶尖 AI 人才,因为其他地方难以提供类似的工作内容。扎克伯格对 Biohub 的目标更加乐观,认为 AI 进步可能使其比原计划更早完成使命。但他也承认,算力获取仍然是限制因素,全球实验室普遍面临算力不足的问题。
Anthropic 的 CEO Dario Amodei 在一次新采访中讨论了 Claude 在美国军事用途上的问题。他表示,在军事场景中使用 AI 可能会犯下“可怕”的错误。Amodei 强调,Anthropic 试图为模型使用设定限制和“红线”,即使这样做可能危及公司的未来。这反映了 AI 公司在军事应用上的伦理困境和风险平衡。
Google和OpenAI在数天内分别揭露了据称源自中国的AI欺诈和隐蔽影响力行动。Google首次与FBI联合起诉一个利用AI进行诈骗的网络,而OpenAI则封禁了试图影响美国政治辩论的PRC相关集群。这些行动表明,AI技术正被用于针对美国基础设施和政治辩论的复杂攻击,凸显了跨国合作在打击此类威胁中的重要性。
Agent's Last Exam 是一个全新的AI智能体基准测试,旨在评估智能体在复杂、多步骤任务中的表现。该测试由多个研究机构联合开发,包含一系列需要规划、工具使用和推理的挑战性任务。初步结果显示,当前最先进的模型在测试中得分较低,表明智能体能力仍有巨大提升空间。该基准的发布为AI智能体研究提供了更严格的评估标准。
在 AI 领域相对平静的一天,Loopcraft 概念被 Peter Steinberger、Boris Cherny 和 Andrej Karpathy 等人提出并强调。Loopcraft 指的是通过巧妙堆叠循环(如循环调用、迭代优化)来提升 AI 系统性能或解决复杂问题的方法。这一概念揭示了在 AI 编程和模型推理中,简单的循环结构可以带来显著的效率提升和结果改进。对于关注 AI 编程技巧和模型优化的开发者来说,这是一个值得深入理解的新思路。
Dan McAteer 分享了一种在 Claude Code 中高效使用 Claude Fable 的方法:将模型设置为 Fable 5,推理模式设为 Max,并让 Fable 作为编排者,Opus 负责推理重任务。这样能避免频繁触发使用限制,同时发挥各模型优势。该方法适用于需要复杂推理和长流程的自动化场景,能显著提升效率。