全部 AI 动态 · AI 热点

5月21日

07:59

LangChain@LangChainAI

LangChain 的 Deep Agents 现已集成 Nebius Token Factory，允许用户在开源模型、专用端点、实时搜索和完全控制成本与数据的基础上运行智能体工作负载。该集成结合了 LangChain 已有的 Tavily 集成，为构建在 LangChain 上的团队提供了直接路径，以在生产级 AI 基础设施上运行智能体。用户现在可以更灵活地部署和管理智能体，同时保持对成本和数据的控制。

AI产品智能体 LangChain Nebius 开源模型生产级基础设施

推荐理由：做智能体开发的团队终于有了生产级基础设施的选项——Nebius 集成让你用开源模型跑智能体，还能控制成本和数据，建议 LangChain 用户直接试试。

原文

07:59

LangChain@LangChainAI

精选

LangChain 在开发长周期（100+ 轮交互）智能体评估和基准测试时，发现一个反直觉的结果：直接替换为开源模型并不能立即节省成本。两个关键因素影响了成本效益：模型推理效率和任务复杂度。该发现挑战了业界普遍认为开源模型能直接降低成本的看法，为构建长周期智能体的团队提供了重要参考。

AI模型智能体评估开源模型成本 LangChain

推荐理由：做长周期智能体评估的团队会发现这个反直觉结论很有价值——开源模型未必省钱，建议点开看看具体哪两个因素在起作用。

原文

5月20日

07:10

Clement Delangue@ClementDelangue

精选

Cerebras 正在企业测试中运行 Kimi K2.6，这是一个万亿参数模型。据 Artificial Analysis 测量，其推理速度约为每秒1000个 token，是迄今最快的前沿模型性能。这反驳了此前认为开源大模型无法快速运行的质疑。

AI模型 Cerebras Kimi K2.6 推理速度开源模型

推荐理由：Cerebras 让万亿参数模型跑出千 token 每秒

原文

5月19日

20:59

Julien Chaumond@julien_c

llama.cpp 支持 MTP（多 token 预测），这是一种内置于模型中的推测解码，可将 token 生成速度提升约 2 倍。需要升级 llama.cpp 到 build 9200 以上（可使用 brew install --HEAD）。可选 Dense 27B 或 35B A3B MoE 模型，前者在 48-64GB 内存下约 30 tok/s，后者可达约 100 tok/s。运行命令为 llama-server 加上 --spec-type draft-mtp 参数。

技巧 llama.cpp MTP Qwen3.6 推理模型开源模型

推荐理由：教你用 Qwen3.6 跑出 2 倍速推理

原文

13:17

Clement Delangue@ClementDelangue

HuggingFace CEO Clement Delangue 在Dell Technologies World主题演讲中宣布，与Dell合作推动基于HuggingFace开源模型的本地AI部署。他认为，本地AI相比云API更便宜、更快、更安全，是应对今年GPU短缺的重要方案。该合作旨在让企业能够更便捷地在本地运行开源模型，减少对云端GPU的依赖。

行业开源模型本地部署 GPU短缺 HuggingFace Dell

推荐理由：GPU短缺是今年AI部署的最大瓶颈之一，本地AI方案能直接帮企业省钱、提速、保安全，做企业AI落地的团队值得关注。

原文

5月18日

12:05

Paul Couvert@itsPaulAi

HiDream-O1-Image 是一款开源图像生成模型，在多数使用场景下表现出色，足以替代闭源替代品。它在照片级真实感、长文本渲染、图像编辑（添加/替换/移除元素）以及提示词遵循度方面均有优异表现。其 8B 变体在所有开源基线中领先，性能与 Nano Banana 相当，而 200B 版本则达到当前最优水平。该模型为开发者提供了高性价比的闭源替代选择。

AI模型图像生成开源模型 HiDream-O1-Image 照片级真实感图像编辑

推荐理由：做图像生成和编辑的开发者终于有了一个能打的开源模型——HiDream-O1-Image 在多数场景下可替代闭源方案，8B 版本性能媲美 Nano Banana，建议直接上手试试。

原文

11:43

Yann LeCun@ylecun

Yann LeCun 转发了一篇关于西方开源AI危机的长文，指出如果美国不尽快出现一个可信的开源前沿模型玩家，到2030年中国开源模型将成为全球默认选择。文章警告，美国若以国家安全为由限制中国开源模型，最终只会让自己陷入技术孤立，而欧洲、非洲、东南亚等60亿人口将采用中国开源AI栈。LeCun 认为 Project Tapestry 是解决方案，该项目旨在构建开放、可自托管的AI基础设施。

行业开源模型地缘政治 Project Tapestry Yann LeCun AI生态

推荐理由：LeCun 把地缘政治与AI开源生态的博弈摊开了，做AI基础设施、关注开源模型命运的团队值得一读——这决定了未来十年你用谁的模型。

原文

5月16日

22:40

Guillermo Rauch@rauchg

Vercel 的 AI Gateway 数据展示了真实生产环境中 AI 和 Agent 的使用情况。Google 在生产规模上占据主导地位，Anthropic 在编程和支出方面领先，OpenAI 自 5.4 以来增长迅速，开源模型也在持续增长。数据表明 AI 竞赛比表面看起来更加动态和流动。

行业 AI Gateway 生产环境 Google Anthropic OpenAI 开源模型

推荐理由：做 AI 应用和 Agent 开发的团队可以看看真实的生产数据——Google 的规模、Anthropic 的编程优势、OpenAI 的增速，帮你判断该押注哪个平台。

原文

19:14

AI Engineer@aiDotEngineer

精选73°

开源模型 GLM 5.1 在 Artificial Analysis 智能指数上超越闭源模型，差距持续缩小。权重开放意味着可以在不离开基础设施的情况下进行量化、微调和边缘部署。Hugging Face 生态已为智能体工作构建：推理提供商支持工具路由、按 SWE bench 分数过滤的基准数据集、存储智能体会话的追踪仓库类型，以及可插入编码智能体的技能。现场演示中，Claude Code 被要求微调一个视觉语言模型，智能体自动计算 VRAM 需求、选择实例并启动任务，将过去需要一天的手工计算变为一个提示。

AI模型 GLM 5.1 开源模型智能体 Hugging Face 微调

推荐理由：开源模型首次在权威指数上超越闭源模型，做模型部署和微调的团队可以直接利用权重优势，而 Hugging Face 的智能体生态让训练任务自动化成为现实——建议点开看 Claude Code 如何一键微调模型。

原文

14:56

Ate-a-Pi@svpino

开发者 Santiago 表示首次感到开源权重模型不可忽视，MiniMax-M2.7 以 230B 参数在 SambaNova 上实现 440+ tokens/s 的极速推理。该模型在 SWE-Pro 上得分 56.22%，Terminal Bench 2 得分 57.0%，SWE Multilingual 得分 76.5%，性能接近 Opus 4.6 和 GPT-5.4 级别。使用成本仅为专有模型的 5%，且完全开源。SambaNova 提供免费 playground 供测试。

AI模型开源模型 MiniMax-M2.7 推理速度 SambaNova 性能对比

推荐理由：开源模型首次在性能上追平顶级闭源模型，且推理速度和成本优势巨大，做 AI 应用开发或模型选型的团队值得立即体验。

原文

5月14日

15:02

xiaomimimo@XiaomiMiMo

73°

AI模型小米 MiMo-V2.5-Pro 开源模型排行榜编码能力

推荐理由：小米MiMo-V2.5-Pro在多个高难度榜单中超越众多闭源模型，做模型选型或关注开源生态的开发者值得关注——它证明了开源模型在核心智能和实际编码任务上已能媲美顶级闭源方案。

原文