全部 AI 动态 · AI 热点

5月16日

23:43

Gary Marcus@GaryMarcus

Gary Marcus转发并重申其多年观点：Yann LeCun指出，当前大语言模型（LLM）缺乏世界模型，无法在行动前预测后果，因此无法构建可靠的智能体系统。LeCun认为，LLM只是“行动，然后后果是别人的问题”，这并非真正的智能。这一观点引发了对当前AI系统局限性的讨论，尤其对智能体开发方向具有重要警示意义。

AI模型 Yann LeCun 世界模型智能体 LLM局限 Gary Marcus

推荐理由：LeCun的批评直指当前LLM智能体的核心缺陷——缺乏因果推理能力，做智能体开发的团队值得认真思考这一根本性挑战。

原文

22:52

elvis@omarsar0

精选

一篇立场论文提出，智能体 AI 系统（而非更大的基础模型）是通往 AGI 最可行的路径。作者将“智能体”的贡献形式化为多个可分离的维度：记忆、推理、工具使用、自我改进和对齐。每个维度都有其独特的瓶颈（如长程连贯性、信用分配、安全审计），而这些瓶颈无法通过增加预训练算力来解决。论文认为，单纯扩大模型规模不足以克服这些挑战，智能体架构才是关键。

论文智能体 AGI 推理模型对齐论文

推荐理由：这篇论文为智能体 AI 的路线图提供了清晰的理论框架，做 AGI 研究或智能体开发的团队值得一读，能帮你理解为什么堆算力不是万能药。

原文

22:51

elvis@omarsar0

73°

一项研究发现，在编码智能体任务中，将 grep 风格的文本搜索嵌入合适的智能体框架，其效果可与基于嵌入的检索相媲美甚至更优。这提示我们，编码智能体真正需要的可能不是更好的嵌入，而是围绕原始工具设计更优的框架。如果你依赖向量数据库构建编码智能体，现在或许是重新评估的时候。论文指出，在规模场景下向量数据库仍有优势，但混合方法尚未成熟。

论文智能体检索增强编码助手向量数据库 grep

推荐理由：做编码智能体的开发者值得关注——grep 式搜索+好框架可能省掉向量数据库的复杂度和成本，建议点开论文看看实验细节。

原文

22:34

Y Combinator@ycombinator

Modern 公司正在构建一个 AI 原生的 IT 操作系统，通过安全智能体实现帮助台、访问管理、设备管理、安全以及员工入职/离职等流程的端到端自动化。该项目已获得 Y Combinator 支持并正式发布。其核心价值在于用 AI 替代传统 IT 运维中大量重复性人工操作，提升效率并降低安全风险。对于 IT 团队而言，这意味着更少的工单处理和更快的响应速度。

AI产品 AI 原生 IT 自动化智能体安全运维 Y Combinator

推荐理由：IT 运维团队终于有了 AI 原生的自动化方案——Modern 用安全智能体覆盖帮助台、权限、设备等全流程，省去大量重复工单处理，建议 IT 管理者点开看看。

原文

22:22

a16z@a16z

Salesforce 上月宣布开放 API 并推出无头产品，押注在智能体时代其价值在于数据层而非用户界面。a16z 的 Seema Amble 以此为契机，探讨了一个更关键的问题：当剥离 UI、暴露数据库后，企业还剩下什么？她分析了在智能体时代，软件公司的防御力将从界面转向数据、工作流和集成。文章为 SaaS 企业如何适应新范式提供了战略思考。

行业 Salesforce 智能体数据层 API SaaS

推荐理由：Salesforce 的转向是智能体时代软件架构变革的信号，做 SaaS 产品和企业级应用的团队值得关注——数据层成为新护城河，你的产品准备好了吗？

原文

22:22

a16z@a16z

a16z 合伙人 Seema Amble 发文指出，传统系统记录厂商正转向无头智能体架构，隐含押注数据层仍是价值来源。初创公司将在专有数据、行动层掌控、现实世界执行和面向技术买家等新维度展开竞争。下一代系统记录已开始具备智能体特性，能够捕获上下文、发起工作并记录数据副产品。文章分析了软件行业从记录系统到智能体系统的演变趋势。

行业智能体企业软件数据层无头架构 a16z

推荐理由：a16z 这篇分析点出了企业软件架构的拐点——数据层价值不变，但竞争维度已变。做 SaaS 或企业级产品的团队值得一读，能帮你判断该押注数据还是行动层。

原文

21:34

小互@imxiaohu

一个名为 OpenSquilla 的开源项目用 Python 重写了小龙虾（Crayfish）框架，实现了智能省钱和智能安全。它通过本地路由器将简单任务分配给便宜模型，复杂任务才调用 Opus 或 GPT 等顶级模型，在测试中得分与 OpenClaw 几乎相同（0.9251 vs 0.9255），但成本从 6 美元降至 0.68 美元，降低近 10 倍。项目还包含四层记忆系统、按需加载的 16 个工具、三档安全沙箱，以及支持网页、命令行、Slack、飞书、钉钉、Discord、Telegram、QQ 等统一入口。它已接入 OpenAI、Claude、Gemini、DeepSeek、Qwen、Kimi、智谱、火山等 20 多家模型。

AI产品开源/仓库智能体 MCP/工具成本优化 OpenSquilla

推荐理由：这个项目解决了复杂任务必须用昂贵顶级模型的痛点，做 AI 应用开发或智能体搭建的团队可以直接用，成本直降 10 倍，建议试试。

原文

21:27

Augment Code@augmentcode

OpenAI Codex 产品负责人 Rohan Varma 与 Augment Code 工程 VP Vinay Perneti 将于 5 月 21 日进行线上对谈，讨论智能体如何融入工程团队并改变软件开发方式。话题涵盖 Codex 团队如何端到端使用智能体构建软件、工程组织在采用智能体时的实际变化，以及哪些变革管理策略有效。这场对话面向工程团队领导者，旨在帮助他们理解当前 AI 智能体对工程组织的深远影响。

行业智能体工程组织 Codex OpenAI 变革管理

推荐理由：工程团队领导者正面临智能体融入团队的转型期，这场对谈直接给出 Codex 团队的一手经验和可落地的管理策略，建议点开注册，听完能少踩坑。

原文

21:15

Notion@NotionHQ

Notion 发布了 External Agents API，允许用户将第三方智能体（包括自建智能体）集成到 Notion 中。该 API 已与 Claude、OpenAI Codex、Cursor、Warp 等多家知名 AI 工具和服务达成合作，开箱即用。这意味着用户可以在 Notion 内直接调用这些智能体完成自动化任务、内容生成等工作。目前该功能处于等待列表阶段，感兴趣的用户可申请加入。

AI产品 Notion External Agents API 智能体集成自动化

推荐理由：Notion 用户终于可以无缝接入主流 AI 智能体了，做自动化工作流或知识管理的团队可以直接申请试用，省去自己写集成的麻烦。

原文

21:13

Aadit Sheth@aaditsh

作者买了一台 Mac mini 来运行各种智能体（OpenClaw、Codex、研究智能体、创意智能体），并分享了对 AI 在营销工作中角色的看法。他认为 AI 不会取代 CMO，但会让更多营销工作变成永远在后台运行的工作流。例如，研究智能体持续监控 X 和 LinkedIn，发现客户应该回应的时机（客户提及、竞争对手动态、行业讨论），然后由人决定角度和叙事。Higgsfield Supercomputer 这类产品展示了 AI 负责研究、起草、记忆和改进，而人做判断的未来。

AI产品智能体营销自动化工作流 Higgsfield Mac mini

推荐理由：做营销或运营的团队，可以看看 AI 如何把重复监控和初稿工作自动化，让人专注在策略和判断上——直接参考这个思路试试。

原文

20:13

eric zakariasson@ericzakariasson

OpenAI开发者Eric Zakariasson展示了一种新工作流：为每个AI智能体在云端分配独立的虚拟计算机，即使合上本地MacBook，智能体也能持续运行。这解决了智能体依赖本地设备、无法持久化执行的问题，让多智能体并行任务成为可能。该方案利用云端资源实现智能体独立运行，适合需要长时间后台处理或复杂协作的场景。

AI产品智能体云端计算 OpenAI 自动化多智能体协作

推荐理由：做多智能体编排或自动化任务的开发者，终于不用让本地电脑一直开着——每个智能体有自己的云端电脑，合上盖子也能跑，建议试试这个思路。

原文

19:14

AI Engineer@aiDotEngineer

精选73°

开源模型 GLM 5.1 在 Artificial Analysis 智能指数上超越闭源模型，差距持续缩小。权重开放意味着可以在不离开基础设施的情况下进行量化、微调和边缘部署。Hugging Face 生态已为智能体工作构建：推理提供商支持工具路由、按 SWE bench 分数过滤的基准数据集、存储智能体会话的追踪仓库类型，以及可插入编码智能体的技能。现场演示中，Claude Code 被要求微调一个视觉语言模型，智能体自动计算 VRAM 需求、选择实例并启动任务，将过去需要一天的手工计算变为一个提示。

AI模型 GLM 5.1 开源模型智能体 Hugging Face 微调

推荐理由：开源模型首次在权威指数上超越闭源模型，做模型部署和微调的团队可以直接利用权重优势，而 Hugging Face 的智能体生态让训练任务自动化成为现实——建议点开看 Claude Code 如何一键微调模型。

原文

18:06

Milvus@milvusio

精选

在伦敦非结构化数据聚会上，Milvus 开发者关系负责人 Jiang Chen 分享了将原始对话日志转化为智能体长期记忆的方法。核心思路是让记忆以 Markdown 文件形式可读可编辑，再通过语义搜索和混合搜索让智能体根据含义检索上下文，即使不记得关键词也能找到。该工作流可通过开源项目 memsearch 实现，适合构建更智能的对话式 AI 应用。

AI产品智能体长期记忆语义搜索开源/仓库 Milvus

推荐理由：做智能体开发的团队终于有了一个把对话记忆从黑盒变成可读可搜索的方案，建议试试 memsearch 开源项目。

原文

18:03

Philipp Schmid@_philschmid

精选

Android 16 将原生支持 MCP（模型上下文协议），允许应用通过 `@AppFunction` 注解将功能暴露为工具，供 Gemini 等智能体调用。该机制完全在设备本地运行，无需服务器或网络往返，智能体可以跨应用链式调用功能，例如在一个应用中搜索邮件，在另一个应用中添加购物清单。目前已有早期访问计划开放测试。这标志着 Android 系统级智能体能力的重大升级，开发者可以开始探索如何让应用与 AI 智能体深度协作。

AI产品 Android MCP/工具 Gemini 智能体跨应用操作

推荐理由：Android 原生 MCP 让跨应用智能体操作不再依赖云端，做 Android 应用开发的团队可以直接接入测试，让 Gemini 帮你打通应用间的数据与功能。

原文

16:04

mem0@mem0ai

Mem0 发布了更新后的 token 高效记忆算法，默认开启时间推理（Temporal Reasoning），新项目无需迁移即可使用。记忆衰减（Memory Decay）功能可通过仪表盘或 SDK 启用。该更新旨在提升 AI 记忆系统的上下文相关性和时效性，对构建长期记忆的智能体开发者尤为重要。API 保持不变，无需迁移，开发者可免费获取 API 密钥立即体验。

AI产品 Mem0 记忆系统时间推理记忆衰减智能体

推荐理由：做智能体或长期记忆系统的开发者，Mem0 这次更新直接解决了记忆时效性问题，默认开启时间推理意味着更精准的上下文召回，建议直接拿免费 API 试试。

原文

15:49

Aravind Srinivas@AravSrinivas

精选

Perplexity 正在构建市场上最安全的可扩展智能体运行时沙箱。其安全设计包括：安全处理代理 API 密钥、对所有智能体访问的内容进行安全检测、加密通过连接器传递给智能体的数据、以及可靠地分离存储和计算。Perplexity Computer 默认安全，每个任务在独立的硬件隔离沙箱中运行，具有 VPC 级别的存储和计算分离。智能体通过短期代理令牌进行身份验证，而不是使用原始 API 密钥。

AI产品智能体安全沙箱 Perplexity 代理密钥 VPC隔离

推荐理由：做智能体应用开发的团队终于有了一个默认安全的沙箱方案——Perplexity 把密钥管理、内容检测、数据加密和存储计算分离都做了，建议直接参考他们的设计思路。

原文

15:39

Augment Code@augmentcode

OpenAI Codex 产品负责人 Rohan Varma 与 Augment Code 工程 VP Vinay Perneti 将于 5 月 21 日进行一场线上对谈，讨论 AI 智能体融入工程团队后带来的组织变革。话题涵盖 Codex 团队如何端到端使用智能体构建软件、工程组织在采用智能体时实际发生的转变，以及哪些变更管理策略有效、哪些无效。这场对话面向正在思考如何应对这一变革的工程团队领导者，旨在帮助他们理解当前 AI 智能体对工程组织的影响。

行业智能体 Codex 工程组织变更管理直播对谈

推荐理由：工程团队领导者正面临智能体融入团队带来的管理挑战，这场对谈直接给出了 Codex 团队的一线实践和失败教训，看完能少走弯路。

原文

03:13

Vercel AI@vercel

Vercel 宣布将于 6 月 17 日在伦敦 Magazine 举办 Ship London 活动，主题聚焦智能体（Agents）。活动将展示与 Google DeepMind 合作的视频智能体、与 ElevenLabs 合作的实时语音智能体，以及 Telegraph、Currys、AKQA 和 easyJet 等企业的智能体生产案例。这标志着智能体技术正从实验走向企业级应用，开发者可借此了解前沿实践。

行业智能体 Vercel Google DeepMind ElevenLabs 行业活动

推荐理由：智能体落地案例集中展示，做 AI 应用开发的团队可以一次性看到视频、语音、生产级三种方向的实际效果，建议关注活动日程。

原文

00:01

Microsoft Research@MSFTResearch

微软研究院（MSR）发布了一系列新工具、模型、仓库和论文，涵盖AI与智能体领域。亮点包括：MagenticLite（来自MSR AI Frontiers）、智能体化的GitHub工作流、验证优先的智能体、语义匹配微调以及AI转型与经济影响。这些成果旨在提升AI智能体的实用性和可靠性，推动AI在开发工作流和经济学中的应用。

AI产品微软研究院智能体 MCP/工具开源/仓库 GitHub工作流

推荐理由：微软研究院的这批新工具和论文直击AI智能体落地的关键痛点——从工作流自动化到可靠性验证，做AI应用开发或研究的团队值得关注，尤其是MagenticLite和智能体GitHub工作流可以直接尝试。

原文

5月15日

22:47

airtap_ai@airtap_ai

许多“AI 辅助日常生活”的想法在概念上听起来不错，但往往在关键执行步骤前止步，用户仍需手动打开应用、搜索、比较、添加和下单。Airtap 的 Blinkit 演示展示了 AI 如何真正消除这些摩擦，在应用内自动完成整个购物流程。这标志着 AI 从提供建议转向直接执行任务，解决了日常生活中的实际痛点。

AI产品智能体日常AI 移动AI Airtap Blinkit

推荐理由：日常购物场景的 AI 终于不再只动嘴了——Airtap 的演示让用户看到 AI 能直接帮你下单，做家务的、用 AI 省时间的都该看看，建议直接体验。

原文

22:44

百度 AI Baidu@Baidu_Inc

在百度Create 2026大会上，Robin Li探讨了智能体时代带来的新问题，包括价值衡量、智能体与人类共同进化，以及支持大规模智能体所需的基础设施。他提出了“每日活跃智能体”（DAA）作为新的定义性指标，并阐述了跨越智能体、个人和组织的“AI进化理论”。同时，百度展示了为智能体时代构建的全栈基础设施。这些观点共同描绘了智能体时代变革的宏观图景。

行业智能体百度 DAA AI进化理论基础设施

推荐理由：百度CEO李彦宏首次提出DAA（每日活跃智能体）作为衡量AI价值的新指标，做AI产品、智能体平台或基础设施的从业者值得关注，这可能是行业重新定义成功标准的关键信号。

原文

19:15

阿里云 Alibaba Cloud@alibaba_cloud

阿里云与 TiDB 联合举办的 AI 创新之夜活动将于一周后举行，目前席位已接近满额。活动聚焦智能体 AI、AI 就绪数据基础设施、实际部署策略及可衡量 ROI，旨在帮助企业将 AI 愿景转化为商业影响。参与者可与行业领袖交流，并享受晚餐、饮品及惊喜环节。活动注册链接已开放，适合关注企业级 AI 落地的从业者。

行业阿里云 TiDB 智能体 AI 基础设施企业 AI 落地

推荐理由：企业 AI 落地从概念到 ROI 的实战经验分享，做数据基础设施和智能体部署的团队值得关注，还能与行业领袖面对面交流。

原文

13:14

airtap_ai@airtap_ai

Airtap 团队提出一个更实际的 AI 测试：在真实购物应用 Blinkit 中完成下单咖啡和洗发水的任务，而不是仅生成列表或建议。他们认为，日常琐事才是检验 AI 执行力的关键，如果智能体无法处理简单的消费流程，它仍只是一个对话系统。Airtap 的优势在于能真正操作应用完成任务。

AI产品智能体 Airtap Blinkit 执行能力 AI测试

推荐理由：这个测试戳中了当前 AI 智能体的软肋——只会说不会做。做 AI 产品、智能体开发的团队值得看看，Airtap 展示了从对话到执行的跨越，建议点开了解如何让 AI 真正干活。

原文

10:17

shao__meng@shao__meng

精选73°

xAI 推出了 Grok Build CLI (beta)，这是一个面向编码、应用构建和工作流自动化的 Agentic CLI 工具。目前仅向 SuperGrok Heavy 订阅用户开放，xAI 希望通过用户反馈迭代模型和产品。该工具具备快速终端渲染、计划视图、子智能体并行执行、技能装载、插件市场以及主动澄清等能力。底层模型为 grok-code-fast-1，在 SWE-Bench Verified 上达到 70.8%，上下文窗口为 256K。

AI产品 CLI工具智能体编码助手工作流自动化 Grok

推荐理由：Grok Build CLI 的 Plan 视图和子智能体并行能力解决了复杂任务的可视化与执行效率问题，做自动化工作流或编码的开发者可以直接体验，尤其适合需要多智能体协作的团队。

原文

08:03

berryxia@berryxia

精选72°

Prime Intellect 让 Claude Code（Opus 4.5）和 Codex（GPT 5.5）在 nanoGPT speedrun 的 optimizer track 上完全自主运行，使用闲置算力完成约 1 万次实验，消耗 1.4 万 H200 小时。Claude Code 将记录推进到 2930 steps，超越人类基准的 2990 steps，整个过程无人值守。实验在 optimizer 搜索、超参数扫描和方法 stacking 上高效，但在真正创新上遇到瓶颈。Prime Intellect 已开源所有 scratchpad、运行日志、配置和生成的 idea，将 AI 研究自动化从概念变为可复现的现实。

AI产品 AI研究自动化 Claude Code Codex 开源/仓库智能体

推荐理由：AI 研究自动化从概念走向可复现现实，做 AI 研究的团队可以直接参考这套开源实验记录，省下大量试错成本。

原文

07:18

NVIDIA AI@NVIDIAAI

OpenShell 发布 v0.0.41 版本，新增智能体驱动的策略管理功能，允许用户通过 shell 直接控制策略和资源。CLI 中增加了沙箱资源标志，支持自定义 CA 用于 OIDC TLS 验证，并改进了沙箱下载的工作区边界检查。该版本还包含多项错误修复和稳定性改进，旨在提升开发者在安全策略和资源管理方面的效率。

AI产品智能体策略管理沙箱 CLI 安全

推荐理由：对于需要精细控制沙箱资源和策略的开发者，OpenShell 这次更新直接把管理权交到了 shell 里，省去繁琐配置，值得一试。

原文

05:18

Greg Brockman@gdb

OpenAI 宣布，用户现在可以在任何运行 Codex 的地方，通过 ChatGPT 应用直接使用它。这意味着智能体（agent）的调用不再局限于特定平台，而是可以通过 ChatGPT 这一广泛使用的入口进行。这一更新显著降低了智能体的使用门槛，推动了智能体技术的普及和通用化。对于开发者和普通用户来说，这代表了一个更便捷、更统一的智能体交互体验。

AI产品智能体 Codex ChatGPT 通用性 OpenAI

推荐理由：智能体调用终于有了一个统一的入口——ChatGPT 应用，做自动化或智能体开发的团队可以直接在移动端体验，值得立即尝试。

原文

02:34

TestingCatalog@testingcatalog

Kimi 推出了名为 Kimi Web Bridge 的浏览器扩展，旨在为多种 AI 智能体（如 Claude Code、Hermes、Codex、Kimi Code CLI 等）提供统一的浏览器操作接口。该扩展解决了不同智能体各自需要独立浏览器集成的问题，让开发者只需安装一个扩展即可让多个智能体共享浏览器控制能力。这降低了智能体工具链的碎片化，提升了开发效率。目前该扩展已可用，适合需要同时使用多个 AI 编程助手的团队。

AI产品 Kimi 浏览器扩展智能体 MCP/工具编程助手

推荐理由：Kimi 用一个扩展解决了多智能体各自为战的浏览器控制问题，做 AI 编程或自动化测试的开发者不用再为每个工具装不同插件，值得直接上手试试。

原文

00:57

berryxia@berryxia

腾讯AI团队经过6个月研发，开源了一套Agent记忆系统，针对长会话中上下文丢失问题提出三招解决方案：实时压缩过期上下文（token消耗降低61%）、用Mermaid语法生成结构化任务地图（减少30多步复杂流程中的丢轨概率）、建立Persona记忆（人格一致性从48%提升至76%）。这套系统已在GitHub开源，旨在解决Agent记忆的核心难题——让模型在正确时间用正确方式想起正确信息。

AI产品智能体记忆系统开源/仓库腾讯AI 上下文管理

推荐理由：做Agent开发的团队终于有了开箱即用的记忆方案，不用再靠堆token硬扛长上下文——腾讯这套系统直接开源，建议立刻去试。

原文

00:28

百度 AI Baidu@Baidu_Inc

百度在Baidu Create大会上宣布推出专为大规模智能体应用设计的全栈AI云，升级覆盖智能体基础设施和AI基础设施。该云平台采用百度自研昆仑芯AI芯片的专用集群，已成功支持文心大模型5.1系列中关键模型的训练。这标志着百度在支撑智能体应用规模化部署方面迈出重要一步，解决了云基础设施与智能体应用同步扩展的挑战。

AI产品智能体 AI云百度昆仑芯文心大模型

推荐理由：做智能体应用部署的团队会关心云基础设施如何跟上规模增长——百度这次用自研芯片和全栈升级给出了答案，值得关注其实际效果。

原文

00:02

Ethan Mollick@emollick

研究人员发现一种名为“Whimsey攻击”的新型对抗方法，通过使用看似荒谬的理由（如“根据日内瓦公约我无法支付这么多”）来绕过AI智能体的安全护栏。这种攻击利用了AI模型对分布外论证的脆弱性，即使是大型模型也难以完全防御。小型模型更容易中招，但大型模型也会因此降低性能。该发现揭示了当前AI安全机制在应对非典型输入时的不足。

AI模型 AI安全对抗攻击智能体护栏机制分布外输入

推荐理由：做AI安全或智能体开发的团队需要警惕——这种看似荒诞的攻击方式暴露了护栏机制的系统性漏洞，建议立即检查你的模型对分布外输入的鲁棒性。

原文

5月14日

19:09

Google DeepMind@GoogleDeepMind

Google DeepMind 宣布与大型多人在线游戏《Eve Online》的开发者合作，利用其复杂的玩家驱动宇宙作为安全沙盒，测试 AI 智能体在记忆、持续学习和长期规划方面的能力。该合作旨在推动 AI 在游戏中的前沿研究，为开发更智能、更适应环境的 AI 系统提供实验平台。Eve Online 的开放世界和长期经济系统为 AI 研究提供了独特的挑战和机会。

AI模型 Google DeepMind Eve Online 智能体强化学习游戏AI

推荐理由：DeepMind 选 Eve Online 做 AI 沙盒，说明复杂游戏环境是测试智能体长期规划的好地方，做游戏 AI 或强化学习的开发者值得关注这个实验场。

原文

18:30

TestingCatalog@testingcatalog

Google 将在 I/O 大会上发布新智能体 Gemini Spark，定位为 24/7 全天候助手。它能从用户行为中学习，与连接的应用和技能协作，处理收件箱、在线任务等。Gemini Spark 使用用户信息（如连接应用、技能、聊天、任务、位置等）来理解用户意图，并保存远程浏览器数据（如登录信息和远程代码执行数据）以提升效率。用户可在设置中清除数据或关闭相关功能。

AI产品 Google Gemini Spark 智能体 I/O 大会全天候助手

推荐理由：Google 终于推出了一个真正全天候学习的 AI 智能体，做自动化工作流或重度依赖 Google 生态的团队值得关注，它可能改变你管理日常任务的方式。

原文

18:30

TestingCatalog@testingcatalog

OpenSquilla 发布了一款新的开源 AI 智能体，专为执行成本高效、长时间运行的任务而设计。该智能体通过机器学习分类器将简单任务分配给廉价模型，复杂任务分配给更强模型，相比单一固定模型设置可节省 60-80% 的 Token。它采用四层持久化内存（带本地嵌入）和系统调用级沙箱隔离（无需 Docker），并在 Apache-2.0 许可下发布。对于需要运行长期 AI 任务的开发者来说，这是一个值得关注的开源选择。

AI产品智能体开源/仓库成本优化任务路由沙箱隔离

推荐理由：做长期 AI 任务自动化的开发者终于有了一个省 Token 的开源方案——OpenSquilla 通过智能路由和沙箱隔离，直接帮你省下 60-80% 成本，建议试试这个 Apache-2.0 的智能体。

原文

18:29

阿里云 Alibaba Cloud@alibaba_cloud

阿里云分享了如何通过RocketMQ LiteTopic解决智能体语音交互在高并发场景下的稳定性与延迟问题。当并发量上升时，消息链路可能成为隐藏瓶颈，导致交互卡顿或失败。LiteTopic通过优化消息通道，实现了大规模下的稳定、低延迟交互。这对于构建实时语音助手、客服机器人等智能体应用至关重要。开发者可以借鉴该方案来提升自身系统的并发处理能力。

AI产品智能体语音交互消息队列阿里云 RocketMQ

推荐理由：做语音交互智能体的团队，高并发下消息链路容易成为瓶颈，RocketMQ LiteTopic 的方案值得参考，能直接提升稳定性。

原文

18:29

Meta AI@AIatMeta

Meta 超级智能实验室推出了 Muse 系列的首个模型 Muse Spark，这是一个原生多模态推理模型，支持工具使用、视觉思维链和多智能体编排。该模型已在 Meta AI 应用和指定网站上线，并通过 API 向部分合作伙伴提供私有预览。Meta 表示未来版本将开源。Muse Spark 的发布标志着 Meta 在多模态推理和智能体协作领域的重要进展。

AI模型多模态推理模型工具调用智能体 Meta

推荐理由：做多模态应用或智能体开发的团队可以直接上手试 Muse Spark 的工具调用和视觉思维链能力，Meta 承诺未来开源也值得关注。

原文

15:02

xiaomimimo@XiaomiMiMo

小米MiMo团队发布警告，使用思考模式进行多轮智能体对话时，若历史记录包含工具调用，后续用户回合必须保留完整推理内容字段，否则API会返回400错误。缺失推理内容会导致上下文不完整，降低指令遵循能力、增加幻觉并影响用户体验。受影响的框架包括TRAE、Cursor、Roo Code、Codex、GitHub Copilot CLI、Zed和AutoGen，团队正与维护者合作推动兼容更新。涉及模型包括MiMo-V2.5-Pro、MiMo-V2.5、MiMo-V2-Pro、MiMo-V2-Omni和MiMo-V2-Flash。

AI产品小米MiMo API变更智能体多轮对话推理内容

推荐理由：这个API变更直接影响使用小米MiMo模型的智能体开发者，尤其是多轮对话场景。如果你在用TRAE、Cursor等框架集成MiMo，建议立即检查代码，避免因缺失推理内容导致400错误和体验降级。

原文

15:02

kimi_moonshot@Kimi_Moonshot

月之暗面发布了 Kimi K2.6 Agent Swarm，将并行子智能体数量从 K2.5 的 100 个提升至 300 个，每次运行步数从 1500 步增加到 4000 步。该版本支持输出真实文件而非聊天内容，一次运行可生成 100+ 文件、10 万字文献综述或 2 万行数据集。K2.6 集成了搜索、分析、编程、长文写作和视觉生成等多种异构技能，所有技能可并行运行。用户可通过提供的链接直接体验。

AI产品智能体并行计算 Kimi 月之暗面多模态

推荐理由：K2.6 将并行子智能体规模提升 3 倍，做复杂研究或数据处理的团队可以一次跑出完整报告和数据集，效率提升明显，值得直接上手试。

原文

13:37

深度求索 DeepSeek@deepseek_ai

78°

DeepSeek 正式发布 V3.2 和 V3.2-Speciale 两个新模型。V3.2 是 V3.2-Exp 的正式继任者，已在 App、Web 和 API 上线；V3.2-Speciale 则专注于极致推理能力，目前仅通过 API 提供。这两个模型以推理优先为设计理念，旨在更好地支持智能体（agent）场景。技术报告已同步公开。

AI模型 DeepSeek 推理模型智能体模型发布 API

推荐理由：做智能体开发或需要强推理能力的团队，DeepSeek 这次直接给了两个新选择——V3.2 可立即上手，Speciale 适合追求极致推理的 API 用户，值得关注技术报告里的细节。

原文

13:37

Andrej Karpathy@karpathy

精选

Karpathy 在 Sequoia Ascent 2026 炉边谈话中分享了三个核心主题。首先，LLM 远不止是加速现有工作（如编程），他举了三个新例子：menugen 应用完全由 LLM 驱动无需传统代码、用 .md 技能替代 .sh 脚本安装软件、以及基于 LLM 的知识库处理非结构化数据。其次，他深入解释了 LLM 的“锯齿状能力”模式——为何同一个模型既能重构十万行代码，又会建议你去洗车——这源于领域可验证性和经济因素（收入/TAM 决定训练数据分布）。最后，他展望了智能体原生经济，包括产品服务分解为传感器、执行器和逻辑，以及如何让信息对 LLM 更可读，并暗示了全神经计算的未来。

行业 LLM 智能体 Karpathy 智能体原生经济能力边界

推荐理由：Karpathy 把 LLM 的“锯齿状能力”和智能体原生经济讲透了，做 AI 产品、搞智能体开发的团队看完会对能力边界和落地方向有全新认知，值得点开细品。

原文