23:32pandaily@contact@pandaily.com (Pandaily)76°红杉资本支持的 AI 初创公司 Floatboat 发布了一款名为“Proactive Agent OS”的智能体操作系统,其核心特点是利用用户的日历事件自动触发工作流程。系统能根据会议安排自动生成简报、跟进事项、收集文档并执行重复性任务。其内置的 FloatIM 界面将 AI 智能体视为群聊中的团队成员,支持多个智能体自主协作。该平台已接入超过 3500 个应用,并集成了飞书和微信,同时支持 DeepSeek 和 Kimi 等模型。AI产品智能体日历驱动工作流自动化Floatboat飞书/微信集成推荐理由:对于被会议和重复性事务淹没的职场人来说,Floatboat 的日历驱动智能体直接解决了“手动触发”的痛点,让 AI 主动为你干活。建议经常使用飞书或微信办公的团队点开看看,这可能是提升协作效率的新方式。原文
22:50Notion@NotionHQRakutenFrance 的四人 AI 团队没有逐一构建 80 个智能体,而是用 Notion 打造了一个自定义智能体,帮助团队其他人自行创建专属智能体。最终实现了 80 多个智能体和 58,000 多个自动化工作流。团队表示,任何人都能创建自定义智能体,从而几乎无限提升生产力。这展示了低代码/无代码智能体平台在企业中的巨大潜力,让非技术员工也能参与 AI 自动化。AI产品智能体Notion自动化企业AI低代码3 个信源在谈推荐理由:这个案例展示了如何用 4 人团队撬动 80+ 智能体的规模化落地,做企业 AI 转型或内部工具建设的团队值得参考——不是堆人力,而是让工具赋能每个人。原文
22:22Patrick Loeber@patloeber76°Google 宣布 Gemini 模型现已通过 Apple 的 Foundation Models 框架集成到 Xcode 中,数百万 Apple 开发者可直接使用。开发者可以在本地和云端推理之间无缝切换,利用共享 API 构建智能体应用、加速开发流程。此外,Gemini 还提供智能体式编程辅助,帮助完成多步开发任务。此举将 Gemini 的能力直接带入 Apple 生态,降低了开发者使用大模型的门槛。AI产品GeminiAppleXcode智能体编程助手推荐理由:Apple 开发者终于能在 Xcode 里原生调用 Gemini 了,做 iOS/macOS 应用开发的团队可以直接在 IDE 里用上云端推理和智能体编程辅助,值得试试。原文
20:33Hugging Face: Blog(博客/媒体)Hugging Face 展示了一个智能体如何通过链式调用两个 Hugging Face Spaces 来构建一个 3D 巴黎画廊。该智能体首先使用一个 Space 生成 3D 模型,然后调用另一个 Space 进行渲染和展示。这个例子展示了智能体如何组合不同的 AI 工具来完成复杂的多步骤任务,而无需人工干预。它证明了 Hugging Face Spaces 生态系统的可组合性,以及智能体在自动化工作流中的潜力。开发者可以借鉴这种模式,将多个 Spaces 串联起来构建更强大的 AI 应用。AI产品智能体Hugging Face Spaces3D 建模工作流自动化链式调用推荐理由:这个案例展示了智能体如何像搭积木一样组合 Hugging Face Spaces,做多步骤 AI 应用的开发者可以直接复制这种链式调用模式,快速构建自己的自动化工作流。原文
19:36IT之家(博客/媒体)科大讯飞将于 6 月 10 日在香港举办全球发布会,率先发布智能空间 Agentic 架构 SpaceMind。该架构让 AI 具备自主思考、真实记忆和自学习能力,能感知、理解、决策、执行,使家庭、酒店、办公等空间越来越懂用户。目前已有数十家全球合作伙伴达成战略合作,SpaceMind 正加速将 AI Agent 带入真实空间。发布会还将展示 WallEX 等智能硬件,并启动 AI Agent 创新应用大赛。AI产品智能体智能空间科大讯飞SpaceMindAI 架构推荐理由:SpaceMind 把 AI Agent 从概念落地到家庭、酒店、办公等真实场景,做智能家居或空间设计的团队值得关注,可以直接看看它如何让空间自主学习和决策。原文
19:33IT之家(博客/媒体)国家互联网应急中心(CNCERT)发布公告,指出部分智能体技能包(Skills)以“大模型越狱”、“挖矿赚钱”等名义传播,诱导用户突破大模型安全限制或占用设备资源进行非法挖矿。这些恶意Skills可能导致模型生成违法信息、用户账号被封禁、设备性能下降,甚至使用户被动卷入洗钱等违法犯罪活动。CNCERT提醒用户从官方渠道获取Skills,审慎授予权限,并建议企业建立准入白名单机制。公告还列举了具体案例,如“godmode”越狱技能和“Bonero-Miner”挖矿技能,并提供了防范措施。行业智能体安全风险越狱挖矿CNCERT推荐理由:智能体技能包的安全风险正在被官方点名,使用AI智能体的开发者和企业团队需要立即检查自己的技能包来源,避免因恶意Skills导致账号封禁或法律风险。原文
14:15IT之家(博客/媒体)滴滴作为首批合作伙伴,将核心网约车服务融入微信 AI Agent。用户通过微信内 AI 交互,只需说一句“帮我叫一辆滴滴去机场”即可直接唤起滴滴快车、专车、特惠等服务,全程不跳转。滴滴顺风车、滴滴代驾等更多服务也将陆续接入。微信已发布开发者接入指引,提供自动与开发两种模式,京东、美团、携程等也宣布首批接入。AI产品微信AI滴滴智能体出行服务AI生态推荐理由:微信 AI 生态让叫车变成一句话的事,省去跳转 App 的麻烦,经常用滴滴出行的微信用户可以直接体验。原文
12:55arXiv cs.AI@Arsalan Shahid, Gordon Suttie, Philip Black72°随着基础模型从生成回复转向执行操作任务,多人类、多智能体的协作场景日益普遍,但当前缺乏统一协议来记录人类判断、任务交接和审核决策。CHAP(Collaborative Human-Agent Protocol)协议应运而生,它定义了一个共享工作空间,通过核心组件(工作区、参与者、任务、工件和仅追加的证据日志)以及可组合的配置文件(如审核、路由、交接、签名等),将原本散落在聊天记录和代码中的关键信号(如人类编辑、审批、交接)转化为结构化、可追溯的事件。该协议旨在解决当前多智能体部署中人类监督信号丢失、责任归属不清的问题,为跨团队、跨时区的协作提供标准化基础。论文智能体协议/标准人机协作可追溯性开源/仓库推荐理由:CHAP 解决了多智能体协作中人类监督信号丢失的痛点,做 AI 部署和智能体系统的团队可以直接参考其协议和开源实现,避免重复造轮子。原文
12:35arXiv cs.LG@Lawrence Keunho Jang, Mareks Woodside, Geronimo Carom, Andrew Keunwoo Jang, Jing Yu Koh, Ruslan Salakhutdinov精选72°苹果智能体需要理解用户身份、历史与偏好,但现有基准缺乏个性化。研究团队推出iOSWorld,首个基于原生iOS模拟器的交互式基准,包含26个新应用、133个任务,覆盖单应用、多应用及记忆与个性化三类。最佳模型(GPT-4o)整体准确率52%,多应用任务仅37%;加入XML辅助后大模型提升26个百分点,小模型无增益。该基准已开源,旨在推动真正个性化的手机智能体发展。论文智能体基准测试iOS个性化开源/仓库推荐理由:手机智能体开发者终于有了能测试个性化能力的基准——iOSWorld要求模型理解用户身份与历史,而非仅执行孤立指令,做移动端AI Agent的团队值得关注。原文
11:48arXiv cs.AI@Hongcheng Gao, Hailong Qu, Jingyi Tang, Jiahao Wang, Zihao Huang, Hengkang Qiao, Shihong Huang, Junming Yang, Yi Li, Hongyixuan Yuan, Wenjie Li, Bohan Zeng, Wenbo Li, Bo Wang, Jianhui Liu, Olive Huang, Haoyang Huang, Wentao Zhang, Guoqing Huang, Nan Duan, Yinpeng Dong精选多模态大模型在物理世界中的空间推理能力至关重要,但现有基准多依赖静态问答或特定模拟器,无法评估真实交互场景。研究者提出SpatialWorld,一个统一基准,整合8种异构仿真后端,包含760个人工标注任务,覆盖家务、旅行、社交协作等领域。智能体需在仅视觉部分可观测条件下主动收集证据,并通过统一文本接口做出决策。评估15个先进智能体发现,最强模型GPT-5平均任务成功率仅17.4%,开源模型Qwen-3.5为14.1%,表明主动探索和长程规划仍是瓶颈。论文空间推理多模态大模型基准测试智能体仿真环境1 个信源在谈推荐理由:做多模态智能体或空间推理研究的团队,这个基准直接暴露了当前模型在真实交互任务上的短板——GPT-5都只有17.4%成功率,值得用来检验自家模型。原文
10:57rohanpaul_ai@rohanpaul_ai72°一篇来自中美顶级实验室的111页综述论文提出,AGI的关键不在于模型回答得更好,而在于智能体能否主动探索未知。论文定义了“认知探索”概念,即智能体应主动减少不确定性,在能力边界附近学习,并保持未来路径的开放性。探索不是随机行为,而是有纪律地询问哪些观察会改变信念、哪些尝试能提升技能。论文将AI进展分为5个层级:响应者、推理者、智能体、探索者和生态系统,每个层级探索更广阔的空间。论文AGI智能体探索认知科学综述论文推荐理由:这篇论文重新定义了AGI的评判标准——从“回答能力”转向“探索能力”,做智能体研究的团队值得仔细读,它可能改变你对AI发展路径的理解。原文
10:24Geek@geekbbNous Research 宣布其 Hermes Agent 现已支持通过 iMessage 进行交互。用户只需运行 'hermes gateway setup' 命令并选择 Photon 服务,即可开始通过短信与智能体对话。这一更新让用户能在日常通讯工具中直接使用 AI 智能体,降低了使用门槛。Photon 作为中间服务,实现了 Hermes Agent 与 iMessage 的桥接。AI产品智能体iMessageHermes AgentPhotonAI 交互推荐理由:AI 智能体接入 iMessage 让日常交互更自然,习惯用短信管理任务的用户可以直接上手试试。原文
10:12arXiv cs.AI@Chenglin Yang精选AgentTrust 提出了一种针对AI智能体动作的信任层,能根据威胁类型(词法或语义)决定是否允许、警告、阻止或升级操作。词法威胁可通过确定性规则处理,而语义威胁(如表面相似但意图不同的动作)则依赖LLM判断。该系统通过自学习机制,在语义攻击为主的语料上,将规则准确率从48%提升至83.6-85.2%,且误报率极低。AgentTrust v2 采用双存储系统:对词法威胁蒸馏出确定性规则以降低成本,对语义威胁使用带验证的RAG记忆,将语义准确率提升13个百分点。在45000个动作的端到端回放中,LLM调用率从50%降至44%,准确率从71%升至80%,且未误阻任何良性动作。论文智能体安全/信任LLM判断自学习威胁分类推荐理由:AI智能体安全是当前最棘手的工程问题之一,AgentTrust 用自进化信任层解决了规则无法覆盖语义攻击的痛点,做智能体安全或自动化运维的团队可以直接参考其架构设计。原文
09:56Pandaily@contact@pandaily.com (Pandaily)83°腾讯正式推出WorkBuddy企业版,采用“专家+助手+团队”三层智能体模型,并同步发布Agent Suite生态系统。该战略旨在将腾讯打造为企业级AI工作流统一平台,通过分层智能体协同提升企业效率。WorkBuddy企业版整合了多个AI助手,支持复杂任务分解与团队协作,Agent Suite则提供开放生态,允许企业定制和集成第三方智能体。此举标志着腾讯在AI企业服务领域的全面发力,与微软、谷歌等巨头展开竞争。AI产品智能体企业AIWorkBuddyAgent Suite腾讯推荐理由:腾讯终于亮出AI企业级底牌——WorkBuddy的三层智能体模型解决了企业AI落地中“单点工具多、协同难”的痛点,做企业数字化转型的团队值得关注,可以直接评估是否适配现有工作流。原文
09:40arXiv: Anthropic@Jason Starace精选72°一项预注册的对照研究系统比较了三种不同 scaffold(ReAct、多智能体 Planner-Actor-Rater、Planner-then-Executor)在五个模型(Claude Opus 4.7、Sonnet 4.6、Haiku 4.5、Gemini 3.1 Pro Preview、GPT-5.5)上的 GAIA 验证集表现。研究发现,仅 scaffold 选择就使同一模型的准确率波动高达 28 个百分点,证实了 scaffold 变化至少产生 10 个百分点的差距。更令人意外的是,更强大的模型并未对 scaffold 更不敏感——在更难的 Level 2 任务中,最强模型反而从结构化 scaffold 中获益最多。多智能体设计在 Anthropic 模型家族中优于 ReAct,但跨模型提供商时优势消失。结构化 scaffold 调用工具次数更少,但在困难任务中从错误中恢复的能力更强。这些结果表明,单 scaffold 的能力评估数字是 scaffold 条件性的,且随着模型改进,评估差距未必会缩小。论文模型评估ScaffoldGAIA智能体预注册研究10 个信源在谈推荐理由:做 AI 模型评测或选型的人必须看——这篇研究用严格对照实验证明,你看到的模型能力分数可能更多反映的是 scaffold 设计而非模型本身,建议重新审视自己的评估流程。原文
08:45orange.ai@oran_ge苹果最新发布会展示了新Siri,但其智能程度仍被评价为“接了很多API的聊天机器人”,并未实现真正的智能体(Agent)能力。评论指出苹果自研的Agent预计要到明年才能推出。有用户调侃苹果不如收购Cola来加速进展。这反映了苹果在AI Agent领域的进展落后于部分竞争对手。AI产品苹果Siri智能体APIAI助手推荐理由:如果你关注苹果AI的落地进度,这条评论点出了Siri的现状和Agent的延迟,看完会对苹果的AI战略有更清醒的判断。原文
07:46Patrick Loeber@patloeberPatrick Loeber 发布了一篇关于 Google AI Studio 托管智能体的入门教程,涵盖在 AI Studio 和 Gemini API 中使用托管智能体的基本步骤。教程面向开发者,旨在降低使用 Google 托管智能体的门槛。该教程以视频形式呈现,适合快速上手。对于想尝试 Google 智能体平台的开发者来说,这是一个实用的起点。AI产品智能体Google AI StudioGemini API教程入门推荐理由:Google AI Studio 的托管智能体降低了智能体开发门槛,想快速上手 Gemini API 的开发者可以直接跟着教程操作。原文
07:12Notion@NotionHQNotion 宣布其自定义智能体(Custom Agents)现在可以访问用户的团队通讯录(People directory),从而获得更多关于团队成员的信息。这一更新让智能体能够识别团队成员的身份和关系,提供更个性化的上下文。对于使用 Notion 进行团队协作的用户来说,这意味着智能体可以更准确地处理涉及人员信息的任务,如分配任务或查找联系人。该功能目前已在 Notion 中上线,用户可以通过设置授权智能体访问通讯录。AI产品智能体Notion团队协作通讯录个性化3 个信源在谈推荐理由:Notion 让自定义智能体认识团队成员了,做团队协作和项目管理的用户可以直接用起来,智能体会更懂谁是谁。原文
06:21NotebookLM@NotebookLMGoogle 的 NotebookLM 推出了一项新功能,用户只需在聊天中输入零散的想法和问题,AI 就会引导用户构建完整的笔记库。它还能自动从网络查找并添加相关来源(需用户确认)。这标志着 AI 从被动问答转向主动研究辅助,极大降低了信息整理的门槛。该功能目前已在 NotebookLM 中上线,用户可立即体验。AI产品NotebookLM研究助手智能体笔记工具信息整理推荐理由:NotebookLM 把「从想法到结构化笔记」的流程自动化了,做研究、写文章或整理资料的团队可以直接用,省去手动搜索和整理的时间。原文
06:09Paul Couvert@itsPaulAi83°微软开源了一款名为“智能终端”的新工具,它在命令行中原生集成了智能体功能。该终端兼容Codex、Claude、Gemini、Copilot等多种智能体CLI,提供智能体状态栏、智能体面板用于结对编程、自动错误检测、多智能体管理以及命令面板启动智能体任务等功能。目前为0.1版本,未来还将有更多更新。这对开发者来说是一个重要的开源项目,有望提升命令行工作效率。AI产品微软智能终端开源智能体命令行推荐理由:微软把智能体直接塞进终端,做命令行开发的团队可以试试这个原生方案,省去手动切换工具的麻烦。原文
05:45HeyGen@HeyGen_Official精选HeyGen 在 X 上分享了一个完整的智能体反馈循环工作流,涵盖 lint、快照、渲染、ffmpeg 拉帧、发布和迭代。该流程强调只信任真实渲染或预览中的运动/视频/音频,并通过冻结已批准的剪辑、分支文件夹来重复迭代。这展示了 AI 视频生成中自动化质量控制和版本管理的实用方法,对从事视频生成和 AI 工作流的开发者有参考价值。AI产品智能体视频生成工作流迭代HeyGen推荐理由:做 AI 视频生成或自动化工作流的团队可以借鉴这个闭环设计——它解决了从生成到迭代的信任和版本控制痛点,直接照着思路优化自己的流程会很高效。原文
05:23Harrison Chase@hwchase17LangChain 联合创始人 Harrison Chase 在 X 上发布了一段由 Sydney Runkle 制作的 90 秒视频,快速解释了 Deep Agents 的核心概念。视频以极简方式展示了如何利用 LangChain 构建深度智能体,适合快速入门。该内容引发社区关注,已有 1000+ 次浏览。AI产品LangChainDeep Agents智能体视频教程快速入门推荐理由:LangChain 官方用 90 秒讲清 Deep Agents 是什么,想快速理解智能体构建逻辑的开发者可以直接看视频,省去翻文档的时间。原文
05:15LangChain@LangChainAILangChain 创始人 Harrison Chase 在推文中指出,开发智能体不应追求完美,而应尽早发布、有意测试、监控真实行为,并利用生产环境中的学习来改进下一版本。他将于 6 月 24 日分享团队如何应用智能体开发生命周期(Agent Development Lifecycle)来构建生产级智能体。这一理念强调了快速迭代和持续学习的重要性,对正在开发或部署 AI 智能体的团队具有直接指导意义。AI产品智能体开发方法论LangChain生产部署迭代开发推荐理由:做智能体开发的团队别再纠结完美了——LangChain 创始人亲自拆解从发布到迭代的实战方法,6 月 24 日的分享值得蹲守。原文
05:12LangChain@LangChainAILangChain 指出,虽然很多团队都想发布 AI Agent,但真正在生产中让 Agent 稳定运行的团队,并不将其视为一次性实验或孤立项目。他们构建的是一个可重复的系统,涵盖构建、测试、部署、监控和改进五个阶段,即 Agent 开发生命周期。这一方法论强调持续迭代和系统化流程,而非一次性交付。对于正在或计划将 Agent 投入生产的团队来说,这是值得参考的工程实践。行业智能体生产部署开发流程LangChain工程实践推荐理由:LangChain 把 Agent 从实验到生产的工程化路径讲清楚了,做 AI 应用落地的团队可以直接对照自己的流程,看看缺了哪一环。原文
05:03lmarena.ai@lmarena_ai精选xAI 的 Grok Build 0.1 和 Grok 4.3 (High) 在最新的 Agent Arena 排行榜中分别位列第15和第17名。Grok Build 0.1 在 bash 能力上有明显提升,但可操控性稍差且更容易出现工具幻觉,不过整体任务完成率更高。Agent Arena 使用因果追踪方法对模型在真实世界智能体任务中的表现进行排名。该排行榜基于全球用户社区提交的真实任务,从5个信号维度评估模型表现。AI模型智能体GrokxAIAgent Arena模型排名推荐理由:xAI 的模型在 Agent Arena 中取得不错排名,做智能体开发和自动化任务的团队可以看看 Grok Build 0.1 在 bash 能力上的改进,值得关注其实际任务完成率提升。原文
04:44Perplexity@perplexity_aiPerplexity AI 在 X 上发布研究发现,其自主智能体(如 Computer)的自主性越高,用户获得的质量和满意度也越高。该结论基于实际使用数据,表明提升智能体自主决策能力能带来更好的用户体验。这一发现对 AI 智能体产品设计有重要参考价值,意味着开发者可以更放心地赋予智能体更多自主权。AI产品Perplexity AI自主智能体用户满意度AI 产品智能体推荐理由:做 AI 智能体产品的团队值得关注——Perplexity 用数据证明了自主性提升能直接带来更好的用户反馈,建议参考这个方向优化自己的智能体策略。原文
04:41kimi_moonshot@kimi_moonshot78°Kimi Work 是一款桌面端本地 AI 智能体,支持最多 300 个 AI 代理并行运行。它通过 WebBridge 扩展可操控浏览器完成搜索、点击等任务,内置金融数据工具(Yahoo Finance、世界银行),无需复杂 API 配置。还具备记忆系统,能记录用户偏好和上下文,提升个性化体验。目前支持 macOS(Apple Silicon)和 Windows,可直接下载试用。AI产品智能体本地部署金融工具浏览器自动化Kimi7 个信源在谈推荐理由:本地运行 300 个 AI 代理并行工作,解决了云端依赖和效率瓶颈,做自动化办公或金融分析的团队可以直接上手试试。原文
04:16LangChain@LangChainAILangChain 发布了一段不到90秒的视频,由 @sydneyrunkle 讲解 Deep Agents 的概念。视频快速介绍了 Deep Agents 的核心思想——一种更智能、更自主的 AI 代理架构,能够处理复杂任务并做出决策。该内容适合对 AI 代理技术感兴趣的开发者快速了解前沿趋势。AI产品智能体LangChainDeep AgentsAI代理科普推荐理由:LangChain 官方出品的快速科普,90秒就能搞懂 Deep Agents 是什么,做 AI 代理开发的值得一看。原文
04:15Notion@NotionHQNotion的办公体验协调员Austin利用Notion开发者平台和Claude Code,创建了两个智能体来自动化新员工座位分配流程。一个智能体监控新员工数据库,在Slack中询问经理座位安排;另一个读取回复并通过OfficeSpace API分配座位。整个过程只需一条Slack消息,智能体即可完成其余工作,取代了以往每两周手动协调的繁琐流程。Austin表示自己并非工程师,但该方案每次入职周期为他节省数小时,显著提升了工作效率。AI产品智能体自动化Claude CodeNotion办公效率6 个信源在谈推荐理由:这个案例展示了非工程师如何用Claude Code和Notion平台快速搭建自动化工作流,做HR或办公管理的团队可以直接参考,用AI解决重复性协调任务。原文
03:51宝玉@dotey精选微信AI试图借鉴Agent Skills和MCP的成功经验,甚至开发规范都参考了它们,但小程序存在三个致命缺陷。首先,小程序无法自动进化,Agent发现问题时无法直接修改,只能凑合使用。其次,小程序无法高度定制化,而好用的Skill往往是个性化的,用户可自行定制并让Agent改进。最后,Agent的图形界面操作能力远不如脚本能力,除非微信AI将小程序接口做得像CLI一样,否则操作成本和成功率都难以保证。AI产品微信AIAgent SkillsMCP/工具小程序智能体推荐理由:做Agent开发或微信生态的开发者,这篇文章点出了小程序与Agent Skills的核心矛盾——封闭与进化、定制化的冲突,值得一看,避免踩坑。原文
03:45IT之家(博客/媒体)精选苹果在WWDC26宣布iOS 27、iPadOS 27、macOS 27、watchOS 27和visionOS 27将于今年秋季推出。全新Siri由Apple Intelligence驱动,支持开放式问答、个人背景理解及跨应用操作,独立App入口。Siri AI英文版今年晚些推出,兼容iPhone、iPad、Mac、Apple Watch和Apple Vision Pro。新功能包括照片空间重新构图、扩展工具、清理工具移除更大物体,以及生成多种风格图像的图像创作工坊。家长控制新增请求浏览、通信安全和按类别时间允许设置。AI产品iOS 27SiriApple Intelligence苹果智能体8 个信源在谈推荐理由:苹果AI Siri重大升级原文
03:04LangChain@LangChainAI精选LangChain 推出了 Deep Agents,一个开源智能体框架,旨在构建能够规划、使用工具、委托子代理、写入文件并长时间工作的智能体。该框架提供了一个可管理的环境,并集成到 LangSmith 中,为开发者提供持久化的智能体运行和监控能力。这一发布降低了构建复杂、长周期智能体的门槛,适合需要自动化多步骤任务的团队。AI产品智能体开源/仓库LangChainLangSmith工具调用推荐理由:LangChain 的 Deep Agents 解决了构建长周期、多步骤智能体的痛点,做自动化流程或复杂任务编排的开发者可以直接上手试试。原文
03:03elvis@omarsar0精选omar 指出当前对 agent loops 的炒作过度,认为其在代码库维护等可轻松验证的场景中表现良好,但在许多其他领域和真实用例中,人类在环(human in the loop)仍然必要。他建议设计既能支持自主运行又能方便人类协作与输入的循环,以对抗 AI 生成的“垃圾内容”(AI slop)。行业智能体agent loops人类在环AI slop行业观点推荐理由:做 AI 智能体开发的团队值得一看——omar 点出了 agent loops 的适用边界和潜在风险,提醒大家不要盲目追求全自动,设计时留好人类介入接口,避免产出低质量 AI 内容。原文
02:53NotebookLM@NotebookLMGoogle 的 NotebookLM 推出重大更新,新增智能体式对话、更高级的推理能力以及多种输出格式。这些功能首先面向 Google AI Ultra 订阅用户和 Workspace 商业客户开放,未来计划扩展到更多用户。升级后的 NotebookLM 能处理复杂、多步骤的研究问题,大幅提升效率。此次更新标志着 NotebookLM 从笔记工具向智能研究助手的转型。AI产品NotebookLM智能体研究助手Google AI Ultra推理模型推荐理由:NotebookLM 这次升级把研究效率拉高了一个台阶,做学术、市场或产品调研的团队可以直接用上智能体对话和多格式输出,省去手动整理资料的麻烦。原文
02:52Harrison Chase@hwchase17精选开发者 1LittleCoder 推出了名为 "Signals of AI" 的 DeepAgent 工具,专为竞品分析设计。该工具集成了 Nebius TF 进行推理、NVIDIA Nemotron 3 Ultra 模型、Tavily 进行网络搜索,以及 LangChain 作为核心架构。它能够自动收集和分析竞争对手信息,为产品经理提供实时洞察。代码已开源,可直接使用。AI产品竞品分析智能体LangChainNVIDIA Nemotron开源/仓库9 个信源在谈推荐理由:产品经理和竞品分析师终于有了自动化工具——DeepAgent 整合搜索与推理,帮你实时追踪竞品动态,建议直接拉代码试试。原文
02:51NotebookLM@NotebookLM78°Google 的 NotebookLM 迎来重大升级,新增智能体对话能力、更高级的推理功能以及多种新输出格式。用户现在可以更轻松地处理复杂、多步骤的研究问题。该更新已向 Google AI Ultra 订阅用户开放。此次升级使 NotebookLM 从简单的笔记工具转变为更强大的研究助手。AI产品NotebookLM智能体推理模型研究助手Google AI推荐理由:做深度研究或复杂信息整理的团队终于有了更智能的工具——NotebookLM 现在能像智能体一样处理多步骤问题,AI Ultra 订阅用户可以直接体验。原文
02:39Anthropic@AnthropicAI精选Anthropic发布新科学博客,分析AI在编程领域(如代码生成)比生物学(如药物发现)进步更快的原因。文章比喻生物数据库对AI智能体如同汽车时代前的城市设计,难以导航。文章呼吁构建更适合智能体使用的生物信息基础设施,以加速AI在生物学中的应用。论文Anthropic智能体生物数据库AI编程基础设施10 个信源在谈推荐理由:Anthropic谈AI与生物基础设施原文
02:18rohanpaul_ai@rohanpaul_ai精选72°一篇新论文提出CL-BENCH基准,测试AI智能体是否真正从经验中学习,而非仅依赖记忆。研究发现,简单的全上下文学习优于专门的记忆系统,Claude Sonnet 4.6在纯上下文模式下取得最佳成绩。该基准涵盖编码、数据库、预测等6个领域,要求智能体在连续任务中发现模式。结果表明,当前记忆密集型AI智能体并未比保持完整对话上下文更可靠地学习。这提醒我们,长期运行的AI智能体需要更好的方式来记住有用经验、遗忘过时信息并适应环境变化。论文智能体基准测试持续学习记忆系统Claude Sonnet推荐理由:这篇论文戳破了AI智能体“越用越聪明”的幻觉,做智能体开发或长期任务自动化的团队值得看看——你的系统可能只是在记笔记,而不是真在学习。原文
02:12LangChain@LangChainAI精选LangChain 提出每个智能体都需要一台“计算机”,关键在于如何安全地提供。他们推出了 LangSmith Sandboxes,作为解决方案,旨在为 AI 智能体提供隔离、可控的执行环境。这解决了智能体在运行代码或访问资源时的安全风险问题,让开发者能更放心地部署自主代理。该功能目前已在 LangSmith 平台上线,值得关注。AI产品智能体安全LangChainLangSmith沙箱推荐理由:LangChain 解决了智能体安全执行的核心痛点,做自主代理开发的团队可以直接用 Sandboxes 隔离风险,建议点开看看具体实现。原文
01:47lmarena.ai@lmarena_ai精选Agent Arena 排行榜正式上线,该榜单基于超过一百万次真实野外会话数据,挖掘出五个关键行为信号来评估智能体性能:确认成功、表扬与投诉、可操控性、Bash 恢复以及工具幻觉检测。这些信号从真实用户交互中提取,能更准确地反映智能体在实际场景中的表现。开发者可通过 arena.ai/leaderboard/ag 查看排行榜,了解不同智能体的行为质量。AI产品智能体排行榜行为信号评估Agent Arena推荐理由:做智能体开发和评估的团队终于有了基于真实用户行为的量化指标,比传统基准测试更贴近实际使用,建议点开看看你的智能体在这些信号上表现如何。原文