04:02lmarena.ai@lmarena_ai82°Agent Arena推出了因果追踪方法论,通过分析人类与AI代理协作的追踪数据来量化协作的真实价值,并能观测到广泛的模型行为。基于该方法的新排行榜显示,GLM-5.2 (Max)进入前十,成为最强开源模型,确认成功率比基线高+9.4%,表扬-抱怨比高+14.9%。Claude Fable 5在几乎所有指标上曾排名第一,但因美国政府指令暂停访问。排行榜基于数百万个真实世界长期代理任务,使用因果追踪评估模型相对于平均模型的表现。AI模型Agent ArenaGLM-5.2Claude Fable 5Anthropic智能体10 个信源在谈推荐理由:想看看人机协作到底有没有用?Agent Arena拿数据说话,GLM-5.2开源最强,Claude Fable 5刚登顶就被叫停,这瓜值得吃。原文
03:04vLLM@vllm_project精选Poolside 发布开源智能体编程模型 Laguna M.1,采用 70 层稀疏 MoE 架构,总参数量 225B,每 token 激活 23B,支持 256K 上下文。模型使用 256 个专家,top-k=16 路由,专为长程智能体编程设计。支持工具调用间交错推理,可每请求切换,采用 Apache 2.0 许可。vLLM v0.21.0 已提供 Day-0 支持。AI模型Laguna M.1Poolside开源模型编程助手智能体2 个信源在谈推荐理由:Poolside 刚开源了 Laguna M.1,225B 参数的智能体编程模型,256K 上下文,vLLM 已原生支持,想玩 agentic coding 的可以试试。原文
03:02HeyGen@HeyGen_OfficialHeyGen推出MCP服务器,可集成到Cursor AI中。只需在Cursor中指向项目的README文件,输入一条提示,AI就能自动提取产品功能和定价信息,生成完整的发布视频。整个过程无需拍摄或剪辑,直接从仓库数据生成。该功能降低了产品视频制作的门槛,适合快速发布演示。技巧HeyGenCursorMCP视频生成智能体3 个信源在谈推荐理由:HeyGen出了MCP服务器,扔进Cursor里,读你的README就能自动生成产品视频,省去拍摄剪辑,超实用!原文
02:32LlamaIndex@llama_index约90%的企业数据是非结构化的,被锁定在文档中,构成知识工作的主体。LlamaIndex CEO Jerry Liu在Databricks DataAISummit上演讲,介绍了OCR和agent编排的核心进展。这些技术使AI智能体能够大规模理解、推理和编辑文档,从而自动完成整个工作流程。演讲于当地时间10:20 AM在Yerba Buena Salon 7举行。行业LlamaIndexDatabricks智能体非结构化数据文档自动化1 个信源在谈推荐理由:LlamaIndex的CEO在Databricks峰会上聊了怎么用AI智能体搞定那90%的非结构化数据,不是画饼,有具体的OCR和编排思路,搞企业自动化的朋友可以看看。原文
02:22LangChain@LangChainAILangChain 推出 Deep Agents 深度解析第四部分,核心主题是 steering 功能。该功能通过第一类 HITL(人在回路)原语,允许用户在 Agent 执行过程中实时介入和调整行为。与传统的自动化流程相比,steering 提供了更细粒度的控制,无需重新启动整个 Agent。此特性使开发者能灵活纠正方向或注入上下文,提升复杂任务的可靠性。AI产品LangChainDeep AgentsSteering人在回路智能体推荐理由:LangChain 教你用 HITL 原语引导 Deep Agents,比硬编码指令灵活多了,跑偏了也能随时拽回来。原文
01:54LMSYS Org (SGLang)@lmsysorgpoolside发布的Laguna M.1是一个225B参数的MoE模型,专为智能体编码和长期任务设计。该模型采用70层结构:3个密集SwiGLU层加67个稀疏MoE层,共有256个专家,top-k=16且使用无辅助损失负载均衡。它在所有层使用全局注意力:64个Q头、8个KV头,以及softplus输出门控。Laguna M.1支持原生交错推理:在工具调用之间进行思考,并可每个请求切换。在SWE-bench Verified、SWE-bench Multilingual、SWE-Bench Pro和Terminal-Bench 2.0上表现强劲。现在可通过SGLang运行。AI模型Laguna M.1poolsideSGLang智能体编程助手2 个信源在谈推荐理由:poolside刚发的225B MoE模型Laguna M.1,专为智能体编码设计,SGLang直接跑起来了,在SWE-bench上很强。原文
01:32DeepLearning.AI@DeepLearningAIDeepLearning.AI与Vocal Bridge合作举办7天语音AI构建挑战赛,6月23日开始。挑战赛教你构建能自主判断何时给你打电话的智能体,而不是让你一直盯着终端。参与者可加入等待清单,还有实时排行榜和奖品。先修课程是Voice AI课程,可提前准备。技巧DeepLearning.AIVocal BridgeVoice AI智能体语音AI推荐理由:DeepLearning.AI和Vocal Bridge搞了个7天挑战赛,教你让智能体主动给你打电话,不用一直盯着终端,6月23号开赛有奖品,想玩语音AI的赶紧加入等待清单。原文
01:28xAI@xai精选xAI 宣布 Grok 模型集成到 Databricks Agent Bricks 平台。企业用户可在 Databricks 环境中直接使用 Grok 模型处理数据,构建 AI 智能体。该集成支持企业将自有数据与 Grok 模型结合,提升智能体能力。AI模型GrokDatabricksxAI智能体企业应用推荐理由:xAI 把 Grok 搬上 Databricks,企业可以直接在自己的数据上跑 Grok 做智能体,不用再折腾部署了。原文
00:19LangChain@LangChainAILangSmith 推出 LLM Gateway,为 LLM 调用提供成本控制与安全防护。该网关可设定预算上限,防止智能体因循环或错误而消耗高达 1 万美元的 API 费用。它支持速率限制、密钥管理和实时监控,使开发者能安全部署智能体。AI产品LangSmithLLM GatewayLangChain智能体成本控制推荐理由:LangChain 出了个 LLM 网关,能设预算上限防止智能体烧钱,跑智能体再也不怕睡着后出事了。原文
00:05Jerry Liu@jerryjliu0LlamaIndex CEO Jerry Liu 在 Databricks 的 DAIS 2026 上发表演讲,探讨通用知识代理。他指出约90%的企业数据是非结构化的,锁定在文档中。演讲聚焦OCR和代理编排的核心进展,使AI代理能够深入理解、推理并编辑这些文件,从而自动化整个工作流。AI产品LlamaIndexJerry LiuDatabricksDAIS 2026智能体1 个信源在谈推荐理由:LlamaIndex 的 CEO 讲了怎么用 OCR 和代理编排处理 90% 的非结构化企业数据,值得搞知识管理的朋友听听。原文
23:40LangChain@LangChainAILangChain发布一条教程,展示如何通过迭代循环将agent从首次运行优化到生产就绪。教程强调使用LangSmith进行观察和评估,以构建可靠的agent。内容包含具体步骤,帮助开发者逐步改进agent性能。LangSmith是LangChain推出的调试和评估平台,支持agent的追踪、测试和迭代。技巧LangSmithLangChain智能体生产就绪推荐理由:LangChain官方手把手教你用LangSmith一步步打磨agent,从跑起来到能上线,很实用。原文
23:34OpenAI@OpenAI精选OpenAI 的 o3 Deep Research 模型在罕见病诊断中发挥辅助作用,它能够处理测序产生的数百万变异。该模型连接临床特征、遗传模式、变异证据和科学文献,生成假设供专家审核。所有结果都经过人工裁决和临床确认,AI的作用是帮助专家更快、更全面地推理复杂、碎片化的证据。AI模型o3 Deep ResearchOpenAI推理模型医疗AI智能体10 个信源在谈推荐理由:OpenAI 的 o3 Deep Research 能帮医生快速分析海量变异数据,连接文献和临床特征,生成诊断假设。原文
23:30elvis@omarsar0Viktor是一个原生集成在Microsoft Teams的AI agent,用户只需@提及即可自动接收任务、完成工作并提议下一步行动,无需学习或编写提示词。该产品在Slack上已实现2000万美元年收入运行率,现在正式扩展到拥有3.2亿用户的Teams平台。新用户可获得100美元免费额度,无需绑定信用卡。AI产品ViktorMicrosoft TeamsSlack智能体AI员工5 个信源在谈推荐理由:Viktor像同事一样住在Teams频道里,你@它就能干活,不用学不用指令,它会主动提方案。和那些需要学习提示词的AI完全不同。原文
23:10elvis@omarsar0精选SkillWeaver系统提出组合技能路由(Compositional Skill Routing),将复杂查询分解为原子子任务,为每个子任务检索对应技能,并通过依赖感知的DAG规划器组合成可执行计划。配套基准CompSkillBench包含300个组合查询和2,209个真实技能,直接评估多技能场景。系统使用LLM分解器、bi-encoder FAISS检索器和DAG规划器。该工作解决了技能库增长时单技能检索限制智能体能力的问题。论文SkillWeaverCompSkillBench智能体组合技能推荐理由:这篇论文做了件实在事:给AI智能体设计了一个能自动拆复杂任务、按顺序调多个技能的系统。还附带了新评测集,想了解多技能路由可以看看。原文
21:01Geek@geekbb这是一款原生桌面应用,用于浏览、安装和管理AI编程工具的Agent角色。用户可通过该应用切换不同编程助手的Agent配置。应用已在GitHub上开源,提供图形界面操作。AI产品智能体编程助手桌面应用开源工具推荐理由:想在多个AI编程助手间切换Agent角色?这个桌面应用让你一键管理,不用手动改配置了。原文
19:25Dify@dify_ai76°Dify 宣布 MongoDB Atlas 和 Voyage AI 原生接入其工作流。MongoDB Atlas 提供数据存储层,Voyage AI 通过嵌入和重排序提升检索质量。Dify 编排智能体和工作流层,用户无需自建基础设施即可构建 RAG 应用。MongoDB 团队还贡献了一个可直接使用的 RAG 模板,已上线 Dify 模板市场,帮助团队快速从想法到可运行应用。AI产品DifyMongoDB AtlasVoyage AIRAG智能体推荐理由:Dify 现在原生集成了 MongoDB Atlas 和 Voyage AI,做 RAG 不用自己拼基础设施了,还有现成模板,搞知识助手或推荐智能体更省事。原文
19:09阿里云 Alibaba Cloud@alibaba_cloud阿里云在东京启用了第5个数据中心,同时将Model Studio平台引入日本市场。该平台支持企业使用最新Qwen模型构建下一代AI智能体。此举旨在加强日本代理式AI时代的基础设施建设。行业Alibaba CloudQwenModel Studio日本智能体推荐理由:阿里云在日本搞大事了:新开第五座数据中心,还把Model Studio带过去,让企业直接用Qwen模型造智能体。原文
18:07shao__meng@shao__mengCursor 被 SpaceX 以 600 亿美元收购。同时,Cursor 宣布收购开源代码补全工具 Continue。此外,Cursor 推出 Agent 版 GitHub 平台「Origin」。Cursor 还计划在几周内发布与 Claude、GPT 参数等级相同的新模型。行业CursorContinueSpaceXOrigin智能体10 个信源在谈推荐理由:Cursor 被 SpaceX 花 600 亿买下,还顺手收购了 Continue,马上要出对标 Claude 的新模型,做编程的可以关注一下。原文
14:43小互@imxiaohuApodex是一个多Agent协作的深度研究求解器,可一次调度150个子Agent,总步数达15,000步。在BrowseComp上超越GPT-5.5-pro,在DeepSearchQA上超越Claude-Opus-4.8和Kimi-K2.6。内置三层自我验证机制和全局验证器,由AgentOS驱动底层事务。适合科研和金融领域的复杂调研任务。AI产品ApodexAgentOS多Agent智能体推荐理由:Apodex能派150个Agent跑15000步帮你深挖问题,自主校验结果,在Benchmark上超了GPT-5.5和Claude-Opus。原文
12:57@atomic_chat_hq@atomic_chat_hqAtomic 宣布与开源 AI Agent Goose 合作。用户可以在本地设备上通过 Atomic 运行 Goose,使用本地模型完成代码编辑、功能构建和自动化工作流。全程数据保留在本地,无需联网。AI产品AtomicGoose本地模型智能体编程助手推荐理由:Atomic 和 Goose 合作了,你可以在自己电脑上本地跑 Agent 处理代码和自动化任务,数据不离开设备。原文
12:53AI Will@FinanceYF5Amazon屏蔽了ChatGPT的爬虫,阻止其收集产品信息,导致来自LLM的流量下降。与此同时,Amazon推出的应用内购物助手Rufus有一定用户互动,但其增长速度不及Walmart的竞品Sparky。X平台用户@FinanceYF5评论指出这一现象,数据显示该推文仅获1个点赞和0次转发,但仍反映了两家零售巨头在AI助手策略上的差异。行业AmazonChatGPTWalmartRufus智能体推荐理由:Amazon为保护数据屏蔽ChatGPT爬虫,结果LLM流量跌了,自家Rufus还跑不过Walmart的Sparky,想了解电商AI竞争格局的可以看看。原文
10:58shao__meng@shao__meng74°Vercel 开源了 Agent 框架 Eve,将 Agent 定义为目录结构,内置持久会话(基于 Workflow SDK 的可 checkpoint 工作流)、沙箱(本地 Docker/microsandbox,部署用 Vercel Sandbox)和 Human-in-the-loop 审批机制。Eve 支持 MCP/OpenAPI 连接、多 Channel(HTTP、Slack、Discord、Teams)和定时任务。内部验证显示:d0 月处理 3 万+ 问数,Lead Agent 年成本约 $5k,回报约 32 倍,Vertex 约 92% 工单自动解决。开发者可用 eve dev 本地调试,vercel deploy 部署,Agent 进 Git 管理。AI产品VercelEve智能体MCP/工具开源框架5 个信源在谈推荐理由:Vercel 开源了 Eve,把 Agent 做成标准目录,内置沙箱、持久会话和审批流,开发部署一条龙,内部验证 ROI 高达 32 倍。原文
10:50小互@imxiaohu精选该MCP插件内置对蓝图、资产、关卡、材质、网格体等核心系统的支持,无需额外配置即可让AI Agent读取并修改关卡内容。例如用户下达“把所有红色材质换成蓝色”指令后,AI能自动读取材质参数并执行修改。插件还预留接口,允许开发者接入自定义系统扩展功能。技巧MCPUnreal EngineAI Agent智能体游戏开发推荐理由:这个MCP插件让人能用自然语言直接操控Unreal Engine场景,省掉手写蓝图和脚本的麻烦。原文
08:01LlamaIndex@llama_index精选关于智能体检索架构,团队在向量数据库和纯grep之间存在分歧。LlamaIndex工程主管George He将于6月29日分享在LlamaParse Index中构建检索架构的决策和死胡同。实际需要两者结合:语义搜索用于快速初筛,grep和文件读取用于top-k块切分不完整时的精确检索。活动注册见landing.llamaindex.ai/retrieval-harn…。行业向量数据库grepLlamaIndexLlamaParse智能体推荐理由:LlamaIndex的工程主管来讲检索架构实战,区分语义搜索和精确grep的时机,做智能体的别错过。原文
07:42宝玉@dotey该方法通过内循环每2小时检查新邮件,自动检索上下文生成草稿但不发送。用户修改草稿后,外循环根据修改记录优化写作Skill。这种自动化循环让Agent不断学习用户风格,提升后续草稿质量。技巧Loop Engineering智能体提示词工程自动化工作流推荐理由:这个工作流把自动写邮件草稿和自动学习你风格的动作做成循环,越来越懂你,适合常写邮件的人。原文
05:56elvis@omarsar0精选Block 公司构建了名为 Builderbot 的内部 AI 系统,通过 orchestrator 代理协调多个代理跨代码库工作。工程师在 Slack 中标记 Builderbot,系统即可自动研究、规划并发布代码。该平台每天处理 200,000 次操作,每周合并 1,500 个拉取请求,占 Block 全部生产代码变更的 15%。原本需要数月的工作现在只需数天完成。AI产品BuilderbotBlock智能体代码生成编程助手5 个信源在谈推荐理由:Block 内部搞了个 Builderbot,每天自动处理 20 万次操作、合并 1500 个 PR,把几个月的工作缩短到几天,效率太猛了。原文
05:47Jerry Liu@jerryjliu0精选LlamaIndex 将 Agentic Search 从固定 RAG 管道升级为灵活 agent harness,供 AI 代理访问 keyword search(BM25、grep regex)和 semantic search 两类工具。当用户上传非结构化文档至 LlamaParse 时,系统自动暴露这些检索能力。公司将于6月30日举办网络研讨会,探索各工具在 agentic search 中的最佳用法。AI产品LlamaIndexLlamaParseagentic search智能体检索工具推荐理由:LlamaIndex 在 LlamaParse 里加了一套检索工具包,包括 BM25 和语义搜索,让 agent 能灵活调取。6月30日还有免费 webinar 讲架构细节,干搜索的可以看看。原文
05:15LangChain@LangChainAILangChain为Harbor添加了完整Dockerfile快照支持,可自动构建、缓存和复用任务环境快照。新增SDK profile支持,用户无需修改配置即可切换不同目标环境。同时实现了完整的exec/upload/download生命周期,使Harbor任务在不同沙箱提供商间行为一致。这些功能主要面向运行智能体评估的用户,相关文档已在docs.langchain.com/langsmith/sand…上线。AI产品LangChainHarborDockerfile智能体沙箱环境推荐理由:简单说,LangChain给Harbor加了三个实用功能,跑agent评估时能自动管理环境快照、切换配置,省去重复搭建的麻烦。原文
05:05lmarena.ai@lmarena_ai76°Agent Arena上线两周,新增10个模型。GLM-5.2 (Max)进入前十,以+9.4%确认成功率和+14.9%赞美vs抱怨率成为最强开源模型。Claude Fable 5在多项指标排名第一,但受美国政府指令暂停访问。评测基于超过30万任务、200万次工具调用和4000万行代码。AI模型Agent ArenaGLM-5.2Claude Fable 5智能体OpenAI10 个信源在谈推荐理由:想看看最新智能体模型谁最强?Agent Arena更新了,GLM-5.2开源冲进前十,Claude Fable 5暂时下线,榜单有了新格局。原文
05:04@OpenAIDevs@OpenAIDevsOpenAI Devs上周与Women who Code(x)社区合作举办活动。参与者使用Codex构建了任务代理和个人指南等应用。活动展示了Codex在辅助编程和快速开发项目方面的实际能力。行业OpenAICodex智能体社区活动10 个信源在谈推荐理由:OpenAI和Women who Code(x)用Codex搞了个活动,实际展示了怎么用Codex快速搭建智能体和项目,很接地气。原文
04:02Richard Socher@RichardSocherRichard Socher预测未来AI模型将按层级划分,Junior模型按小时或Token计费成本更低,承担基础工作、琐碎任务和低影响力决策。Senior前沿模型负责综合事实、做出重要决策并委派任务给Junior模型。人类将转型为管理者,管理自己的智能体组织。Recursive公司认为这一趋势有利。行业智能体AI分层Recursive模型成本推荐理由:Richard Socher说未来AI分成Junior和Senior,Junior便宜干杂活,Senior做决策,人类当经理。挺有意思的AI组织想法。原文
04:01lmarena.ai@lmarena_aiAgent Arena排行榜已上线,用于评估不同AI智能体的表现。该排行榜支持用户按开源模型或实验室筛选查看结果。用户可通过链接 arena.ai/leaderboard/ag… 直接访问。AI模型Agent Arena智能体开源模型实验室推荐理由:想对比开源智能体的表现?Agent Arena新排行榜支持按模型或实验室筛选,一目了然。原文
03:57Stanford AI Lab@StanfordAILab精选斯坦福AI实验室提出DeLM(Decentralized Language Models),这是一种无需中央协调器的多Agent协作框架。在SWE-bench Verified基准上,使用Gemini-3 Flash的DeLM实现了约10%的性能提升,同时推理成本降低超过一半。该方法在编程和多文档问答等Agent任务中表现出更高的准确性和经济性。AI模型DeLMGemini-3 FlashSWE-bench智能体斯坦福推荐理由:斯坦福搞了个新方法DeLM,不用中央协调器调度Agent,编程和多文档问答更准更便宜,SWE-bench提升10%成本减半,值得试试。原文
03:53LangChain@LangChainAILangChain 发布 Deep Agents 深度解析第三部分,聚焦 Delegation 委派功能。该工具让模型能自动规划复杂任务,并内置子智能体支持。来自 @SydneyRunkle 的 90 秒讲解视频详细演示了如何通过委派分工提升任务执行效率。技巧Deep AgentsLangChain智能体任务规划教程推荐理由:LangChain 出了个 Deep Agents 新视频,讲怎么用委派功能规划复杂任务,还自带子智能体支持,90 秒就讲明白。原文
03:29Genspark@genspark_aiGenspark 发布了 AgentBase 预览版,该工具能将数据转化为自定义数据库、仪表盘和内部系统。它兼容 Salesforce、HubSpot 等现有数据库,并能从收件箱、文件、应用和会议笔记中拉取数据。用户可通过一句话提示词构建 CRM、招聘系统、项目追踪器等,声称可替代 30 多个 SaaS 工具。AI产品GensparkAgentBaseSalesforceHubSpot智能体推荐理由:Genspark 出了个 AgentBase,能把你的 Salesforce 和 HubSpot 数据接进来,一句话就搭出 CRM 或项目系统,不用再买一堆 SaaS 了。原文
03:01LlamaIndex@llama_indexLlamaIndex CEO Jerry Liu在Databricks #DataAISummit上,与LangChain、CrewAI等公司创始人同台讨论Agentic Stack。该小组于上午11:30开始,聚焦智能体堆栈的构成、发展路径以及当智能体(而非人类)成为基础设施主要消费者时的变化。行业LlamaIndexJerry LiuLangChainCrewAIDatabricks智能体1 个信源在谈推荐理由:想了解AI智能体基础设施的未来方向?听LlamaIndex、LangChain、CrewAI创始人面对面聊聊他们的最新看法。原文
02:40DeepLearning.AI@DeepLearningAIDeepLearning.AI 与 VocalBridge 合作推出免费短课程 Voice for AI Agents and Applications,由 CEO Ashwyn 讲授。课程教你用最少代码为现有 AI 代理添加语音功能,无需修改 prompts、RAG pipeline 或工具。你将实现三种集成模式:应用内嵌入语音、将语音层叠到现有代理、以及将语音作为可调用工具用于外拨电话。课程现已开放免费报名。技巧DeepLearning.AIVocalBridge智能体语音教程推荐理由:想给你的 AI 代理加上语音但怕改代码?这门课讲三种集成方式,不用动原提示词和 RAG,几分钟就能上手。原文
02:36Aadit Sheth@aaditshAadit Shanbhag(@aaditsh)分享了他对vibecoding的态度转变,从怀疑到相信。他展示了Circle AI这款AI伙伴,能帮你描述梦想业务并自动构建、运行和增长数字业务。该推文获得6次点赞、1次转发和1320次查看。AI产品Circle AIvibecodingAadit Sh智能体编程助手推荐理由:Aadit说自己原来不信vibecoding能搞企业级生意,现在被Circle AI打动了,你可以看看它怎么用自然语言帮你搭业务。原文
02:14Jim Fan@jimfan76°Jim Fan团队推出ENPIRE系统,让8个Codex智能体操控机器人舰队自主进行物理实验。系统硬编码两层安全机制:硬运动学限制和扭矩限制夹爪,防止机器人超出安全范围。通过人类演示几分钟成功/失败样本,智能体编写计算机视觉代码生成分类器作为冻结奖励函数。定义Mean Robot Utilization(MRU)和Mean Token Utilization(MTU)监控资源,以Tokens-to-Success和Time-to-Success衡量效率。AI模型ENPIRECodex机器人智能体安全2 个信源在谈推荐理由:Jim Fan展示了ENPIRE,8个机器人靠Codex智能体自主做实验,安全机制和资源监控设计挺有意思。原文
01:49LangChain@LangChainAILangChain 推出 On-Call Copilot,这是 LangSmith Fleet 中的一个新代理模板。该模板可对每条告警进行分类,并自动调查代码和追踪数据中的根因。它还能管理工单、将事件路由到正确渠道,并从 runbook、升级规则和噪声模式中持续学习。这一模板旨在提升运维团队的事件响应效率。AI产品LangChainOn-Call CopilotLangSmith Fleet智能体自动化运维推荐理由:LangChain 新出的 On-Call Copilot 模板,能自动处理告警、查根因、管工单,运维团队可以省不少事。原文