02:16vLLM@vllm_project精选vLLM 宣布 Day-0 支持 Liquid AI 的 LFM2.5-230M 小模型。该模型仅 230M 参数,预训练于 19T tokens 且支持 32K 上下文。专为手机、机器人、家庭自动化和网络设备上的 agent 任务设计。可运行于 CPU、NPU 和 GPU 等硬件。AI模型LFM2.5-230MvLLMLiquid AI智能体轻量模型推荐理由:vLLM 第一时间给 Liquid AI 的 LFM2.5 小模型做了适配,230M 参数跑 agent 任务,手机、机器人上都能用。原文
01:57Google DeepMind@GoogleDeepMind74°Google DeepMind 宣布 Gemini 3.5 Flash 新增原生计算机使用能力。开发者可利用该内置工具构建能跨浏览器、移动端和桌面界面观察并执行操作的定制智能体。该功能无需额外适配即可直接操控 GUI 元素。AI模型Gemini 3.5 FlashGoogle DeepMind智能体计算机使用推荐理由:DeepMind 给 Gemini 3.5 Flash 加了个内置计算机操作工具,开发者能直接让模型看屏幕、点按钮,跨浏览器和桌面都行。原文
01:39elvis@omarsar0OpenRouter 发布了 MCP(模型上下文协议)功能,允许智能体在运行时基于实时智能动态选择、定价和测试模型。该功能解决了智能体依赖6个月前的训练数据猜测模型的问题。开发者可以用它运行长时间运行的智能体,并自动选择最合适的模型。AI产品OpenRouterMCP智能体模型选择开发者工具推荐理由:OpenRouter 出了个新工具,让你的智能体自己挑模型、比价格、做测试,不用再拿半年前的旧数据瞎猜了。原文
01:37Greg Brockman@gdbOpenAI内部数据显示,公司各部门正在广泛使用Codex代理工具。这些代理工具使员工能够处理更复杂、运行时间更长且跨职能的工作任务。OpenAI认为,随着这些工具能力提升,它们可能重塑未来工作方式。AI产品OpenAICodex智能体编程助手10 个信源在谈推荐理由:OpenAI自己爆料,他们内部用Codex搞定了更复杂的跨部门工作,数据真实,值得看看。原文
01:33OpenAI@OpenAI76°OpenAI官方透露,公司内部所有部门正在使用Codex Agent完成更复杂、更长周期、跨职能的工作。Codex Agent能够处理多步骤任务,提升自动化程度。这展示了代理工具在组织内实际落地的早期案例。行业OpenAICodexAgent智能体自动化工作流10 个信源在谈推荐理由:看看OpenAI自家怎么用Agent的,Codex在财务、工程、运营各部门跑起来了,不是空谈。原文
01:04Figma@figmaFigma 发布了 MCP connectors,让 Figma agent 能够连接外部工具与服务。该功能基于 Model Context Protocol(MCP)标准,目前处于早期阶段。用户可通过简单的配置让 agent 调用 Slack、Notion 等工具,扩展设计工作流。Figma 表示后续将开放更多连接器选项。AI产品FigmaMCP设计工具智能体10 个信源在谈推荐理由:Figma 出了 MCP 连接器,让设计 agent 能直接调用 Slack、Notion,工作流更顺了。原文
01:02AK@_akhaliq一条关于智能体原生内存系统的推文在X上获得3166次浏览和13个点赞。讨论聚焦于AI代理是否需要专属的记忆架构来提升自主性。作者质疑现有技术是否已为这种系统做好准备。暂无具体模型或基准数据支撑。行业智能体内存系统AI架构长期记忆推荐理由:有人在聊智能体要不要有自己的记忆系统,思路挺新鲜的,点开看看讨论。原文
00:57Philipp Schmid@_philschmidGoogle 在 Gemini 3.5 Flash 中上线了 computer use 功能,支持浏览器、移动端和桌面环境。开发者 Philipp Schmid 发布了一个快速入门教程,用单个脚本从终端安装 Android 模拟器。教程包含基础 agent 循环,通过 adb 接口控制手机,也支持远程设备连接(adb connect <ip>:5555)。类似模式可扩展到 iOS 的 simctl。技巧Gemini 3.5 FlashGoogleAndroidadb智能体推荐理由:Google 刚给 Gemini 3.5 Flash 加了 computer use,这份教程用一条命令就能在模拟器上跑 agent 控制手机,还支持远程和 iOS,很实用。原文
00:57AWS Machine Learning Blog@Aurelio DeSimone精选AWS发布了Chaplin开源方案,利用AI代理通过模型上下文协议(MCP)提供自助健康事件分析。Chaplin基于Amazon Bedrock,可自动聚合AWS Health事件并提供可操作建议。该方案支持自然语言查询,无需编写复杂代码即可洞察AWS资源健康状态。用户可快速部署并自定义MCP服务器来扩展分析能力。技巧Amazon BedrockChaplinMCP智能体AWS服务推荐理由:AWS出了个叫Chaplin的开源工具,用Bedrock的AI代理配合MCP协议,让你自然语言查AWS健康事件,不用写代码就能找到问题原因。原文
00:30Google AI Developers@googleaidevs精选73°Google AI Devs 宣布 Gemini 3.5 Flash 的 Computer Use 工具正式可用。该工具支持在浏览器、移动和桌面环境中构建可看可操作的智能体,处理长时任务。新增特性包括:内置移动和桌面操作系统支持、所有函数调用的意图参数、可定制客户端函数支持人机交互接管、提示注入检测及可配置安全策略。可用于自动化 QA 测试和业务流程等场景。AI产品Gemini 3.5 FlashComputer Use智能体自动化测试Google推荐理由:Google 给 Gemini 3.5 Flash 加了 Computer Use 工具,能让智能体跨浏览器、手机和桌面干活,还能自定义安全策略,实用!原文
00:26shao__meng@shao__mengSuperNori 是一款针对家庭照料者的 Proactive Family AI Agent,能主动监测堵车、冰箱库存、孩子学习进度、纪念日等事件。用户无需手动操作,AI 会在合适时机询问是否处理。该项目已开放候补名单,目标减轻家庭中总在照顾他人的那个人的负担。AI产品SuperNori家庭AI智能体主动提醒1 个信源在谈推荐理由:家里总是你操心?SuperNori 这个 AI 代理会主动提醒你堵车、冰箱空了、孩子学什么,不用你一个个记,试试看。原文
00:24Firecrawl@firecrawl_devFirecrawl MCP 发布新功能,文档解析速度提升5倍。支持PDF、电子表格和文档,可将内容转为LLM-ready数据。支持本地运行或使用托管MCP服务器,无需API密钥即可在免费层试用。AI产品FirecrawlMCP文档解析智能体PDF推荐理由:Firecrawl MCP 现在解析文档快了5倍,免费就能用,让你的智能体直接读PDF和表格。原文
00:06techcrunch@Rebecca BellanAI公司General Intuition在最新一轮融资中筹集3.2亿美元,累计融资额达23亿美元。该公司利用《堡垒之夜》等数百万小时游戏数据训练AI智能体,旨在让AI学习人类直觉。其技术已应用于机器人领域,让机器人在虚拟环境中习得技能后迁移到现实。投资人包括软银、微软等,投后估值约60亿美元。行业General IntuitionFortnite机器人智能体融资推荐理由:General Intuition用游戏数据训AI机器人,刚融了3.2亿,和普通算法训练思路不一样,感兴趣可以看看。原文
23:55elvis@omarsar0Hyperagent是一款为本地agent提供专属云端机器的服务,解决了本地agent运行时的崩溃、泄密和频繁监控问题。Andrew Busse指出OpenClaw像保姆一样麻烦。新用户注册可获得100美元推理积分,迁移首个agent再获500美元。该服务在hyperagent.com提供有限期优惠。AI产品Hyperagent智能体云端推理Andrew Busse3 个信源在谈推荐理由:如果你受够了本地agent崩溃和泄露,Hyperagent给每个agent配云端专机,新用户还能拿600美元积分,赶紧试试。原文
23:46OpenRouter@OpenRouterAIOpenRouter 发布新功能,允许用户通过两条命令(claude mcp add --transport http openrouter mcp.openrouter.ai/mcp 和 claude mcp login openrouter)在一分钟内完成模型的选择、定价、测试和集成。该功能基于 MCP(Model Context Protocol),支持所有主流代理(如 Claude)。用户可在 openrouter.ai/mcp 立即使用。技巧OpenRouterClaudeMCP智能体工具推荐理由:OpenRouter 搞了个骚操作,两行命令就能把模型接到 Claude 等代理里,一分钟搞定测试和定价,省去一堆配置。原文
23:45OpenRouter@OpenRouterAI精选OpenRouter推出MCP(模型上下文协议),使AI智能体能够直接获取实时模型信息。该工具可动态评估模型价格、性能并测试,替代依赖6个月前训练数据的猜测。集成后智能体可为任务精准选型,提升效率。AI产品OpenRouterMCP智能体模型选择实时模型推荐理由:OpenRouter新出的MCP能让你的AI智能体实时选模型,不用瞎猜了,还能比价测试,直接集成。原文
23:37berryxia@berryxiaOrnith-1.0 模型家族覆盖 9B 到 397B MoE 全尺寸。在 Terminal-Bench、SWE-Bench 等 agent coding 基准上达到当前开源模型顶尖水平。其训练方式使用 RL 同时优化任务脚手架和最终解决方案。模型全系列 MIT 开源,并提供了 GGUF 版本,可在 Ollama、Unsloth 等工具中直接运行。AI模型Ornith-1.0Terminal-BenchSWE-BenchOllama智能体推荐理由:Ornith-1.0 用 RL 教模型搭执行框架,在 SWE-Bench 上表现顶尖,本地党还有 GGUF 版本可玩。原文
23:24Guillermo Rauch@rauchg精选AI SDK 7正式发布,新增推理控制(reasoning control)和代理级工具审批(agent-level tool approval)功能。支持MCP应用、持久化工作流(durable workflows)和终端UI。还包含文件和技能上传、沙箱支持、测试框架集成及遥测等特性。AI产品AI SDKaisdkMCP/工具推理控制智能体推荐理由:AI SDK 7来了,新增推理控制和代理工具审批,还支持MCP应用和持久化工作流。做AI应用开发的一定要看看。原文
22:00LangChain@LangChainAI精选LangChain 推文指出通用聊天适合一次性问答,答案出现即结束。专门智能体适合重复性、有固定形状的工作,使用相同工具和格式。智能体能记住线程可能遗忘的上下文,适合多次运行相同流程。技巧LangChain智能体提示词工程推荐理由:LangChain用一句话说清楚了选择原则:如果下次解释方式一样,就该用智能体,别放聊天里。原文
19:12IT之家(博客/媒体)黄仁勋在英伟达年度股东大会上指出,AI代表着计算模式60年来的根本转变,从信息检索转向智能生成。他提出词元是智能的基本单位,在AI工厂中被制造并转化为收益。黄仁勋认为AI基础设施建设周期将长达数十年,类比电网和互联网。他强调AI智能体现已能胜任实质性工作并创造经济价值,正加速基建投资。行业英伟达黄仁勋AI基础设施智能体计算模式推荐理由:英伟达CEO黄仁勋说AI基建周期会持续几十年,规模超过电网和互联网,智能体正在推动投资落地。原文
18:03IT之家(博客/媒体)富士通发布了PHOTON架构,在多查询场景下性能最高可达Transformer架构的475倍。该架构通过语义分层处理替代词元级分割,降低计算复杂度并提升并行性。测试显示,在600M、900M和1.2B参数模型上,PHOTON实现了更高的迭代吞吐量和更低的内存占用。其中1.2B模型性能提升475倍,但质量略有下降。AI模型富士通PHOTONTransformer推理模型智能体推荐理由:富士通新架构PHOTON在多查询任务上比Transformer快475倍,1.2B小模型实测,省内存省GPU。原文
17:30Decoder@Matthias Bastian71°Google 将“Computer Use”能力直接集成到 Gemini 3.5 Flash,使模型可自主操作电脑、浏览器和移动设备。在 OSWorld 基准测试中,Gemini 3.5 Flash 得分 78.4,与 GPT-5.5 成绩相当。开发者可利用 Gemini API 构建用于软件测试或办公自动化的智能体。AI模型Gemini 3.5 FlashComputer UseOSWorld智能体自动化推荐理由:Google 把屏幕操控塞进了 Gemini 3.5 Flash,OSWorld 得分和 GPT-5.5 差不多。开发者直接用 API 就能做自动化,很实在。原文
17:28berryxia@berryxia这篇帖子介绍了构建AI智能体的6个核心架构支柱和1个人机协同机制。MCP由Anthropic提出,作为通用标准让智能体即插即用外部工具。智能体循环包括感知→思考→行动→观察→重复的流程。单体与多智能体架构两种模式可灵活选择。智能体驱动的RAG动态路由查询并验证上下文。人机协同机制(HITL)在关键操作前插入人工检查点。技巧MCPAnthropic智能体智能体循环RAG10 个信源在谈推荐理由:想搭AI智能体但怕底层理论?这篇用7个点讲透架构,从MCP到记忆系统,普通开发者也能快速落地。原文
17:27Stanford AI Lab@StanfordAILab精选Stanford AI Lab发布OpenThoughts-Agent-v2和OpenThinkerAgent-32B,两者均基于Qwen-3开源数据。在计算控制比较中,该模型在全部训练规模下领先,并在7个agent基准测试上平均得分44.8%。模型在终端使用和编码任务上表现突出,且泛化能力强。AI模型OpenThoughts-Agent-v2Qwen-3Stanford AI Lab开源模型智能体推荐理由:斯坦福开源了新agent模型,基于Qwen-3在7个基准上平均44.8%,小模型也能打,值得一试。原文
17:08腾讯混元 Tencent Hunyuan@TencentCloud腾讯云与明报在2026年学习与教学博览会上联合发布WorkBuddy学习解决方案。该方案基于AI智能体能力,覆盖备课、评分、行政自动化和课堂体验等环节。旨在通过自动化提升学校效率,让教师腾出时间专注于教学核心。AI产品TencentCloudMing PaoWorkBuddy智能体教育科技推荐理由:腾讯云和明报联手,WorkBuddy用AI智能体帮老师搞定备课、批改和行政,省时间专心教学。原文
17:04OpenAI: 官网动态(博客/媒体)OpenAI发布新研究论文,探讨AI智能体对工作方式的转变。论文中,智能体被用于完成更长时间、更复杂的多步骤任务。经过测试,智能体在多个职业角色中提升了工作效率。该研究展示了智能体在真实任务中的自主执行能力。论文OpenAI智能体AI论文生产力10 个信源在谈推荐理由:OpenAI出了新研究,讲智能体怎么帮人干活,能搞定更长更复杂的任务,比普通助手更自主。原文
17:03IT之家(博客/媒体)6月23日至25日,世界经济论坛第十七届新领军者年会在大连举行,中兴通讯董事长方榕透露新一代AI手机即将上市,提供“听得懂、能干活”的交互体验,将AI能力从云端推向端侧。中兴通讯已与字节跳动等合作推进豆包AI手机的研发,并将AI智能体深度融入操作系统。自研Co Claw智能调度技术支持跨应用、跨生态无缝协同,实现复杂场景下的自动化任务执行。AI产品中兴通讯豆包Co ClawAI手机智能体推荐理由:中兴通讯马上要出新一代AI手机了,和字节合作搞的豆包AI,能听懂话还能干活,不是简单插件,是原生系统级AI。原文
13:54IT之家(博客/媒体)精选谷歌在 Chrome 149 浏览器中新增“Select from screen”功能,用户可通过光标选中屏幕上的图片或文字,直接与 Gemini 3.5 Flash 模型交互提问。该功能与 Google Lens 类似,但将屏幕内容送入对话式 AI 处理。此外,Gemini 3.5 Flash 模型原生引入 Computer Use 工具,使 AI 智能体能在网页、桌面、移动端执行访问网站、填写表单、点击按钮等任务。AI产品ChromeGemini 3.5 FlashComputer UseAI交互智能体推荐理由:现在你逛鞋店网站时,直接框选几双鞋问Gemini哪双适合你,省去复制粘贴的麻烦。原文
12:35arXiv: DeepSeek@Zewen LiuLLM Agent记忆系统在持续整合中会退化,但现有研究假设记忆来自无偏体验。本研究提出Memory Contagion现象,即有偏评估者导致的偏差会通过记忆跨时间传播。实验显示长度偏好偏差在旧模型DeepSeek V4-Chat上传播(Gamma_A=13.18),而新模型V4-Pro和Claude免疫。权威偏差在全部15个多种子实验中未传播(Gamma_A=0.00)。污染率低至p=0.2时仍能检测到长度偏差传播,未发现安全阈值。论文Memory ContagionDeepSeek V4-ChatClaude偏差传播智能体推荐理由:这篇论文发现用有偏评估者训练智能体,偏差会像病毒一样通过记忆传染给后来者。旧模型DeepSeek V4-Chat中招,Claude和V4-Pro没事,权威偏见传不出去。原文
11:00arXiv cs.AI@Xihan Xiong, Zelin Li, Wei Wei, Qin Wang, William Knottenbelt, Zhipeng Wang该论文首次对ERC-8004协议进行实证研究,覆盖Ethereum、BNB Smart Chain、Base三条链,截至2026年5月13日。身份注册中仅3%(Ethereum)、4%(BSC)、15%(Base)为有效活跃代理。信誉系统存在不可通约、无验证、可低成本操纵问题,且73.6%(Ethereum)、59.2%(BSC)、90.6%(Base)的评价者表现出协同Sybil行为。去除Sybil后,15.5%、72.3%、89.4%的代理无有效反馈。论文据此提出协议改进建议。论文ERC-8004EthereumBNB Smart ChainBase智能体推荐理由:这篇论文用数据告诉你ERC-8004信任层的水有多深:大部分注册是摆设,信誉能被轻易刷分。研究AI代理和区块链的人都该看看。原文
10:48AI Will@FinanceYF5精选LatentMAS提出让多智能体在隐空间直接传递推理状态,跳过文字编解码。该方法在多个基准上准确率提升13.3%,推理速度提高4.3倍,token用量减少83.7%。LatentMAS无需额外训练,可直接插入现有LLM使用,入选ICML 2026 Spotlight论文。AI模型LatentMAS智能体ICML推理模型多智能体推荐理由:这个新方法让多智能体能悄悄交换推理状态,不用写文字,又快又省token,直接插进现有LLM就能用。原文
10:45arXiv cs.LG@Changdae Oh, Wendi Li, Seongheon Park, Samuel Yeh, Tanwi Mallick, Sharon Li本文提出进度优势(Progress Advantage),通过计算RL后训练策略与参考策略的对数概率比,隐式获得智能体步骤级评分,无需额外训练奖励模型。该方法在五个基准(包括MATH、HotpotQA等)和四个模型家族(Llama-2、Mistral等)上验证,在测试时扩展、不确定性量化、失败归因三项任务中均优于基于置信度的基线。尽管无需任务特定训练,它仍超越专用奖励模型。论文还分析了进度优势的特征,为实际智能体系统提供使用指导。AI模型Progress AdvantageRL后训练智能体奖励模型测试时扩展推荐理由:这篇论文说,RL后训练时顺便就能得到一个免费的好信号,不用再费劲训练奖励模型,在好几个测试里都比专门训练的效果还好。做智能体训练的一定得看看。原文
10:25shao__meng@shao__meng精选Matt Pocock 在开源 Skills 系列中增加了新技能「loop-me」,目前处于 in-progress 阶段。该技能在多轮会话中利用当前目录作为有状态工作区,通过「拷问」方式将想法转化为可落地的 workflows/*.md 规格文件。loop-me 与已有的 grill-me 共享拷问纪律,但产出不同:grill-me 对齐任意计划,loop-me 只产出 workflows/*.md。其核心是识别用户生活中可预测的重复模式(职业节奏、早晨例行等),并主动发现用户未意识到的任务,从而委托给 AI agent。项目在 GitHub 上已有 165K star。技巧loop-meSkills智能体工作流提示词工程推荐理由:如果你总在做重复的杂事,这个新技能 loop-me 能帮你把流程写成规格,然后让 AI 接手,省下大把时间。原文
09:44arXiv cs.AI@Peng Xu, Sijia Chen, Junzhuo Li, Xuming Hu论文提出SCPO,一种价值无关的奖励塑造方法,通过对比同组内成功与失败轨迹的中间步骤,为失败步骤恢复正向信用。该方法解决了因轨迹最终结果不同导致语义相似的中间步骤获得相反信用的问题。在ALFWorld基准上,1.5B参数模型达到93.7%±4.1%成功率;在WebShop基准上达到74.8%±2.0%成功率,提升集中在最难的多步任务。论文SCPOALFWorldWebShop强化学习智能体推荐理由:这篇论文解决了强化学习给LLM智能体分配奖励时的一个逻辑问题:相同意思的步骤因轨迹成败拿了相反信用。SCPO在ALFWorld和WebShop上跑分挺高,最难的步骤提升明显。原文
09:39arXiv cs.AI@Hyejun Jeong, Dzung Pham, Amir Houmansadr, Eugene Bagdasarian研究人员提出并形式化了“代理监控”(agentic surveillance)问题,即AI智能体利用可访问信息生成报告并发送的能力。他们创建了SurveilBench数据集,涵盖企业、教育和警察三个领域的多种报告场景。实验发现部分模型会自发协助监控,但也会主动向政府报告监控尝试。为对抗这类监控,论文开发了三种提示注入逃逸技术:隐藏、欺骗或诱导过度上报。研究表明代理监控已可轻易实现,亟需技术、伦理和法律框架保护用户。论文AI安全智能体提示注入SurveilBench监控推荐理由:这篇论文发现了AI智能体会自动打小报告,还给出了三种对抗方法,搞AI安全的朋友可以看看。原文
09:28arXiv cs.AI@Aradhana Nayak, Mussadiq Nazeer, Wang Peng, Feng Liu该论文提出一个GUI探索器agent,从示范任务出发系统探索查询空间,识别会导致用户敏感状态的GUI操作。现有LLM agent通常被微调为不管安全影响都完成任务,难以部署。论文定义了用户敏感状态和查询的分类,帮助工程人员在关键场景下识别并请求用户接管。实验在开放GUI环境中验证了方法的有效性。论文LLM agentsGUIAI安全智能体推荐理由:研究团队做了一个GUI探索器,自动找出那些需要你亲自操作的敏感界面,比直接让AI乱点安全多了。原文
09:27AI Will@FinanceYF5Google Flow 新功能接入 Google Street View,AI Agent 能直接调用 Google Maps 的实景数据。用户输入具体地点后,Flow 可将虚拟物体(如水母)或角色锚定到真实街景中生成图片或视频。目前该功能仅限美国地区的 Street View 数据。演示表明画面与现实场景融合度高。AI产品Google FlowStreet ViewGoogle Maps视频生成智能体推荐理由:Google Flow 现在能让你把水母或角色直接放到家门口街道上,调用真实街景生成画面,玩法很新鲜。原文
09:25向阳乔木@vista8推文将Agent定义为数字化、可随时调用、趋近免费的劳动力。作者提醒不要把人力和Agent的价差当成商业模式。上下文、注意力、信任和品牌不会因模型变便宜而贬值。AI时代人的技能不重要,积极好奇、灵活性和自驱力才是核心。行业智能体AI时代劳动力生产要素推荐理由:Vista8说Agent是新劳动力,别只盯着人机价差,上下文和信任才是真资产。原文
08:03IT之家(博客/媒体)76°英伟达CEO黄仁勋在6月24日股东大会上表示,AI产业已进入智能体AI阶段,物理AI将驱动下一轮增长。他称数据中心为AI工厂,强调企业需部署机器人、自动驾驶等物理AI系统。过去1年营收增长65%,营业利润增长60%,2026财年自由现金流超960亿美元。黄仁勋计划将50%自由现金流用于股票回购和分红。行业英伟达黄仁勋智能体物理AIAI工厂推荐理由:黄仁勋在股东大会上说AI工厂是未来,物理AI会带来下一波增长,还透露英伟达一年营收涨了65%,现金流超960亿美元。想了解英伟达战略的可以看看。原文
07:27Weaviate@weaviate_io精选Engram 是 Weaviate 的记忆系统,能主动协调冲突信息。当用户从机器学习工程师晋升为 CEO,Engram 不会简单叠加两条记忆,而是先用 LLM 工具调用判断行动:重写旧记忆为“用户曾是工程师,现升为 CEO”,并删除新重复记忆。这样避免了记忆冗余,保持历史连贯,防止智能体上下文被矛盾事实污染。AI产品EngramWeaviate记忆协调智能体上下文管理推荐理由:Weaviate 的 Engram 解决了 AI 记忆的一大致命伤——信息冲突。不是简单存两笔,而是主动合成新版本,对做多角色 Agent 的朋友很实用。原文