18:49歸藏(guizang.ai)@op7418Ryo Lu 提出一个比喻:Agent 就像 3D 打印机,Token 是虚拟世界的 PLA 材料,通用但打印结果各异。他认为 AI 正在打破传统软件的“房间”式界面,让软件从固定功能的容器变成可塑、可组合、可追问的材料。用户不再需要在不同应用间切换,而是通过表达意图来塑造工具,界面从菜单变成黏土。这一转变让软件成为任何人都能塑造的媒介,而不仅仅是程序员的专利。行业智能体人机交互软件范式界面设计AI 产品推荐理由:这个比喻把 AI Agent 的本质讲透了——做产品、设计界面或研究人机交互的人,看完会对软件的未来形态有全新理解,值得点开细品。原文
18:15Browser Use@browser_useBrowser Use 推出了 Terminal 版本,让用户可以直接从命令行运行浏览器自动化任务。该工具支持 CLI 操作、连接 Codex 认证,并能控制真实的 Chrome 浏览器。用户可以通过简单的命令让浏览器自动执行购物等复杂操作,无需编写代码或手动操作。这为开发者提供了一种更高效、更灵活的浏览器自动化方式,尤其适合需要批量处理网页任务的场景。AI产品浏览器自动化CLI工具智能体Chrome控制开发者工具推荐理由:做自动化脚本或需要批量处理网页任务的开发者,现在可以直接在终端里控制浏览器,省去写复杂代码的麻烦,值得一试。原文
18:07AI Will@FinanceYF583°Claude Code 推出了一项名为“动态工作流”的新功能,允许用户通过设置 /model 为 opus 4.8 和 /effort 为 ultracode,并在提示词中使用“workflow”来触发。该功能会自动编写编排脚本、生成子智能体群组、验证结果并返回报告。这标志着 AI 编程工具从单步执行向多智能体协作的演进,显著提升了复杂任务的自动化程度。AI产品Claude Code动态工作流智能体编程助手自动化推荐理由:做复杂自动化任务的开发者终于可以一键启动多智能体协作——Claude Code 的编排能力直接省去手动写脚本的麻烦,值得立刻上手试。原文
17:41rohanpaul_ai@rohanpaul_ai精选72°微软提出 SkillOpt 方法,将智能体技能文档视为可训练的外部程序,而非手工编写或一次性生成。该方法通过一个更强的优化器模型,在智能体执行任务后分析成功与失败案例,对技能文档进行小幅度编辑,并仅在通过验证集测试时采纳修改。在 6 个基准、7 个目标模型和 3 种智能体设置(包括直接对话、Codex 和 Claude Code)的测试中,SkillOpt 在全部 52 个案例中表现最佳或持平,在 GPT-5.5 上直接对话准确率平均提升 23.5 个百分点。最终产出是一个可读、可移植、低成本复用的技能文件,无需重新训练模型即可提升智能体跨任务表现。论文智能体技能优化微软GPT-5.5Claude Code推荐理由:做智能体开发的团队终于有了靠谱的技能优化方案——SkillOpt 解决了手工调技能越调越差的痛点,而且最终产物是一个可读文件,部署零成本。做 prompt 工程或 Agent 框架的开发者值得细读。原文
16:56rohanpaul_ai@rohanpaul_ai76°AI 智能体的能力不仅取决于模型本身,更依赖于其周围的系统(称为“harness”),包括记忆、工具、上下文、路由、检查和权限。当前许多智能体被误判为仅由模型驱动,而实际行为受这些系统组件影响更大。论文指出,进步应来自扩展 harness 的三个部分:更好的上下文控制、更可信的记忆、以及更优的工具或辅助智能体路由。长上下文不等于可用上下文,记忆多不等于可信,工具多不等于知道何时使用。两个智能体可能得出相同答案,但一个可能消耗更多 token、做出更冒险的工具调用或携带损坏的记忆。未来前沿不是单纯扩展模型,而是扩展系统纪律。论文智能体系统扩展harness模型评测记忆管理推荐理由:这篇论文点破了智能体评测的常见误区——只看模型不看系统,做智能体开发的团队值得读,能帮你重新思考系统架构的优先级。原文
14:36阶跃星辰 Stepfun@Stepfun_AI88°阶跃星辰发布了 Step 3.7 Flash 模型,专注于智能体效率,在 ClawEval-1.1、SimpleVQA Search 等基准测试中取得领先成绩。该模型采用 198B 稀疏 MoE 架构,约 11B 活跃参数,支持 400 TPS 推理速度和 256K 上下文,并提供三种推理级别。它擅长理解 UI、图表、文档和图像,并能直接编写代码或调用工具执行操作,在 τ²-bench 上工具调用可靠性超过 98%。模型权重以 Apache 2.0 开源,可在 Mac Studio M4 Max、DGX Spark 等设备本地运行,并兼容 Claude Code、MCP 等生态。AI模型阶跃星辰Step 3.7 Flash智能体开源/仓库推理模型2 个信源在谈推荐理由:做智能体、编程或搜索应用的开发者终于有了一个兼顾速度、成本和可靠性的开源模型——Step 3.7 Flash 在工具调用和视觉理解上表现突出,而且能在本地跑,建议直接试试。原文
12:15OpenRouter@OpenRouterAI精选76°StepFun 发布了 Step 3.7 Flash 模型,这是一款面向智能体、编码、搜索和多模态工作流的高效模型。该模型采用 198B 稀疏 MoE 架构,仅激活约 11B 参数,支持 256K 上下文和三种推理级别,推理速度达 400 TPS。在 ClawEval-1.1、SimpleVQA Search 和 SWE-PRO 等基准测试中表现领先,并支持视觉理解、工具调用和本地运行。模型权重以 Apache 2.0 开源,可在 Mac Studio、DGX Spark 等设备上运行。AI模型智能体推理模型开源/仓库编程助手多模态推荐理由:Step 3.7 Flash 解决了智能体场景中速度与可靠性的平衡问题,做智能体开发、编码自动化和多模态应用的团队可以直接用开源权重部署,值得一试。原文
11:42Ate-a-Pi@svpino精选一个名为“self-improving agents”的开源框架允许智能体修改自身的三个核心部分:执行环境(harness)、底层模型权重和记忆层。这些智能体通过自我评估并根据表现进行适应,实现了自我改进。在MLE-Bench基准测试中,该框架超越了MLEvolve、AIRA-dojo等其他自我改进方案,甚至击败了Karpathy的autoresearcher。这标志着智能体自主进化能力的重要突破,为AI系统的持续优化提供了新思路。AI模型智能体自我改进开源/仓库MLE-BenchKarpathy推荐理由:对于研究智能体自主进化的开发者,这个框架展示了如何让AI通过自我修改实现性能跃升,值得直接尝试复现。原文
11:35AI Will@FinanceYF591°Anthropic发布了Claude Opus 4.8,在编程能力和agent能力上显著增强,支持数百个并行子agent的动态工作流,且价格保持不变。此外,据透露更高级别的Mythos模型将在数周内发布。这次更新为开发者提供了更强大的多智能体协作能力,同时保持了性价比。AI模型Claude Opus 4.8Anthropic智能体并行工作流编程助手10 个信源在谈推荐理由:做复杂自动化工作流的开发者终于有了能并行调度数百子agent的模型,且不加价,值得立即体验。原文
10:24Clement Delangue@ClementDelangue精选72°Hugging Face CEO Clément Delangue指出,当前大多数人在用强化学习训练智能体LLM时,存在一个静默的bug:单轮RL表现完美,但加入工具调用后,损失函数会无故飙升,最终出现形状不匹配错误。根本原因在于,每次解析模型输出以检测工具调用时,重新对更新后的对话进行token化,可能导致梯度落在模型从未实际采样的序列上,从而产生无用的梯度信号。修复方法很简单:永远不要重新编码已经解码的token,将采样的token保存在一个缓冲区中,避免重新渲染。团队已发布深度分析,包括对主流开源模型家族的审计,显示大多数聊天模板已支持该修复。论文强化学习智能体Token编码训练陷阱开源模型推荐理由:做多轮RL训练智能体LLM的团队,这个静默bug可能正在破坏你的训练曲线,看完这篇分析能直接修复,省下大量调试时间。原文
08:32Guillermo Rauch@rauchg精选Vercel 宣布其 CLI 工具将作为零外部依赖的自更新二进制文件发布,解决了智能体(agent)时代频繁更新和多场景嵌入的瓶颈。该 CLI 是 Vercel '云为智能体'战略的关键接口,支持 OpenClaw、Claude Code、Codex 等工具自动发现并引导用户使用 Vercel 的智能体基础设施。新版本还提供实验性原生二进制,启动更快、体积缩小约 80%,并增强了凭据安全性。Vercel 创始人表示,这一变化源于 CLI 使用场景从零星变为高频,且智能体生态的爆发式增长。AI产品VercelCLI智能体零依赖自更新4 个信源在谈推荐理由:Vercel CLI 的零依赖自更新方案解决了智能体工具链中依赖管理的痛点,做 AI 应用或智能体开发的团队可以直接用,体验更流畅、部署更省心。原文
08:16eric zakariasson@ericzakariasson精选Cursor 发布了基于全球最大 AI 编程数据集的开发者习惯报告,揭示了不同模型在智能体请求中的成本差异可达近9倍。报告指出,虽然某些高价模型因更高智能在长期使用中更经济,但对于 p50 请求,像 Composer 2.5 这样的模型能同时做到更快更便宜。该报告为 AI 编程的模型选择提供了关键的经济学视角,帮助开发者优化成本与效率。行业AI编程模型成本Cursor开发者报告智能体4 个信源在谈推荐理由:这份报告直接关系到每个用 AI 编程的团队的钱包——模型选错成本差9倍,做技术选型的开发者建议点开看看,能省下真金白银。原文
08:16LangChain@LangChainAI精选LangChain 指出,评估(evals)会直接影响智能体系统的行为方向,但更多的评估并不等于更好的智能体。关键在于构建能够反映生产环境中期望行为的针对性评估。LangSmith Engine 等工具可以帮助用户从追踪数据中精准创建评估,从而构建更优秀的智能体。这一观点强调了评估质量而非数量的重要性。AI产品智能体评估/EvalLangChainLangSmith Engine开发工具推荐理由:做智能体开发的团队常陷入「堆 eval 数」的误区,LangChain 点明了评估的向量效应——选错评估方向反而会带偏系统行为。建议用 LangSmith Engine 从真实追踪数据中提炼针对性评估,比盲目加 eval 更有效。原文
08:15LangChain@LangChainAILangChain 发布了新课程《Intro to LangSmith Deployment》,教你如何将单用户桌面 Deep Agent 扩展到多租户、弹性基础设施上的生产级部署。课程涵盖从原型到规模化部署的关键步骤,适合希望将 AI 智能体投入实际生产环境的开发者。该课程是 LangChain Academy 系列的一部分,旨在降低 AI 应用部署门槛。AI产品LangChainLangSmith部署智能体课程推荐理由:做 AI 智能体部署的开发者终于有了官方指南——LangChain 手把手教你从单用户原型到多租户生产环境,建议直接学起来。原文
08:14Weaviate@weaviate_ioWeaviate 发布了一篇简洁的 AI 智能体术语解释,涵盖 MCP、单/多智能体架构、技能、Agentic RAG 和记忆等核心概念。文章指出记忆是难点,并介绍了其自研的记忆与上下文管理方案 Engram。该内容旨在帮助开发者快速理解智能体相关术语,避免观看冗长的视频教程。AI产品MCP/工具智能体RAG记忆管理Weaviate推荐理由:想快速搞懂 AI 智能体核心概念(MCP、RAG、记忆)的开发者,不用再刷 45 分钟视频了,这篇直接给干货。原文
08:11Amjad Masad@amasadReplit 宣布与 Visa 扩大合作,共同研发智能体支付(agentic payments)技术。Visa 是 Replit 的大企业客户,已有超过 1000 名员工使用 Replit,同时也是其战略投资者。双方将致力于让开发者能够通过智能体无缝实现资金流动。Replit 长期关注可编程价值,曾尝试将支付深度集成到现代编码和 AI 栈中,但时机未成熟,如今与 Visa 合作有望实现这一愿景。行业智能体支付ReplitVisa开发者工具推荐理由:这是支付巨头 Visa 首次深入智能体支付领域,做 AI 应用或金融科技的开发者值得关注——未来你的智能体可能直接调用 Visa 网络完成交易。原文
08:11LangChain@LangChainAI精选LangChain 发布了 Deep Agents v0.6,新增 ContextHubBackend 功能。该功能为驱动智能体行为的文件提供了一个版本化的存储空间,基于 LangSmith Context Hub 实现。它允许开发者从一次运行到下一次运行持续改进上下文,提升智能体的一致性和表现。这对于需要精细控制智能体行为的团队来说是一个实用更新。AI产品智能体LangChainLangSmith版本控制上下文管理推荐理由:做智能体开发的团队终于有了版本化的上下文管理工具,能避免每次调试都从头开始,建议用 LangChain 的开发者直接升级试试。原文
08:07cat@_catwu88°Claude Code 发布其最强大的新功能——动态工作流。用户只需在提示中提及“workflow”,Claude 便会自动生成一个编排计划并严格遵循,确保每个阶段按正确顺序执行,即使涉及数百个智能体也能保持可靠。该功能解决了复杂任务中多智能体协作的协调难题,提升了自动化流程的稳定性和可信任度。对于需要大规模自动化编排的开发者来说,这是一个重要的效率提升工具。AI产品Claude Code动态工作流智能体自动化编排开发者工具推荐理由:做复杂自动化编排的开发者终于有了可靠方案——Claude Code 动态工作流让数百智能体有序协作,值得立即尝试。原文
08:06Latent.Space@latentspacepodAI 软件工程师公司 Cognition 宣布完成新一轮融资,总额超过 10 亿美元,估值达到 260 亿美元,由 Lux Capital、General Catalyst 和 8VC 领投。自年初以来,其企业使用量增长超过 10 倍,年化收入达到 4.92 亿美元。两年前推出的 AI 软件工程师 Devin 推动了云端智能体从边缘走向主流,成为增长最快的软件开发方式。此次融资表明资本市场对 AI 编程智能体赛道的高度认可。行业CognitionDevinAI 软件工程师融资智能体推荐理由:Cognition 的 Devin 证明了 AI 软件工程师的商业化潜力,做 AI 编程工具或智能体开发的团队值得关注其增长路径和融资信号。原文
08:04elvis@omarsar0精选FluxMem 提出将智能体记忆视为异构图不断演化的拓扑结构,而非传统存储。其工作流程分为三个阶段:初始连接形成、反馈驱动优化、以及将成功路径固化为可复用程序回路。执行时能自动修复缺失链接、剪枝干扰并调整抽象粒度。该方法在 LoCoMo、Mind2Web 和 GAIA 三个不同记忆场景下均达到当前最优。论文已公开,适合关注智能体记忆架构的研究者和开发者。论文智能体记忆架构图拓扑FluxMem论文1 个信源在谈推荐理由:FluxMem 把智能体记忆从静态存储升级为动态拓扑,解决了长期任务中记忆碎片化和干扰问题。做智能体系统或记忆建模的团队值得看看这个新范式,可以直接参考其论文思路。原文
08:04Harrison Chase@hwchase17LangChain 宣布将于 6 月 11 日举办一场线上直播,由团队核心成员 @bentannyhill 主讲,深入展示 LangSmith Engine 的实际能力。LangSmith Engine 是一个帮助开发者自动化和优化智能体开发全生命周期的工具。通过这次活动,参与者可以直接与构建团队交流,了解如何利用该引擎提升智能体性能、简化开发流程。这对于正在使用或考虑使用 LangChain 构建智能体的开发者来说,是难得的学习机会。AI产品LangSmith EngineLangChain智能体开发工具直播活动推荐理由:LangChain 团队亲自拆解智能体开发自动化工具,做智能体开发的开发者可以直接与作者对话,建议提前报名占位。原文
08:02lmarena.ai@lmarena_aiClaude Opus 4.8 在 Code Arena 前端测试中进行了实战评测,该测试专注于真实用户构建应用和网站时的智能体前端编程任务,涵盖 HTML 和 React。评测结果以视频形式展示在 YouTube 上,展示了模型在 agentic 前端编码方面的能力。Code Arena 提供了 Battle Mode 供用户自行对比测试,Opus 4.8 的详细评分即将公布。这标志着 Claude 系列在智能体编程领域的又一次重要迭代。AI模型Claude Opus 4.8前端编程智能体Code ArenaReact10 个信源在谈推荐理由:做前端开发的团队可以看看 Opus 4.8 在真实 agentic 任务中的表现,直接去 Arena 的 Battle Mode 试试就知道值不值得用。原文
05:55Mike Krieger@mikeyk83°Claude Code 发布了 Dynamic Workflows 功能,允许 Claude 动态创建一组子智能体,这些子智能体可以独立工作、验证结果并汇报。该功能特别适合代码库迁移(如从一种语言迁移到另一种)或完成复杂项目,在自动模式下效果最佳。这标志着 AI 编程助手从单智能体向多智能体协作的进化,提升了处理大规模、多步骤任务的能力。AI产品Claude Code智能体编程助手代码迁移多智能体协作推荐理由:做大型代码迁移或复杂项目的开发者,Dynamic Workflows 能让你从手动拆分任务中解放出来,建议在自动模式下试试效果。原文
03:00rohanpaul_ai@rohanpaul_ai78°Hexo AI 发布了开源递归自我改进框架 SIA(Self Improving AI),该框架允许 AI 智能体在完成任务后,不仅改进外部工作流程(如提示词、工具),还能直接更新模型内部权重,实现真正的自我进化。与当前大多数“冻结工人”式智能体不同,SIA 通过反复训练自身任务反馈来积累领域知识,无需人工手动编码策略。实验结果显示,SIA 在 LawBench 上提升 56.6%,GPU 内核运行时减少 91.9%,单细胞 RNA 去噪提升 502%。这一突破为构建持续自优化的 AI 系统提供了新路径。AI模型递归自我改进开源/仓库智能体模型权重更新SIA1 个信源在谈推荐理由:做 AI 智能体开发的团队终于有了一个能自我进化的开源框架——SIA 让模型从“冻结工人”变成“持续学习者”,直接提升任务效果,建议研究自优化系统的开发者点开看看。原文
02:12OpenRouter@OpenRouterAI83°OpenRouter 宣布 Opus 4.8 模型正式上线,价格与 4.7 版本相同,但在智能体编程、推理和计算机使用方面有显著提升。相比 4.7,代码缺陷遗漏率降低约 4 倍。同时推出 Opus 4.8 Fast Mode,成本仅为 2 倍,速度提升 2.5 倍。该更新对依赖 AI 编程和推理的开发者是直接利好。AI模型Opus 4.8OpenRouter推理模型编程助手智能体10 个信源在谈推荐理由:Opus 4.8 在不涨价的前提下大幅提升了编程和推理能力,做智能体开发或代码审查的团队可以直接在 OpenRouter 上体验,性价比很高。原文
02:06宝玉@dotey88°Anthropic 发布了 Claude Opus 4.8,价格与上一代 4.7 持平,但模型更诚实:更愿意承认不确定性,减少编造答案,对自身进度判断更真实,适合长时间 agent 任务。同时上线了 fast mode,速度提升约 2.5 倍,价格降低三倍。重头戏是 Claude Code 的 dynamic workflows(动态工作流)功能,可将大任务拆解为几十到几百个并行 subagent 执行、验证和迭代,适合大规模代码迁移、安全审计等场景。Anthropic 用 Bun 从 Zig 移植到 Rust 的案例展示了其能力:11 天生成约 75 万行代码,通过 99.8% 测试。但该功能 token 消耗极高,建议从小任务开始尝试。AI产品Claude Opus 4.8动态工作流Claude Code代码迁移智能体10 个信源在谈推荐理由:Claude Opus 4.8 的诚实性提升和 dynamic workflows 功能,让做大规模代码迁移、安全审计的开发者可以大幅减少人工盯盘和重复劳动,建议有复杂 agent 任务的团队直接试。原文
02:04elvis@omarsar0精选Claude Code(研究预览版)推出动态工作流功能。它能自动编写编排脚本并启动大量子代理并行处理复杂任务。用户只需在提示中包含"workflow"即可触发。该功能实现了agent-to-agent的高效协作,但需要注意token消耗。AI产品Claude Code动态工作流智能体Anthropic10 个信源在谈推荐理由:Claude Code自动拆任务并行干原文
01:30Harrison Chase@hwchase17LangChain 创始人 Harrison Chase 表示,随着智能体框架标准化,将出现更多“托管智能体服务”。LangChain 已推出 Managed Deep Agents,用户无需搭建自定义智能体服务器即可创建托管深度智能体。该服务支持持久化线程、流式运行、检查点以及人机协同工作流。这降低了智能体部署门槛,让开发者更专注于业务逻辑而非基础设施。AI产品智能体托管服务LangChain人机协同部署推荐理由:智能体部署从自建服务器走向托管服务,做 AI 应用的团队可以直接用 LangChain 的 Managed Deep Agents 省去运维成本,值得关注。原文
00:35LangChain@LangChainAILangChain 宣布其 API 新增多项功能,包括创建智能体、更新配置、创建线程以及从产品工作流中流式运行。这些能力让开发者能更灵活地将 LangChain 集成到自己的平台中,实现自动化智能体管理。该更新降低了构建复杂 AI 工作流的门槛,尤其适合需要定制化智能体编排的团队。AI产品LangChain智能体API工作流集成推荐理由:LangChain API 新增的智能体创建和流式运行能力,让做 AI 工作流编排的开发者可以直接在自己的产品中集成,省去自建编排层的麻烦,值得一试。原文
00:30Harrison Chase@hwchase17LangChain 创始人 Harrison Chase 在 X 上分享了一个观点:未来每个智能体都需要一个沙盒来连接和执行代码,这不仅是编程智能体的需求,而是所有类型任务的基础。基于此,LangChain 正式发布了 LangSmith Sandboxes 的 GA 版本。该沙盒采用硬件虚拟化的 microVM 技术,与用户服务及其他沙盒实现内核级隔离,支持任何框架或自定义代码,并使用与 LangSmith 相同的 SDK 和 API 密钥。这一工具旨在为智能体提供安全、隔离的执行环境,解决代码执行中的安全与隔离问题。AI产品智能体沙盒LangChainLangSmith代码执行推荐理由:LangChain 把智能体安全执行环境做成了产品,做智能体开发的团队可以直接用 LangSmith Sandboxes 来隔离代码执行,避免安全风险,值得关注。原文
23:48AK@_akhaliq该研究提出了一种名为 Agent Explorative Policy Optimization (AEPO) 的新方法,用于优化多模态智能体的推理策略。通过探索性策略优化,智能体能够在复杂多模态环境中更有效地进行推理和决策。实验表明,AEPO 在多个基准测试上显著提升了智能体的性能,尤其是在需要多步推理和跨模态理解的任务中。这项工作为构建更强大的多模态智能体提供了新的训练范式。论文智能体多模态推理模型强化学习AEPO推荐理由:多模态智能体推理是当前 AI 的前沿方向,AEPO 为开发者提供了一种可落地的训练优化思路,做智能体或多模态应用的团队值得关注。原文
23:42AK@_akhaliqSkillOpt 是一种用于智能体技能自我进化的执行策略,旨在让 AI 智能体在运行过程中自动优化和扩展其技能集。该方法通过动态评估和调整技能执行路径,提升智能体在复杂任务中的适应性和效率。该策略在 Twitter 上获得初步关注,展示了智能体自主学习的潜力。对于构建自适应 AI 系统的开发者而言,SkillOpt 提供了一种无需人工干预的技能进化框架。AI模型智能体技能进化自适应系统SkillOptAI 策略推荐理由:做智能体开发的团队终于有了一个让技能自动进化的策略——SkillOpt 解决了手动调优的痛点,建议研究自适应 AI 的开发者点开看看。原文
20:05rohanpaul_ai@rohanpaul_ai76°德克萨斯大学的一篇重要论文指出,AI 智能体在部署后会逐渐变得不可靠,即使底层模型本身没有变化。问题在于,智能体在持续运行中会总结旧对话、存储记忆、更新事实和执行维护,这些步骤中的每一个都可能悄悄“腐烂”,导致信息丢失、混淆或过时。例如,药物剂量可能被简化为“每日用药”,两个相似客户的信息可能混淆,已取消的订阅可能仍被视为有效。论文提出了 AgingBench 基准测试,用于评估智能体在多轮会话中的可靠性,并指出“给更多记忆”往往不是正确的修复方法。该研究将部署后的智能体重新定义为“老化的基础设施”,而非静态模型。论文智能体老化记忆管理AgingBench可靠性推荐理由:这篇论文戳中了 AI 智能体部署后的核心隐患——性能会随时间悄悄下降,做智能体运维或长期对话系统的团队值得细读,看完会重新审视记忆管理策略。原文
20:05rohanpaul_ai@rohanpaul_ai76°NVIDIA 发布了由 Phoronix 完成的 Vera CPU 基准测试报告。报告显示,Vera 相比当前 128 核 x86 CPU 整体性能领先 1.5 倍,相比前代 Grace CPU 几何平均性能提升 1.6 倍。Vera 采用 Armv9.2 架构,每核内存带宽是传统 x86 的 4 倍以上,LPDDR5X 带宽达 1.2TB/s,功耗仅 30W,而典型 DDR5 服务器功耗超 100W。对于智能体 AI 场景,CPU 端任务(如工具调用、文件读写、浏览器操作)日益繁重,Vera 的高效计算能力将显著提升这类工作负载的表现。AI产品NVIDIAVera CPUArmv9.2服务器芯片智能体6 个信源在谈推荐理由:NVIDIA 用 Arm 架构正面挑战 Intel/AMD 服务器 CPU,性能更强且功耗更低,做 AI 推理和智能体系统的团队值得关注——CPU 端负载正在变重,Vera 可能是更优选择。原文
19:59Qdrant@qdrant_engineQdrant 将于 6 月 11 日举办 Vector Space Meetup,主题为“智能体时代的检索”。活动将探讨 RAG 作为生产级 AI 架构基础,以及检索如何从被动查询演变为智能体主动决策的过程。参与者包括 Cognee、n8n、deepset 和 LlamaIndex 等团队,Qdrant 联合创始人兼 CTO 也将出席。活动采用问答驱动形式,聚焦开发者关心的实际问题。行业RAG智能体Qdrant向量数据库Meetup推荐理由:RAG 正在从静态检索进化到智能体主动决策,做 AI 应用开发的团队值得参与这场由一线构建者主导的讨论,直接听到实战经验。原文
18:04Google AI Developers@googleaidevsGoogle AI Devs 发布了一段视频,展示多个子智能体在 Antigravity 平台中并行执行复杂任务,从零开始构建一座 3D 城市。该演示凸显了多智能体协作和并行任务处理的能力,为 AI 在虚拟世界构建和复杂项目管理中提供了新思路。视频在 Twitter 上获得广泛关注,显示了社区对多智能体系统实际应用的浓厚兴趣。AI产品智能体多智能体协作3D构建Antigravity并行任务推荐理由:多智能体并行协作是当前 AI 落地的关键方向,做虚拟世界构建或复杂任务编排的开发者值得一看,能直观感受 Antigravity 的并行执行能力。原文
18:04Google AI Developers@googleaidevsGoogle AI 开发者官方账号发布推文,强调智能体在复杂任务中需要速度和性能。推文展示了 Gemini 3.5 Flash 模型如何大规模处理这些任务,并鼓励开发者使用该模型进行构建。该模型在速度和智能之间取得了平衡,适合需要快速响应的智能体应用场景。AI模型Gemini 3.5 Flash智能体任务处理速度性能推荐理由:做智能体开发的团队需要兼顾速度和复杂任务处理,Gemini 3.5 Flash 正好解决这个痛点,值得关注其实际表现。原文
17:45向阳乔木@vista8一条推文推荐了 GitHub 上 zeke/agents.md 项目,该项目展示了如何编写 agent.md 文件。agent.md 是用于定义 AI 智能体行为、目标和上下文的配置文件,类似于 AI 的“说明书”。该写法清晰、结构化,适合开发者参考来构建自己的 AI 智能体。对于正在学习或开发 AI 智能体的团队,这是一个实用的模板。AI产品智能体agent.md开源/仓库配置模板开发者推荐理由:做 AI 智能体开发的团队可以直接参考这个 agent.md 写法,省去自己摸索配置格式的时间,建议点开看看。原文
16:41阿里通义 Qwen@Alibaba_Qwen精选72°阿里巴巴 Qwen3.7-Max 在 IBM 与 Artificial Analysis 联合推出的 ITBench-AA 基准测试中排名第三,该测试评估模型处理真实企业 IT 任务(如 Kubernetes 故障排查)的智能体能力。测试包含 59 个 SRE 任务,模型需通过读取日志、追踪依赖、识别根因实体来诊断故障。所有前沿模型得分均低于 50%,显示该基准极具挑战性。Claude Opus 4.7 以 47% 领先,GPT-5.5 以 46% 紧随其后,Qwen3.7-Max 以 42% 位列第三。AI模型Qwen3.7-MaxITBench-AA企业 IT 任务智能体SRE推荐理由:企业 IT 运维团队终于有了靠谱的 AI 评测标准——ITBench-AA 模拟真实 K8s 故障排查场景,做 SRE 或 FinOps 的开发者可以直接参考模型表现来选型。原文
15:11阿里云 Alibaba Cloud@alibaba_cloud精选阿里云发布的 Qwen3.7-Max 模型在最新企业 IT 基准测试 ITbench-AA 中排名第三。该基准测试专门评估模型处理真实企业 IT 任务的能力,采用智能体(agentic)风格进行评测。这一成绩表明 Qwen3.7-Max 在复杂企业场景下的表现已跻身顶尖水平,尤其在自动化 IT 运维、故障排查等任务上具有竞争力。阿里云借此强调其模型在智能体时代的定位,鼓励企业用户尝试。AI模型Qwen3.7-Max企业IT基准测试智能体阿里云推荐理由:Qwen3.7-Max 在企业 IT 基准测试中跻身前三,做企业级 AI 应用或 IT 自动化的团队值得关注——它证明了开源模型也能在真实业务场景中与闭源模型一较高下。原文