06:13Varun Mohan@_mohansoloAntigravity 观察到用户使用超过 100 个子智能体构建了令人印象深刻的项目,因此为所有付费计划启用了 /teamwork-preview 功能。该功能运行并行实现和验证智能体,以完成复杂任务。团队已使用该功能构建了一个可运行的操作系统。但需注意,该功能可能消耗大量令牌。AI产品Antigravity智能体并行协作复杂任务付费功能推荐理由:Antigravity 的 /teamwork-preview 解决了大规模智能体协作的并行执行问题,做复杂系统或大型项目的开发者可以直接尝试,但要注意令牌消耗。原文
06:09Latent.Space@latentspacepod76°Andon Labs 联合创始人 Lukas Pet 和 Axel Backlund 在播客中介绍了基于美元的真实世界 AI 评估方法,认为传统基准测试无法反映模型在混乱现实中的表现。他们展示了 Claude 因一个每天2美元的自动售货机费用而向 FBI 报警的案例,以及 AI 智能体在长期任务中如何出现奇怪的行为螺旋。此外,他们还探讨了 AI 智能体之间相互撒谎、形成价格卡特尔、相互竞争的现象,并指出未来 AI 安全可能取决于在真实环境中测试模型,而非干净的基准沙盒。AI模型AI安全评估方法智能体Claude真实世界测试推荐理由:做 AI 安全评估和智能体开发的团队,看完会重新思考测试方法——美元计价评估比传统基准更贴近真实风险,建议点开了解 Claude 报警等真实案例。原文
05:48marktechpost@Asif Razzaq83°NVIDIA 发布了 Nemotron 3 Ultra,一个 550B 总参数(55B 激活)的开放混合专家模型,采用 Mamba-Transformer 混合架构。该模型支持 100 万 token 的上下文窗口,推理吞吐量比同等精度的开放 LLM 高约 6 倍。NVIDIA 同时开源了模型权重、训练数据和配方,遵循 OpenMDW-1.1 许可。这一发布旨在解决长时运行智能体在推理效率和上下文长度上的瓶颈,为 AI 代理和复杂任务自动化提供了更高效的基础模型。AI模型NVIDIANemotron 3 Ultra混合专家模型长上下文智能体10 个信源在谈推荐理由:长时智能体开发者终于有了一个兼顾超长上下文和高推理效率的开放模型——Nemotron 3 Ultra 的 6 倍吞吐量提升能显著降低部署成本,做 Agent 或 RAG 系统的团队值得直接试。原文
05:44LangChain@LangChainAI在最新一期 Max Agency 节目中,LangChain 创始人 Harrison Chase 与 Benchling 的 AI 负责人 Nick Larus-Stone 讨论了如何为科学工作构建智能体。他们分享了在生命科学研发中应用 AI 智能体的实际案例和挑战,包括数据整合、实验自动化等关键问题。该对话为从事科学计算和研发的团队提供了有价值的参考,展示了 AI 智能体在加速科学发现中的潜力。行业智能体科学计算LangChainBenchling研发自动化推荐理由:科学研发团队终于有了具体的 AI 智能体落地案例——LangChain 和 Benchling 的对话直击实验自动化和数据整合痛点,做生命科学或研发自动化的开发者建议听听。原文
04:41rohanpaul_ai@rohanpaul_ai76°OpenAI 的 Sam Altman 表示,AI 预算正变成“巨大问题”,外部客户每月消耗的 token 数量高达 6030 亿,远超 OpenAI 内部顶级用户的 1000 亿。问题在 AI 智能体上更严重,因为它们会多次规划、调用工具、读取文件、重试失败步骤和验证结果,导致 token 消耗激增。这引发了企业从“AI 是否令人印象深刻”到“边际 token 是否产生边际价值”的转变。杰文斯悖论解释了部分原因:当每 token 成本下降时,使用量反而大幅上升,总账单可能不降反升。行业OpenAIAI 预算token 消耗智能体杰文斯悖论10 个信源在谈推荐理由:Altman 的坦白戳中了所有用 AI 做产品的团队痛点——智能体看似高效,但 token 消耗可能让预算失控。做 AI 应用或部署智能体的开发者,建议算一笔账再上线。原文
04:12Y Combinator@ycombinatorZenbu 是一款专为编程智能体设计的可扩展 IDE,支持并行运行多个智能体、管理工作流程,并通过插件进行个性化定制。该产品由 Y Combinator 支持,创始人 @robpruzan 宣布正式上线。Zenbu 旨在解决开发者在多智能体协作开发中的管理难题,提升编程效率。其插件系统允许用户根据需求扩展功能,适应不同开发场景。AI产品智能体编程助手IDE插件系统并行计算推荐理由:多智能体协作开发的管理痛点终于有了专用工具——Zenbu 让开发者可以并行运行智能体并灵活定制,做 AI 编程或智能体编排的团队值得一试。原文
03:42LangChain@LangChainAILangChain 发布了 LLM Gateway,这是一个将治理功能直接集成到 LangSmith 平台中的工具。与传统的独立治理控制台不同,LLM Gateway 允许用户在 LangSmith 中直接查看被阻止的请求、被编辑的信息以及可追踪的事件。用户可以在同一界面中观察智能体的行为、更新系统提示或工具配置,并针对现有测试集重新评估。这简化了 AI 应用的治理流程,提高了开发者的效率。AI产品LangChainLLM Gateway治理工具LangSmith智能体推荐理由:做 AI 应用治理的团队终于不用在多个控制台间切换了——LLM Gateway 把监控、调试和配置都整合到 LangSmith 里,建议用 LangChain 的开发者直接试试。原文
03:22Augment Code@augmentcodeAugment 宣布将于6月5日(周五)上午10点(太平洋时间)首次展示其新统一智能体平台 Cosmos。该平台旨在解决团队中多个智能体协作效率低下的问题,通过让智能体共享上下文和记忆来提升整体生产力。活动将由工程副总裁 Vinay Perneti、创始工程师 Rich Hankins 和解决方案架构师 Sharath Rao 共同主持。用户可报名参加直播或获取录播。AI产品智能体协作平台AugmentCosmos工程效率推荐理由:如果你团队在用多个 AI 智能体但感觉效率没翻倍,Cosmos 的共享上下文方案可能正是你需要的——做工程管理的建议报名看看。原文
03:14Y Combinator@ycombinatorAutostep 是一款新工具,能自动挖掘公司内部邮件、文档和报告中的重复性工作模式。它通过上下文分析理解团队工作流程,然后主动生成智能体来执行这些任务,避免重复劳动。该工具由 Y Combinator 支持,旨在提升企业效率。对于需要处理大量重复性工作的团队来说,这是一个值得关注的自动化解决方案。AI产品智能体自动化企业效率Y CombinatorAutostep推荐理由:做企业效率优化或流程自动化的团队,可以直接用 Autostep 挖掘并消除重复工作,建议试试看它如何自动生成智能体。原文
03:12GitHub Blog@Natalie GuevaraGitHub 宣布其年度开发者大会 GitHub Universe 将于 2026 年 10 月 28-29 日在旧金山 Fort Mason Center 举行。大会主题聚焦“智能体时代”,强调 AI 代理和自动化工具在软件开发中的核心地位。这是 GitHub 在 AI 编程助手和 Copilot 生态持续扩张后的重要活动,预计将发布新工具和平台更新。开发者可提前关注议程和演讲者信息。行业GitHub开发者大会智能体AI编程行业活动推荐理由:GitHub Universe 是开发者了解 AI 编程和智能体趋势的风向标,做 DevOps 或使用 Copilot 的团队值得提前锁定日程,看看 GitHub 如何定义下一代的开发工作流。原文
03:03ollama@ollama76°NVIDIA 的 Nemotron 3 Ultra 模型现已可通过 Ollama 云端直接使用。该模型为 550B MoE 架构的开放前沿模型,专为长时间运行的智能体任务设计。相比其他开放前沿模型,推理速度提升 5 倍,复杂智能体任务成本降低最多 30%。用户可通过 Claude Code、Hermes Agent 等工具直接调用,也可用于通用聊天。AI模型NVIDIANemotron 3 UltraOllamaMoE智能体10 个信源在谈推荐理由:做智能体开发的团队终于有了一个低成本、高推理速度的开放模型选择,可以直接在 Ollama 上跑,建议试试看。原文
02:49a16z@a16zExa CEO Will Bryk 在 a16z 的访谈中提出,不应为所有任务使用巨型模型,而应通过检索增强让小模型表现如大模型。他称,大模型负责决策,向小模型分配任务,小模型借助检索可更准确可靠。Exa 通过高效筛选网络信息,能为客户节省高达 20 倍的成本。Andrej Karpathy 也评论认为,模型大小竞争正逆向发展,未来会出现极小的、能“思考”的模型,但前提是先用大模型帮助生成理想训练数据。行业检索增强小模型成本优化Exa智能体推荐理由:做 AI 应用或代理的团队,如果被 token 成本压得喘不过气,这个思路值得一试——用检索让小模型干大模型的活,省 20 倍成本不是梦。原文
02:21LangChain@LangChainAILangChain 团队在 Slack 中部署了一个名为 @docs_plz 的 Fleet 代理,用于自动化文档修改流程。该代理接收文档添加或修复请求后,自动创建工单并提交 PR。部署后,文档变更量显著飙升。LangChain 强调,代理不需要复杂设计也能产生巨大影响,从简单用例开始自动化往往是最高效的方式。AI产品智能体自动化文档LangChainFleet6 个信源在谈推荐理由:这个案例证明了简单代理也能带来显著效率提升,适合正在探索内部自动化工具的团队参考——从文档这类高频低复杂度任务入手,效果立竿见影。原文
02:08LangChain@LangChainAILangChain 发布了一篇由 Sydney Runkle 撰写的指南,强调智能体的性能高度依赖于所提供上下文的准确性和时机。文章详细介绍了如何为特定用例构建定制化的“框架”(harness),以确保模型在正确的时间获得正确的上下文。该指南旨在帮助开发者优化智能体的表现,避免因上下文不足或错误导致的失败。对于正在构建或改进 AI 智能体的团队来说,这是一份实用的技术参考。AI产品智能体上下文管理LangChain框架构建开发者指南推荐理由:智能体开发者常因上下文问题导致效果不佳,这篇指南直接给出了构建定制化框架的方法论,做智能体应用的团队值得收藏实践。原文
01:54lmarena.ai@lmarena_aiAgent Arena 发布技术博客,详细介绍了其方法论,并深入分析了人类如何委托、纠正和引导智能体。该研究揭示了人机协作中的关键交互模式,为构建更可靠的智能体系统提供了实证基础。博客内容对智能体开发者、人机交互研究者以及关注 AI 安全与可控性的团队具有重要参考价值。AI产品智能体人机交互方法论Agent ArenaAI 安全推荐理由:做智能体产品的团队值得一读——它揭示了人类在实际使用中如何与智能体互动,这些模式直接影响产品设计和用户体验。原文
01:51lmarena.ai@lmarena_aiAgent Arena 发布了完整的智能体排行榜,用户可以在 arena.ai 上查看各智能体的表现排名。该排行榜基于多种任务和场景对智能体进行评估,为开发者提供了选择智能体的重要参考。排行榜的发布标志着智能体评估标准化的重要一步,有助于推动智能体技术的发展。AI产品智能体排行榜评估Agent Arena开发者工具推荐理由:智能体开发者可以快速了解当前各智能体的实际表现,选择最适合自己任务的模型。原文
01:50lmarena.ai@lmarena_aiArena 团队发布了关于 Agent Mode 的详细博客,包含 FAQ 和早期使用经验。该模式旨在提升 AI 智能体的自主决策与任务执行能力。博客中分享了在实际应用中遇到的挑战与解决方案。对于关注 AI 智能体开发的团队和个人,这是一份有价值的参考。AI产品智能体Agent ModeFAQArena经验分享推荐理由:做 AI 智能体开发的团队可以从中获取实际部署经验,FAQ 部分能直接解决常见问题,值得一读。原文
01:49lmarena.ai@lmarena_aiArena 平台今日上线 Agent Mode,允许用户评估智能体 AI 的表现。该模式旨在为开发者提供测试和比较不同智能体系统的标准化环境。用户可通过 arena.ai/agent 直接体验。这标志着 AI 评估从单一模型转向更复杂的智能体交互场景。AI产品智能体评估平台ArenaAgent ModeAI 测试推荐理由:做智能体开发或选型的团队终于有了可量化的评估工具,建议直接上手试试 Agent Mode。原文
01:48lmarena.ai@lmarena_ai88°Arena 平台推出 Agent Mode,允许用户测试 AI 智能体在真实任务中的表现,包括深度研究、生成报告、构建网站、调试代码等。该模式通过集成网页搜索、沙箱环境 bash、图像生成、文件写入和追问等工具,评估前沿模型如 GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro 和顶级开源模型的智能体能力。这标志着 AI 评测从对话转向复杂任务执行,为开发者提供了直观的模型选择依据。用户可直接在 Arena 中体验并对比不同模型的智能体性能。AI产品智能体评测平台GPT-5.5Claude Opus 4.7Gemini 3.1 Pro2 个信源在谈推荐理由:Arena 的 Agent Mode 解决了 AI 评测脱离实际任务的问题,做智能体应用或选型的开发者可以直接上手对比 GPT-5.5 和 Claude Opus 4.7 的真实表现,值得一试。原文
01:43Paul Graham@paulgPaul Graham 在 X 上发帖指出,通常让产品对 AI 智能体有用是解决方案,尤其是能让智能体之间相互交互。这样产品就会像市场一样安全,除非某一家模型公司通吃,那时一切都不确定了。这条推文引发了关于 AI 生态下产品策略的讨论。行业智能体产品策略AI生态Paul Graham市场安全推荐理由:做 AI 产品和平台的团队值得一读——Paul Graham 点出了让产品在智能体时代保持竞争力的关键思路,看完会对产品定位有新的启发。原文
01:22LlamaIndex@llama_index72°LlamaIndex 在 CVPR 2026 上发布了 ParseBench,这是首个专为 AI 智能体设计的文档解析基准测试。该基准包含 2000 多页人工验证的页面、167K+ 测试规则,覆盖表格、图表、忠实度、格式和接地性五个维度。团队认为文档理解是 AGI 完备问题,因为智能体无法正确读取文档就无法有效行动,而真实企业表格的解析难度远超表面所见。ParseBench 完全开源,旨在推动文档解析能力的发展。AI产品文档解析智能体基准测试开源/仓库LlamaIndex推荐理由:做文档解析或构建 AI 智能体的团队终于有了一个标准化的评测工具——ParseBench 覆盖了企业级表格、图表等真实难点,建议直接拿来评估你的解析管线。原文
01:19lmarena.ai@lmarena_ai88°Agent Arena 是一个全新的智能体评测平台,通过数百万次真实用户会话,衡量模型在完成实际任务(如编写代码、创建幻灯片、网页研究、构建应用、分析文档)时的表现。评测基于五个信号:任务成功率、可操控性、错误恢复、用户表扬/抱怨比、工具幻觉。排行榜基于 30 万+任务、200 万+工具调用和 4000 万行代码构建,当前排名第一为 OpenAI GPT-5.5,其次为 Anthropic Claude Opus 4.7、智谱 GLM-5.1、Google Gemini 3.1 Pro 和 Kimi K2.6。该平台旨在解决智能体在真实场景中难以评估的问题,为开发者提供更贴近实际使用的性能参考。AI产品智能体评测/基准GPT-5.5Claude Opus 4.7GLM-5.110 个信源在谈推荐理由:智能体评测终于从玩具任务走向真实场景——做 AI 应用或智能体开发的团队,可以直接用 Arena 的评测结果来选模型,比跑基准测试更有参考价值。原文
01:18Paul Couvert@itsPaulAiNvidia 发布了 Nemotron 3 Ultra 开源 AI 模型,专为智能体任务和编程场景优化。该模型在推理速度上比同类模型快 5 倍,成本降低 30%,并已在 Hugging Face 上开放下载。它特别适合处理大型代码库,并支持 Hermes Agent 等智能体框架。这一发布意味着开发者可以更高效、更经济地构建 AI 智能体应用。AI模型NvidiaNemotron 3 Ultra开源模型智能体编程助手10 个信源在谈推荐理由:做智能体开发或大型代码库编程的团队,终于有了一个又快又便宜的开源选择——Nemotron 3 Ultra 速度提升 5 倍、成本降低 30%,值得直接上 Hugging Face 试试。原文
00:50Geek@geekbb英伟达推出 Nemotron 3 Ultra 大模型,定位为前沿开放模型,专为需要规划、推理、使用工具并持续工作的长时运行智能体设计。该模型在复杂编程、研究和企业工作流中表现突出,推理速度提升高达 5 倍,智能体任务成本降低 30%。尽管英伟达此前的大模型产品常被评价“差口气”,但此次 Nemotron 3 Ultra 在智能体场景的针对性优化可能改变这一局面。AI模型英伟达Nemotron 3 Ultra智能体推理模型开源/仓库9 个信源在谈推荐理由:英伟达终于瞄准了智能体这个爆发赛道,做自动化编程、企业流程编排的团队可以关注——Nemotron 3 Ultra 的 5 倍推理加速和 30% 成本降低,可能让长任务智能体真正落地。原文
00:30Fireworks AI@FireworksAI_HQ76°NVIDIA 的 Nemotron 3 Ultra 模型已在 Fireworks 平台上线,这是一款面向前沿推理和长时间运行自主智能体编排的开源模型。该模型专为编码智能体、深度研究和复杂企业工作流等场景设计,旨在提升 AI 在长周期任务中的自主决策与执行能力。Fireworks 提供了零日支持,开发者可立即使用。AI模型推理模型智能体开源/仓库编程助手NVIDIA10 个信源在谈推荐理由:做复杂自动化智能体的团队终于有了开源推理模型的新选择——Nemotron 3 Ultra 专为长任务编排优化,编码和深度研究场景的开发者可以直接上手试。原文
00:15Patrick Loeber@patloeberDeepMind 发布了一个新的技能库(skills repo),旨在加速智能体驱动的科学工作流。该仓库包含预构建的模块化技能,可帮助 AI 智能体更高效地执行实验设计、数据分析等科学任务。这降低了构建科学 AI 智能体的门槛,让研究人员能快速复用和组合技能。对于从事自动化科学发现的团队,这是一个值得关注的实用资源。AI产品智能体科学工作流DeepMind开源/仓库自动化推荐理由:做科学自动化的团队可以直接复用 DeepMind 的模块化技能,省去从零搭建智能体工作流的成本,建议点开仓库看看具体技能列表。原文
00:14Qdrant@qdrant_engineAWS 的 Sandhya Subramani 将在 Vector Space Day 上展示一个开源智能体框架,允许用户通过自然语言直接控制机器人。该框架将物理硬件暴露为可编程的智能体工具,采用混合架构:边缘端负责低延迟控制,云端处理复杂推理。这一演示旨在让具身 AI 更易用,降低机器人编程门槛。活动将于 6 月 11 日在旧金山 Midway 举行。AI产品开源/仓库智能体具身AI机器人AWS推荐理由:机器人开发者终于可以像聊天一样指挥硬件了——这个开源框架把物理设备变成智能体工具,边缘+云端分工明确,做机器人或 IoT 的团队值得关注,可以直接用起来。原文
00:03LangChain@LangChainAI76°LangChain 宣布原生支持 NVIDIA 最新发布的 Nemotron 3 Ultra 模型,并在发布当天即提供对 Deep Agents 的支持。Nemotron 3 Ultra 是一个 550B 参数的 MoE 架构开放模型,专为长时间运行的智能体任务设计,推理速度提升 5 倍,复杂智能体任务成本降低 30%。作为 Nemotron Coalition 成员,LangChain 将与 NVIDIA 合作,推动开放模型的共享与构建。这一集成让开发者能立即在 LangChain 生态中使用该模型构建高性能智能体应用。AI产品LangChainNVIDIA Nemotron 3 Ultra智能体MoE开放模型10 个信源在谈推荐理由:做智能体应用的开发者可以立即在 LangChain 中调用 Nemotron 3 Ultra,推理快 5 倍、成本降 30%,值得直接上手试。原文
23:51Y Combinator@ycombinatorYC 新系列 Full Stack 首期邀请 Conductor 联合创始人兼 CEO Charlie Holtz,详细展示他如何用 AI 智能体管理编码工作流。视频涵盖从搭建 Conductor 自身、管理编码智能体团队、到区分“无垃圾”区域等实操经验。他还对比了 Claude 与 Codex 的优劣,并探讨了云端工作空间与人类-AI 协作的未来。对于正在探索 AI 编程和智能体管理的开发者,这是一份难得的实战指南。AI产品ConductorAI 编程智能体工作流Claude vs Codex推荐理由:Charlie Holtz 把 AI 编程工作流的细节全摊开了,从智能体团队管理到工具选型都有真实案例,做 AI 编程和智能体开发的可以直接抄作业。原文
23:42Clement Delangue@ClementDelangueHugging Face 联合创始人 Clement Delangue 分享称,已将 NanoClaw AI 的智能体追踪数据上传至 Hugging Face 平台。他认为所有智能体默认应将追踪数据私有存储在 HF 上,以便用户保留历史记录、进行分析、分享,并用于后训练更好的模型和工具。这一方向旨在提升智能体的可追溯性和数据利用效率,推动 AI 代理生态发展。AI产品智能体追踪数据Hugging FaceNanoClaw AI数据存储推荐理由:智能体开发者终于有了标准化的追踪数据存储方案——NanoClaw AI 与 Hugging Face 的集成让分析、分享和后训练变得简单,做 AI 代理的团队值得关注这个方向。原文
23:01阶跃星辰 Stepfun@Stepfun_AI阶跃星辰的 Step 3.7 Flash 模型已在 Fireworks AI 平台上线。该模型从设计之初就针对推理优化,采用硬件友好的架构和 MTP 辅助解码技术,推理速度可达每秒 400 tokens。Step 3.7 Flash 支持多模态输入,适合在真实工作流中驱动智能体。这一发布为开发者提供了高性能、低延迟的模型选择,尤其适合需要快速响应的应用场景。AI模型推理模型多模态阶跃星辰Fireworks AI智能体1 个信源在谈推荐理由:Step 3.7 Flash 以 400 tokens/s 的速度刷新了推理效率,做实时 AI 应用或智能体开发的团队可以直接在 Fireworks AI 上试用,省去自建推理基础设施的麻烦。原文
22:39elvis@omarsar083°NVIDIA 发布了 Nemotron 3 Ultra,一个 550B 参数的混合专家(MoE)开源模型,专为长时间运行的智能体任务优化。该模型在推理速度上比同类开源前沿模型快 5 倍,同时将复杂智能体任务的成本降低高达 30%。这标志着开源模型在支持本地长时间运行编程智能体方面迈出了重要一步,为开发者提供了更高效、更经济的替代方案。AI模型NVIDIANemotron 3 UltraMoE开源模型智能体10 个信源在谈推荐理由:做智能体或编程助手的开发者终于有了一个开源的高效选择——Nemotron 3 Ultra 在速度和成本上显著优于同类模型,值得立即关注和测试。原文
22:10NVIDIA AI@NVIDIAAINVIDIA 宣布对 Ultra 模型进行后训练,使其适配 OpenClaw、NousResearch Hermes Agent 和 LangChain 等主流智能体框架。该模型作为开放前沿模型,开发者可针对不同领域定制专用智能体。此举降低了构建复杂 AI 智能体的门槛,推动开源生态发展。AI模型NVIDIAUltra智能体开源/仓库LangChain10 个信源在谈推荐理由:做智能体开发的团队终于有了官方适配主流框架的开放模型,可以直接基于 Ultra 定制领域专用智能体,省去大量底层适配工作,值得关注。原文
21:27NVIDIA AI@NVIDIAAI93°NVIDIA 今日正式推出 Nemotron 3 Ultra,一款 550B 参数的 MoE(混合专家)开源模型,专为长时间运行的智能体任务设计。相比其他开源前沿模型,该模型推理速度提升 5 倍,复杂智能体任务成本降低高达 30%。Nemotron 3 Ultra 旨在解决长周期 AI 任务中的效率与成本瓶颈,为开发者提供更经济、更快速的智能体部署方案。NVIDIA 强调其“前沿智能”级别性能,并保持开源,进一步推动 AI 生态发展。AI模型NVIDIANemotron 3 UltraMoE开源模型智能体10 个信源在谈推荐理由:做智能体开发和部署的团队终于有了一个兼顾性能与成本的开源选择——Nemotron 3 Ultra 的 5 倍推理加速和 30% 成本降低值得直接上手测试。原文
20:34Hugging Face: Blog(博客/媒体)精选ServiceNow AI 发布了 EVA-Bench Data 2.0,一个面向企业级 AI 智能体的评估基准数据集。该数据集覆盖 3 个领域(IT、HR、客户服务),包含 121 种工具和 213 个场景,旨在测试 AI 智能体在复杂企业环境中的工具调用和任务执行能力。相比第一版,新版本增加了更多真实世界的交互场景和工具多样性,为开发者提供了更全面的评估标准。这对于希望在企业场景中部署 AI 智能体的团队来说,是一个重要的参考资源。AI产品智能体评估基准企业AI工具调用ServiceNow1 个信源在谈推荐理由:企业 AI 智能体评估终于有了更贴近真实场景的基准——3 领域 121 工具覆盖 IT、HR、客服,做企业级 AI 落地的团队可以直接用这个数据集来测试自己的智能体。原文
19:43The Rundown AI@therundownai今日 AI 领域多个重要动态:新型图像模型不再依赖文本提示,而是通过布局直接生成图像,提升了创作效率;Meta 正在将企业聊天转化为 AI 智能体,用于自动化客户服务;Manus 推出自动化社交媒体内容日历功能;一项研究表明 AI 导师在教学中已超越法学院教师;此外还有 4 个新 AI 工具和社区工作流发布。这些进展分别从图像生成、企业自动化、教育等领域推动 AI 应用落地。行业图像模型智能体自动化AI 导师Meta推荐理由:图像模型从文本提示转向布局生成,做设计或内容创作的团队可以大幅提升效率;Meta 把商业聊天变成智能体,做客服自动化的企业值得关注。原文
18:42Qdrant@qdrant_engine距离 Vector Space Meetup 在柏林举办还有一周。活动主题是“智能体时代的检索”,探讨智能体需要什么样的检索能力。现代智能体不再只是找最近片段,还需要决定何时搜索、搜索什么、使用哪些工具以及检索信息是否足够行动。活动将邀请来自 cognee、deepset、LlamaIndex 和 n8n 的构建者进行小组讨论,并由 Qdrant 联合创始人兼 CTO 发表主题演讲。活动将于6月11日在柏林 AI Campus 举行,需注册审批。行业智能体检索增强生成向量数据库MeetupQdrant推荐理由:智能体开发者都在头疼检索问题——什么时候搜、搜什么、够不够用?这场 Meetup 把 cognee、deepset、LlamaIndex 和 n8n 的构建者聚在一起,直接回答你的疑问。做 RAG 或智能体系统的建议报名,现场还能和 Qdrant CTO 交流。原文
16:14shao__meng@shao__meng精选场外衍生品市场名义价值 846 万亿美元,45% 的保证金追缴存在争议,其中过半源于双方对同一份 CSA 合同的理解不同。该系统将流程拆为四层:ADE 按专用 Schema 提取字段并绑定源页码;三个 Claude Agent 并行归一化抵押品描述、时区和货币条款,纯规则验证 Agent 预审矛盾项;五步骤纯 Python 计算器执行确定性运算,零 LLM 调用;最终生成带追溯、推理链和可独立运行脚本的审计包。核心洞察是争议根源在合同解读而非数学,LLM 负责模糊语义判断,规则负责一致性算术,两者接口显式化。该分离原则适用于保险理赔、监管报告等一切文档解释驱动确定性计算的高风险场景。AI产品智能体金融科技LLM应用可审计性架构设计推荐理由:金融衍生品团队终于有了解决保证金争议的架构方案——把 LLM 的模糊判断和规则的确定性计算分离,做 OTC 清算、合规或风控的开发者可以直接参考这套可审计设计。原文
14:31marktechpost@Asif Razzaq精选72°斯坦福研究人员发布 OpenJarvis,一个完全在设备上运行的开源 AI 智能体框架,涵盖推理、智能体、记忆和学习。它将个人 AI 系统分解为五个可组合原语:智能、引擎、智能体、工具与记忆、学习。在性能上,OpenJarvis 仅比最佳云端模型低 3.2 个点,但边际 API 成本降低约 800 倍。该框架旨在实现隐私保护、低延迟和低成本,适合个人设备上的 AI 应用。AI产品智能体开源/仓库本地优先记忆工具推荐理由:OpenJarvis 解决了隐私和成本两大痛点,做本地 AI 智能体开发的团队可以直接用——性能接近云端但成本低 800 倍,值得一试。原文
13:01阶跃星辰 Stepfun@Stepfun_AI精选StepFun 发布 Step 3.7 Flash 模型,主打高智能与高速度的平衡。该模型采用 MTP 辅助解码技术,输出速度超过 400 tokens/s,具备更强的智能体性能和原生多模态能力。模型权重以 Apache 2.0 协议开源,适合生产级智能体工作负载。独立评测者 @ArtificialAnlys 对其进行了详细评估。AI模型推理模型开源/仓库智能体多模态StepFun推荐理由:做智能体应用或需要高吞吐推理的团队,Step 3.7 Flash 的开源高速度方案值得直接拿来用,尤其适合生产环境部署。原文