13:01阶跃星辰 Stepfun@Stepfun_AI精选StepFun 发布 Step 3.7 Flash 模型,主打高智能与高速度的平衡。该模型采用 MTP 辅助解码技术,输出速度超过 400 tokens/s,具备更强的智能体性能和原生多模态能力。模型权重以 Apache 2.0 协议开源,适合生产级智能体工作负载。独立评测者 @ArtificialAnlys 对其进行了详细评估。AI模型推理模型开源/仓库智能体多模态StepFun推荐理由:做智能体应用或需要高吞吐推理的团队,Step 3.7 Flash 的开源高速度方案值得直接拿来用,尤其适合生产环境部署。原文
12:52Ate-a-Pi@svpino传统 SaaS 产品以“人类优先 + AI 功能”为设计理念,但这一模式正在被颠覆。新的趋势是“AI 优先 + 人类功能”,即产品核心由 AI 驱动,人类操作作为附加特性。以 Nitrosend 为例,它没有推出传统的邮件营销平台,而是打造了一个 AI 优先的平台,允许用户通过 Claude Code、Codex 等智能体工具运行邮件营销。这种完全不同的产品思路值得关注,虽然目前不确定是否适合专业用户,但突破常规的尝试本身就是进步。行业SaaSAI-first智能体邮件营销产品设计推荐理由:SaaS 产品经理和创业者值得关注这个趋势——AI-first 正在重塑产品架构,Nitrosend 的案例展示了如何用智能体替代传统界面,做邮件营销的团队可以看看这种新玩法。原文
12:49Fireworks AI@FireworksAI_HQ精选72°Step 3.7 Flash 是阶跃星辰(StepFun)发布的 198B 稀疏 MoE 视觉语言模型,专为推理效率从头设计。该模型包含 196B 语言骨干和 1.8B 视觉编码器,支持原生多模态理解和行动,可靠工具使用,以及增强的网页和视觉搜索。在真实智能体工作负载下,推理速度可达 400 tok/sec,并采用 Apache 2.0 开源许可。Fireworks AI 已提供在线试用。AI模型视觉语言模型稀疏MoE推理效率智能体StepFun1 个信源在谈推荐理由:多数实验室事后才考虑推理效率,而 Step 3.7 Flash 从设计之初就为推理优化,做智能体应用和视觉语言模型的开发者可以直接试用,感受 400 tok/sec 的流畅体验。原文
11:44lmarena.ai@lmarena_ai精选76°MiniMax M3 模型在 LMSYS Arena 上线,在 Code Arena: Frontend 排名第 7,得分 1531,与 GLM-5.1 不相上下。该模型以每百万 token 输入 0.60 美元、输出 2.40 美元的价格,在其价位上推动了帕累托前沿。MiniMax M3 是首个结合编码与智能体前沿能力的开源权重模型,在 SWE-Bench Pro 上达 59.0%,支持 1M 上下文,并原生支持多模态。权重和技术报告将在约 10 天内发布。AI模型MiniMax M3编码模型开源权重智能体多模态1 个信源在谈推荐理由:MiniMax M3 以极低价格实现了顶级编码性能,做前端开发或智能体应用的团队值得关注,性价比突出。原文
10:44AI Will@FinanceYF588°Can Sar正式加入OpenAI,负责Codex产品。Codex旨在将分散在prompt、标签页、工具和文件中的AI Agent功能整合为一个统一界面,打造知识工作的单一操作面。这一整合对比了30多个Agent工具,强调强大的模型、产品思维和对用户的真正关注。Codex在OpenAI内部的战略定位可能比外界预期的更重。AI产品CodexOpenAI智能体产品整合知识工作10 个信源在谈推荐理由:AI Agent工具碎片化是当前开发者的痛点,Codex试图用统一界面解决这个问题,做Agent或知识工作的团队值得关注其进展。原文
10:19berryxia@berryxia78°OpenMOSS团队发布开源模型MOSS-Audio,首次将语音、音乐和环境音统一建模,实现音频语言统一。该模型能同时转录语音、识别环境音、理解音乐情绪,并生成文本描述或执行下游任务。它登顶Hugging Face Trending第一,代码和模型权重完全开源可商用。这颠覆了音频AI作为视觉/文本附属品的认知,让普通开发者能本地搭建音频Agent。开源社区在音频多模态领域的速度和开放度已领先闭源方案。AI模型开源/仓库音频模型多模态MOSS-Audio智能体推荐理由:做音频Agent或播客工具的开发者终于不用在闭源高价和割裂方案间纠结——MOSS-Audio一个模型搞定语音+声音+音乐,直接本地跑,建议立刻拉下来试试。原文
09:45Genspark@genspark_aiGenspark 联合创始人 Ray Zhong 在微软 Build 大会上宣布与微软达成全球战略合作,并成为 Agent365 的发布合作伙伴。Genspark 将把智能体 AI 直接嵌入企业已有的基础设施中,无需新登录、新习惯或额外摩擦,且从第一天起就具备可观测性、安全性和可治理性。此举旨在让 AI 在团队现有工作环境中无缝运行,降低企业采用门槛。AI产品智能体微软Agent365企业AIGenspark推荐理由:企业 AI 落地的最大障碍是改变现有工作流,Genspark 直接嵌入微软基础设施的方案解决了这个痛点,IT 决策者和数字化转型负责人值得关注。原文
08:29Notion@NotionHQNotion 宣布其智能体现已支持连接 ClickHouseDB Cloud 的 MCP(模型上下文协议),用户可以通过自然语言直接查询和分析 ClickHouse 中的数据,并实时监控资源使用情况。这一集成让非技术用户也能轻松探索数据库,无需编写 SQL。MCP 作为 AI 与数据基础设施的桥梁,正在加速企业级数据应用的智能化。对于依赖 ClickHouse 做实时分析的团队,这能显著降低数据访问门槛。AI产品智能体MCP/工具ClickHouseNotion数据分析3 个信源在谈推荐理由:Notion 智能体+ClickHouse 的 MCP 集成让数据分析变得像聊天一样简单,做实时数据监控的团队可以直接用自然语言查资源,省去写 SQL 的麻烦。原文
08:21Cognition@cognition_labs精选Cognition 宣布 Devin Desktop 现在支持 Agent Communication Protocol(ACP),允许用户将任意第三方智能体接入 Devin 桌面环境。ACP 是一种开放协议,旨在标准化智能体之间的通信与协作。这意味着开发者可以在 Devin 中自由组合不同来源的 AI 代理,扩展自动化工作流。该更新提升了 Devin 作为智能体平台的可扩展性和开放性。AI产品智能体ACP/协议Devin自动化开放平台推荐理由:对于使用 Devin 做自动化开发的团队,ACP 协议让接入自定义智能体变得标准化,不用再受限于单一模型,值得尝试集成。原文
08:20Cognition@cognition_labs精选Harvey 工程团队将其内部背景代理 Spectre 集成到 Devin Desktop 中。现在,Spectre 的组织上下文可以存在于每位工程师的笔记本电脑上,并在他们喜爱的代理之间流动。这一集成使得团队能够更高效地共享和利用组织知识,提升了协作和开发效率。对于使用 Devin 的开发者来说,这是一个重要的功能增强。AI产品DevinSpectre智能体组织上下文Harvey推荐理由:Harvey 团队通过集成 Spectre 解决了组织上下文在代理间流动的痛点,使用 Devin 的开发者可以直接受益,建议关注这一实践。原文
07:15Greg Brockman@gdb78°OpenAI 对 GPT-Rosalind 进行了重大升级,这是一款专为生命科学研究设计的模型系列。升级后的模型结合了 GPT-5.5 的智能体编码和工具使用能力,显著提升了在药物发现、分析、设计和实验工作流中的智能水平。该模型旨在企业级规模下加速生命科学研究,为制药和生物技术领域提供更强大的 AI 辅助。此次升级意味着研究人员可以更高效地处理复杂的生物信息学任务,推动新药研发进程。AI产品GPT-Rosalind药物发现生命科学智能体OpenAI10 个信源在谈推荐理由:做药物研发和生命科学研究的团队终于有了更趁手的 AI 工具——GPT-Rosalind 把 GPT-5.5 的智能体能力带进了实验流程,建议相关领域的科研人员直接体验。原文
06:44Augment Code@augmentcodeAugment 推出了名为 Cosmos 的新平台,旨在帮助企业大规模部署 AI 智能体。Cosmos 支持在用户自己的环境或 Augment 的环境中运行,并允许用户选择自己喜欢的模型。该平台提供了可观测性、审计追踪和人工监督功能,以满足企业级部署对安全性和合规性的要求。这对于希望将 AI 智能体投入生产环境的团队来说是一个重要的基础设施选择。AI产品智能体部署平台Augment可观测性企业级推荐理由:做 AI 智能体工程化的团队终于有了一个兼顾灵活性和合规性的部署方案——Cosmos 支持自选模型和完整审计,适合需要将智能体落地到生产环境的企业开发者直接评估。原文
06:43Augment Code@augmentcode76°Augment Code 宣布推出 Cosmos,这是一个面向软件团队的统一智能体平台。该平台允许团队在整个软件开发生命周期中编排多个智能体,将它们整合为一个单一的组织系统,而非孤立的工人。据官方称,Cosmos 已改变了其自身工程团队的工作方式,吞吐量提升了 3 倍。这标志着 AI 辅助开发从单点工具向系统化协作平台的重要演进。AI产品智能体软件工程Augment CodeCosmos开发平台推荐理由:软件团队终于有了一个能统一管理多个 AI 智能体的平台,解决了智能体碎片化的问题。做工程管理的团队可以直接参考其 3 倍吞吐量提升的实践,建议点开了解如何编排智能体。原文
04:44LangChain@LangChainAILangSmith Engine 能够自动发现并突出显示系统中的问题,而不是让它们隐藏在追踪记录中。ListenLabs 的 Ollie Elmgren 分享了该工具如何改变其团队评估智能体的方式。该引擎通过自动化问题检测,帮助团队更高效地识别和解决系统性问题,从而提升智能体的可靠性和性能。AI产品LangSmith智能体评估工具系统性问题自动化推荐理由:做 AI 智能体评估的团队终于不用手动翻 trace 找 bug 了——LangSmith Engine 自动暴露系统性问题,ListenLabs 已经用上了,建议做 agent 开发的团队点开看看。原文
04:44LangChain@LangChainAILangSmith Fleet 推出了可共享技能功能,允许团队为智能体配置专业知识以执行特定任务。该功能通过 LangSmith Fleet 平台实现,使团队成员能够共享和复用技能配置,提升协作效率。LangChain 官方在 X 上发布了演示视频,展示了如何快速上手。这对于需要统一管理多个智能体知识库的团队来说是一个实用更新。AI产品LangSmith智能体团队协作知识管理可共享技能推荐理由:做多智能体协作的团队终于可以统一配置专业知识了,LangSmith Fleet 的共享技能功能直接解决知识分散问题,建议点开视频看 1 分钟演示。原文
04:38airtap_ai@airtap_ai76°Airtap 的演示展示了优秀智能体的核心能力:不是仅仅回答问题,而是将上下文带入实际工作场景。例如,生成餐食计划只是开始,智能体随后进入 Instacart 找到相关商品并构建购物车。这体现了 Airtap 的定位:不是聊天机器人,而是基于手机的真实应用工作流执行层。最佳 AI 任务往往是分阶段完成的:规划、应用、行动。AI产品智能体工作流自动化AirtapAgent UX执行层推荐理由:做 AI 智能体或工作流自动化的开发者,这个演示点明了智能体从“回答”到“执行”的关键跃迁——看完会重新思考 Agent UX 的设计方向。原文
04:12Notion@NotionHQNotion 宣布其智能体可通过 MCP 协议连接 Box 云存储,实现文件的访问、管理和修改。这意味着用户可以在 Notion 的对话界面中直接操作 Box 中的文件,无需切换应用。该集成基于 MCP(模型上下文协议),为 AI 智能体提供了标准化的文件操作能力。此举进一步扩展了 Notion 智能体的功能边界,提升了办公协作效率。AI产品NotionBoxMCP/工具智能体文件管理2 个信源在谈推荐理由:Notion 用户终于可以在智能体对话中直接操作 Box 文件了,省去来回切换的麻烦。经常用 Notion 管理项目文档的团队值得一试。原文
04:12HeyGen@HeyGen_OfficialHeyGen 与 Google DeepMind 将于6月11日在洛杉矶联合举办一场线下活动,主题聚焦智能体、多模态应用和创意工具。活动内容包括产品演示、交流讨论,并开放闪电演示名额,邀请有创新项目的团队或个人参与。这是两家 AI 领域知名公司首次公开合作举办社区活动,旨在促进前沿 AI 技术的实践与交流。行业HeyGenGoogle DeepMind智能体多模态线下活动推荐理由:做 AI 应用和智能体开发的团队别错过——HeyGen 和 DeepMind 首次线下联办,有机会展示你的项目、直接和两家团队交流,闪电演示名额开放中,建议有 demo 的立刻报名。原文
03:42Paul Couvert@itsPaulAi腾讯 WorkBuddy 已成为中国排名第一的 AI 智能体,拥有数百万用户。它支持本地文件夹集成、数百个内置专家、编码和工作模式,无需终端即可在几秒内启动。用户甚至可以通过手机远程控制。这款强大的应用现已面向全球开放。AI产品智能体腾讯WorkBuddy编程助手全球可用推荐理由:对于寻找全能型 AI 工作助手的团队,腾讯 WorkBuddy 提供了从编码到日常任务的完整解决方案,且无需复杂配置,值得立即体验。原文
03:14Y Combinator@ycombinatorWato 是一家由 Y Combinator 支持的新创公司,旨在为使用 AI 智能体的团队提供协作层。它整合了团队已有的 AI 订阅服务,提供共享知识库、云智能体、自动化流程和权限管理工具。这解决了多智能体协作中知识碎片化、工具分散的问题,让团队能更高效地协同工作。Wato 的推出标志着 AI 智能体从单点工具向团队级基础设施的演进。AI产品智能体协作工具云智能体自动化Wato推荐理由:Wato 解决了 AI 智能体团队协作的碎片化痛点,做 AI 自动化或智能体开发的团队可以直接用它来统一管理知识、工具和权限,值得关注。原文
03:14LangChain@LangChainAILangChain 推出 Managed Deep Agents,结合开源 Deep Agents 框架与 LangSmith 平台,提供持久化执行、托管上下文、沙箱工作流和可观测性。这一方案让开发者既能利用开源框架的灵活性,又能享受托管平台的稳定性和监控能力,适合需要可靠 AI 代理的生产环境。AI产品智能体LangChainLangSmith开源/仓库生产部署推荐理由:做 AI 代理的团队终于不用在灵活性和稳定性之间二选一了——开源框架 + 托管平台,生产部署可以直接用。原文
02:48Notion@NotionHQNotion 宣布其智能体可通过 MCP 协议连接 Mixpanel,实现产品分析数据的查询与洞察推送。这意味着团队可以直接在 Notion 内获取产品使用数据、用户行为分析等关键指标,无需切换工具。该集成利用了 MCP 的标准化接口,降低了数据获取门槛,提升了团队协作效率。对于依赖数据驱动决策的产品团队,这是一个实用的工作流优化。AI产品智能体MCP/工具数据分析NotionMixpanel2 个信源在谈推荐理由:产品团队终于可以在 Notion 里直接查 Mixpanel 数据了,省去来回切换的麻烦,做数据分析的同事建议试试这个 MCP 集成。原文
02:48Notion@NotionHQNotion 宣布与 MiroHQ 的 MCP(模型上下文协议)集成,用户现在可以在 Notion 内直接让 AI 智能体创建视觉内容、读取 Miro 看板,无需切换应用。这一集成使得 Notion 的 AI 能力扩展到可视化协作领域,提升了跨平台工作流的效率。对于依赖 Notion 和 Miro 进行项目管理的团队,这是一个重要的生产力提升。AI产品NotionMiroMCP/工具智能体协作工具2 个信源在谈推荐理由:Notion 用户终于可以在一个界面里让 AI 操作 Miro 看板了,做项目管理和视觉协作的团队值得试试,省去来回切换的麻烦。原文
02:47Notion@NotionHQNotion 宣布为其自定义智能体(Custom Agents)新增 5 个 MCP 连接器,分别对接 Box、ClickHouseDB、Mercury、MiroHQ 和 Mixpanel。这意味着用户可以通过自然语言指令,让智能体直接操作这些外部工具,例如从 Box 读取文件、查询 ClickHouse 数据库、在 Miro 白板上协作、分析 Mixpanel 数据等。MCP(Model Context Protocol)是一种开放标准,旨在让 AI 模型安全地访问外部工具和数据源。此次更新显著扩展了 Notion 智能体的能力边界,使其从单纯的笔记助手升级为跨平台工作流中枢。对于依赖这些工具的团队,可以直接在 Notion 内完成更多任务,减少上下文切换。AI产品Notion智能体MCP/工具连接器工作流3 个信源在谈推荐理由:Notion 智能体终于能直接调用 Box、Mixpanel 等常用工具了,做项目管理和数据分析的团队可以少切几个标签页,建议试试用自然语言查询数据库或拉取报表。原文
02:42Harrison Chase@hwchase17LangChain 推出 create_agent 工具,这是一个极简的智能体框架,旨在让开发者轻松构建任务特定的智能体。其核心亮点是支持通过中间件(middleware)进行高度自定义,使得扩展和调整智能体行为变得非常简单。这对于需要快速原型设计或构建复杂工作流的开发者来说是一个重要进展,降低了智能体开发的门槛。AI产品LangChain智能体中间件开发工具框架推荐理由:LangChain 的 create_agent 解决了智能体框架过于臃肿的问题,做 AI 应用开发的团队可以快速上手并定制自己的智能体,建议试试中间件机制。原文
02:12Weaviate@weaviate_ioWeaviate 宣布 Engram 正式 GA,这是一个专为智能体应用设计的托管记忆服务。传统记忆系统只是扩展上下文窗口,导致智能体随时间推移性能停滞、重复解决问题、浪费 token。Engram 通过异步管道主动维护记忆,支持去重、偏好变化和时间演化事实的处理。它提供“发后即忘”API、自然语言主题记忆磁铁、多级隔离和可组合管道,基于 Weaviate 的向量+关键词+元数据搜索。适用于聊天机器人、经验学习智能体和多智能体系统,前三个月免费至7月15日。AI产品智能体记忆系统WeaviateEngram托管服务推荐理由:做智能体应用的团队终于有了正经的记忆基础设施——Engram 解决了智能体随时间变笨的核心痛点,做聊天机器人、经验学习或多智能体系统的开发者值得立即试用。原文
01:46Fireworks AI@FireworksAI_HQFireworks AI 在 Harvey 的法律智能体基准上测试了稀疏顾问模式:用 GLM 5.1 作为执行工人,Claude Opus 4.7 作为稀疏顾问,结果全部通过率从 Opus 单独运行的 14/100 提升至 18/100,成本仅为 Opus 单独运行的 39%。该模式通过让强大模型仅在关键步骤提供建议,显著降低了推理成本。Fireworks 已开源相关 harness 设计、顾问模式及训练结果。AI产品智能体法律AIGLM 5.1Claude Opus 4.7开源/仓库1 个信源在谈推荐理由:法律 AI 团队终于有了降本增效的实战方案——用 GLM 5.1 搭配 Claude Opus 4.7 做稀疏顾问,性能提升 28% 的同时成本砍掉 61%,做法律智能体或长链推理的开发者值得一试。原文
01:30SiliconFlowAI@siliconflowaiAndrej Karpathy 的 llm-wiki 项目在短时间内获得超过 5000 个 GitHub 星标。该项目旨在让 LLM 自动构建和维护一个知识库,避免每次会话都重新发现知识。用户可以通过 OpenCode、JustSisyphus OMO 和 SiliconFlow 等工具搭建自己的 llm-wiki。这解决了 AI 对话中知识无法积累的问题,让每次使用都变得更智能。AI产品知识管理LLM开源/仓库Karpathy智能体推荐理由:Karpathy 的 llm-wiki 解决了 AI 对话中知识碎片化的痛点,做知识管理或频繁使用 LLM 的团队可以试试,让 AI 越用越聪明。原文
01:29SiliconFlowAI@siliconflowaiSiliconFlow AI 宣布推出 Hermes Agent 的官方桌面应用,标志着该智能体框架从命令行走向图形界面。桌面版提供了更直观的操作体验,支持任务编排、模型调用和结果可视化,降低了使用门槛。这对于需要快速搭建和调试 AI 智能体的开发者来说是一个重要更新。Hermes Agent 此前以开源框架形式存在,桌面版将加速其在开发者和企业用户中的普及。AI产品智能体桌面应用SiliconFlowHermes Agent开发者工具推荐理由:Hermes Agent 桌面版让智能体开发从命令行拖到图形界面,做 AI 应用原型和调试的团队可以直接上手,省去配置环境的麻烦。原文
01:28SiliconFlowAI@siliconflowai83°SiliconFlow 宣布将 OpenRouter 上排名第一的编程智能体 Hermes Agent 集成到 Discord 服务器中。用户可以通过 Discord 直接使用该智能体进行编程任务,无需额外设置。Hermes Agent 由 NousResearch 开发,在 OpenRouter 上表现优异。SiliconFlow 提供了详细的设置步骤、模型选择建议和专业技巧,帮助用户快速上手。这一集成让编程助手更易访问,适合团队协作场景。AI产品编程助手智能体Discord 集成Hermes AgentSiliconFlow推荐理由:编程团队终于可以在 Discord 里直接调用顶级智能体了——Hermes Agent 在 OpenRouter 上排名第一,做协作开发的团队建议试试这个集成,省去切换工具的麻烦。原文
01:25elvis@omarsar072°微软研究院提出SkillOpt方法,将Agent的技能文档视为可训练的外部状态,通过一个优化器模型对技能文件进行验证驱动的编辑(增、删、改指令),而Agent本身保持不变。实验显示,SkillOpt在52个(模型、基准、框架)组合中表现最佳或持平,在GPT-5.5上直接聊天提升23.5分,Codex提升24.8分,Claude Code提升19.1分,且优于人类编写的技能、TextGrad等方法。该方法不增加推理成本,学到的技能可跨模型和框架迁移。论文微软研究院SkillOpt智能体技能文档优化器推荐理由:做AI Agent开发的团队常手工写技能文档但效果有限,SkillOpt用优化器自动迭代技能文件,零推理开销且效果显著,值得尝试。原文
01:24elvis@omarsar0微软的SkillOpt论文提出了一种让AI智能体技能自我进化的方法。一位开发者将其集成到自己的智能体编排器中,发现所有技能都获得了有效的测试框架和自进化能力。在论文图表提取技能上,应用SkillOpt后质量从0.73提升到0.93,提高了20分。作者认为这是当前智能体自我改进能力的明确例证,并指出该思路可扩展到优化智能体模式、工具使用、上下文工程等多个领域。论文智能体自我进化微软SkillOpt技能优化推荐理由:做智能体开发的团队终于有了让技能自动优化的实用框架——SkillOpt不仅提升了20%的质量,还提供了测试和自进化机制,建议直接集成到你的智能体编排器中试试。原文
01:04NVIDIA AI@NVIDIAAINVIDIA 发布了 OpenShell v0.0.55 版本,新增对 Google Vertex AI 推理提供者的支持,允许用户直接使用 Vertex AI 运行智能体。该版本还引入了基于配置文件的策略可见性,增强了网关中的 Podman 检测能力,并恢复了 GPU procfs 的基线行为。此外,修复了 CI 和文档问题,提升了整体稳定性和安全性。对于需要跨云部署 AI 智能体的开发者来说,这是一个实用的更新。AI产品OpenShellVertex AI智能体推理NVIDIA10 个信源在谈推荐理由:OpenShell 新增 Vertex AI 支持,让多云 AI 智能体部署更灵活,做跨平台推理的团队可以直接用起来。原文
00:49LangChain@LangChainAI创业公司发现平台 Harmonic AI 使用 Deep Agents 和 LangSmith 重建了其 AI 平台 Scout。Deep Agents 采用一个前沿模型加两个工具集(全球公司数据和公司特定上下文),并内置长周期执行和上下文窗口管理。LangSmith 负责部署和扩展,提供完整对话追踪用于调试,并自动发现失败模式和建议修复。这一重建提升了平台的智能性和可靠性。AI产品智能体AI 平台LangSmithDeep Agents创业发现推荐理由:做 AI 平台或智能体开发的团队可以看看 Harmonic 如何用 Deep Agents 和 LangSmith 解决长周期执行和调试痛点,值得借鉴。原文
00:31阶跃星辰 Stepfun@Stepfun_AIStep 3.7 Flash 模型专为真实世界的智能体编程任务设计,不仅追求代码生成速度,更注重在复杂输出中保持逻辑、视觉和执行的一致性。该模型在演示中展示了其在多步骤、多模态任务中的连贯性,适合需要高可靠性的编程场景。开发者 @atomic_chat_hq 的创意测试进一步验证了其能力。AI模型智能体编程助手推理模型Step 3.7 Flash多模态推荐理由:做智能体编程的开发者终于有了一个兼顾速度和一致性的模型——Step 3.7 Flash 在复杂任务中保持逻辑连贯,值得在真实项目中试试。原文
23:54elvis@omarsar076°Google 发布新研究 LEAP(Lean-Enhanced Agentic Programming),通过将通用大语言模型封装在智能体框架中,每一步都基于 Lean 编译器进行验证,并迭代利用验证器反馈。该框架使同一个通用模型解决了全部 12 道 Putnam 2025 数学竞赛题,并将 Lean-IMO-Bench 的一次性求解率从不到 10% 提升至 70%,超越了得分为 48% 的专用金牌系统。这项研究展示了定制智能体框架在数学推理任务上的巨大潜力,论文已发布在 arXiv 上。论文智能体数学推理LeanGoogleLEAP推荐理由:做数学推理或智能体开发的团队值得关注——LEAP 用通用模型+验证反馈循环就超越了专用系统,说明智能体框架设计比模型本身更关键,建议点开论文看具体架构。原文
22:45LangChain@LangChainAILangChain 发布了 LangSmith Sandboxes,专为 AI 智能体设计的执行环境,支持安装包、编辑文件、管理长期运行任务并恢复中断工作。该沙盒默认运行不可信代码,解决了智能体在复杂任务中需要持久化状态和安全隔离的核心痛点。开发者可以在沙盒中为智能体提供完整的计算环境,使其像人类一样持续工作。这一工具旨在提升智能体在自动化工作流、代码执行等场景中的可靠性和安全性。AI产品智能体沙盒/执行环境LangChainLangSmith自动化工作流推荐理由:做智能体开发和自动化工作流的团队终于有了专门的状态化执行环境——LangSmith Sandboxes 解决了智能体需要持久化工作状态和安全运行不可信代码的痛点,建议直接试用。原文
22:13LangChain@LangChainAI在Interrupt大会上,思科客户体验部门的首席架构师Carlos Pereira分享了他们如何利用LangChain构建一个AI队友来支持CX团队。该AI队友旨在提升客户支持效率,解决企业级Agent在生产环境中的部署和运行挑战。演讲涵盖了架构决策、经验教训以及大规模运行Agent所需的关键要素。这为其他企业构建和落地AI Agent提供了宝贵的参考案例。行业智能体LangChain企业级应用客户体验生产部署推荐理由:思科CX团队的企业级Agent落地经验,对正在或计划将AI Agent投入生产的团队极具参考价值,建议点开了解架构决策和避坑指南。原文
22:07LangChain@LangChainAIHarvey 推出 LAB 基准,模拟人类验证方式,每个任务包含 50 多条通过标准,每条标准由独立法官调用评估。LangChain Labs 与 Harvey 合作,探索如何在大规模场景下提升效率。该基准可审计性强,但成本较高,合作旨在优化这一过程。AI产品法律 AI智能体基准测试LangChainHarvey推荐理由:法律 AI 团队终于有了可审计的验证基准——每个任务 50+ 标准像人类一样逐条检查,做法律智能体开发的可以直接参考。原文
21:15LangChain@LangChainAI精选LangChain 与法律 AI 公司 Harvey 联合发布了一项研究,聚焦于为法律智能体(legal agents)设计和测量高效验证器(verifiers)。该研究评估了不同验证方法的性能,旨在提升法律领域 AI 系统的可靠性和准确性,为法律 AI 应用提供新的评估框架。论文LangChainHarvey法律AI智能体验证器推荐理由:LangChain和Harvey最新的法律AI验证器研究原文