全部 AI 动态 · AI 热点

6月18日

10:58

shao__meng@shao__meng

74°

Vercel 开源了 Agent 框架 Eve，将 Agent 定义为目录结构，内置持久会话（基于 Workflow SDK 的可 checkpoint 工作流）、沙箱（本地 Docker/microsandbox，部署用 Vercel Sandbox）和 Human-in-the-loop 审批机制。Eve 支持 MCP/OpenAPI 连接、多 Channel（HTTP、Slack、Discord、Teams）和定时任务。内部验证显示：d0 月处理 3 万+ 问数，Lead Agent 年成本约 $5k，回报约 32 倍，Vertex 约 92% 工单自动解决。开发者可用 eve dev 本地调试，vercel deploy 部署，Agent 进 Git 管理。

推荐理由：Vercel 开源了 Eve，把 Agent 做成标准目录，内置沙箱、持久会话和审批流，开发部署一条龙，内部验证 ROI 高达 32 倍。

原文

10:58

shao__meng@shao__meng

精选

实验让Kimi K2.7 Code和Claude Fable 5分别生成12个落地页进行并排对比，覆盖B2B SaaS、酒吧、开发者工具等类别。Kimi单页成本仅4美分，Claude Fable为1.09美元，差距约27倍，整体Kimi总成本降低94%。使用GPT-5.5按标准化评分表打分，Claude Fable部分案例略高但差距不大。Kimi通过MCP Server提供高质量视觉参考后，页面质量显著提升，成本效率优势突出。

AI模型 Kimi K2.7 Code Claude Fable 5 落地页生成 MCP/工具对比评测

推荐理由：想知道怎么用Kimi K2.7 Code花不到5分钱做出媲美Claude Fable 5的落地页？实验数据全给你算清楚了，迭代省大钱。

原文

10:57

Viking@vikingmute

GLM5.2在Artificial Analysis开源模型排名中登顶，多项benchmark评分领先。有用户反馈其实际体验接近Opus 4.6，作者考虑将Deepseek V4 Pro替换为GLM5.2。该帖子获得2条回复、505次浏览。

AI模型 GLM5.2 Artificial Analysis Opus 4.6 Deepseek V4 Pro 开源模型

推荐理由：GLM5.2在开源模型排名拿了第一，而且有人说用起来感觉像Opus 4.6，你要是想换掉Deepseek V4 Pro可以试试。

原文

10:50

小互@imxiaohu

精选

该MCP插件内置对蓝图、资产、关卡、材质、网格体等核心系统的支持，无需额外配置即可让AI Agent读取并修改关卡内容。例如用户下达“把所有红色材质换成蓝色”指令后，AI能自动读取材质参数并执行修改。插件还预留接口，允许开发者接入自定义系统扩展功能。

技巧 MCP Unreal Engine AI Agent 智能体游戏开发

推荐理由：这个MCP插件让人能用自然语言直接操控Unreal Engine场景，省掉手写蓝图和脚本的麻烦。

原文

10:39

小互@imxiaohu

Unreal Engine 5.8 今天发布，新增实验性 MCP 插件，允许用户通过 Claude Code 用自然语言指令创建3D场景。例如，可以布置现代客厅（沙发、地毯、茶几），或一句话生成整座城市（城区、高速、路网、建筑）。还能通过“波哥大早上九点半”自动计算太阳位置和大气光照，将原本数月的手动工作缩短到几天甚至一句话完成。

AI产品 Unreal Engine MCP插件 Claude Code 自然语言游戏开发

推荐理由：Unreal Engine 5.8 的新插件太实用了，跟Claude Code说句话就能生成城市或室内场景，光照参数也不用自己调了，效率直接拉满。

原文

10:07

阿里云 Alibaba Cloud@alibaba_cloud

阿里云日本区域经理Takeshi Kurita与CyberAgent高管Takahito Naito探讨如何通过Qwen模型降低企业生成式AI成本。双方分享了基于Alibaba Cloud的Agentic Cloud策略的实际部署经验。会议聚焦于企业级AI模型的高效运用与未来方向。

行业 Alibaba Cloud Qwen CyberAgent 企业AI 成本优化

推荐理由：阿里云和CyberAgent聊用Qwen降成本，有实战干货，搞企业AI的可以听听。

原文

09:51

berryxia@berryxia

精选

当前Physical AI的VLA模型仅在统计相关性上学习，桌子高2cm即失败。UCSD黄碧薇教授在CVPR 2026发布Causal World Models框架，让AI从模仿动作进化到理解因果。她创立的Aether AI获得2000万美元融资，成为全球首个因果世界模型公司。与杨立昆AMI（融10亿美元）和李飞飞World Labs（10亿美元）等不同，Aether AI不卷规模而卷因果结构。

AI模型 Causal World Models Aether AI VLA 因果模型具身智能

推荐理由：黄碧薇教授不堆数据，教AI理解物理因果。Aether AI刚融资2000万美元，可能改变具身智能的游戏规则。

原文

09:49

shao__meng@shao__meng

精选

Codex Automations 采用双循环架构：内循环在写作前检索历史、事实等上下文，生成可审阅的草稿；外循环在人工审阅后分析草稿与终稿的差异（如补事实、删承诺），并将有效改进写入写作指引。内循环每2小时运行一次以保持即时效率，外循环每日或每周运行以避免过拟合。该架构适用于邮件、汇报、Issue 分诊等需要起草-审阅-修改的流程。

AI产品 Codex Automations 工作流自动化邮件助手 AI审阅

推荐理由：想让你写的邮件或报告由AI打草稿，还能从你的每次修改里自动学习？Codex Automations这个双循环设计挺实用，特别适合需要反复审阅的场景。

原文

09:30

小互@imxiaohu

Anthropic 更新了 Claude Code 和 Claude Design 的集成，新增双向同步功能。运行 /design-sync 可将设计拉取到代码库，基于真实组件构建；使用 /design 可将代码推回 Claude Design 画布编辑。编辑器新增拖拽、缩放、对齐、修改字体和颜色等传统设计工具操作。导出格式扩展至 PDF、PPTX、Canva、HTML、Claude Code 五种。Claude Design 现在支持三种方式读取设计系统：指向 GitHub 仓库读取代码中的颜色变量、间距常量、组件样式；上传 Figma 文件；上传品牌规范文档，并在生成后自动对照设计系统检查并修正偏差。

AI产品 Claude Code Claude Design 设计系统代码同步设计工具

推荐理由：Claude 终于让设计师和开发者能双向同步了，还能直接读你 GitHub 的组件代码，自动检查设计偏差，省去手动对齐的麻烦。

原文

09:05

Claude@claudeai

73°

Claude Design新增功能：可跨项目保持设计系统品牌一致（stays on brand），用户可直接在画布上编辑（edit directly on the canvas），并与Claude Code同步（syncs with Claude Code），同时连接更多已有工具。该功能目前已在Claude.ai上可用。

AI产品 Claude Claude Design 设计工具画布编辑 Claude Code

推荐理由：Claude Design现在能跨项目统一品牌，还能在画布直接改图，和Claude Code打通，做设计更方便了。

原文

09:04

Claude@claudeai

77°

Claude Design和Claude Code现在支持双向协作，今天开始推送。用户可以将设计稿交给Claude Code进行构建，或从Claude Code终端同步设计项目。该功能支持导出为PDF和PowerPoint格式，并能发送到其他常用工具。

AI产品 Claude Design Claude Code 编程助手设计工具

推荐理由：Claude现在能双向同步设计与代码，从终端直接建项目，还能导出PPT，省事多了。

原文

08:30

Ate-a-Pi@svpino

推文作者Santiago分享了他的7款最爱模型：日常用Claude Opus 4.7和ChatGPT 5.5 Thinking、实时新闻用Grok、编程用Claude Code（Sonnet 4.6和Opus 4.6）、本地快速用Gemma 4、开放权重用MiniMax 2.7和Qwen 3.6。他还推荐了Anuma作为一站式替代方案，支持跨模型共享上下文和并排对比答案。

AI产品 Claude Opus ChatGPT Grok Gemma Anuma

推荐理由：有人列出了7款主流模型推荐，还发现Anuma能跨模型保持对话、对比答案，省订阅费。

原文

08:04

eric zakariasson@ericzakariasson

Cursor宣布其移动端App即将进入正式发布阶段（GA）。用户可将本地Agent迁移至云端，让Agent在笔记本合盖后仍持续工作。通过手机即可向Cursor发送提示，并支持并行运行多个Agent。完成后可直接获取带有演示视频的Pull Request。

AI产品 Cursor 移动端 Agent 云端编程助手

推荐理由：Cursor马上出手机App了，能把本地Agent搬到云端继续跑，合上电脑也能用。还能并行跑多个Agent，手机发个指令就拿到带演示的PR。

原文

08:01

LlamaIndex@llama_index

精选

关于智能体检索架构，团队在向量数据库和纯grep之间存在分歧。LlamaIndex工程主管George He将于6月29日分享在LlamaParse Index中构建检索架构的决策和死胡同。实际需要两者结合：语义搜索用于快速初筛，grep和文件读取用于top-k块切分不完整时的精确检索。活动注册见landing.llamaindex.ai/retrieval-harn…。

行业向量数据库 grep LlamaIndex LlamaParse 智能体

推荐理由：LlamaIndex的工程主管来讲检索架构实战，区分语义搜索和精确grep的时机，做智能体的别错过。

原文

07:43

Runway ML@runwayml

Runway API 推出 Recipes 功能，这是预构建的生成式媒体端点，内含 Runway 的提示词和工作流专业知识。用户只需一次 API 调用即可将功能集成到平台中，无需自行构建和维护工作流。示例包括从图片生成产品广告、在现有视频中替换产品等。该功能支持大规模商用。

AI产品 Runway API Recipes 生成式媒体视频编辑

推荐理由：Runway 的 Recipes 用一条 API 就能给你的平台加上生成式广告和视频替换功能，省去自己搭工作流的麻烦。

原文

07:42

Gary Marcus@GaryMarcus

Google DeepMind、滑铁卢大学、ANU 和 UCL 联合发表新论文，提出 AGI 能力层级定义，包括“胜任型 AGI”（competent AGI）、“专家级 AGI”和“超人级 AGI”。论文指出当前连最低层级的“胜任型 AGI”都未达成，更不用说更高级别。Gary Marcus 公开表示完全赞同该结论，认为所有声称 AGI 已实现的说法只是营销。

论文 Gary Marcus Google DeepMind AGI 论文

推荐理由：别被吹牛忽悠了。这篇论文给了你一个硬核标尺：DeepMind 等机构说连最低门槛的胜任型 AGI 都没到，真相比营销更靠谱。

原文

07:42

宝玉@dotey

该方法通过内循环每2小时检查新邮件，自动检索上下文生成草稿但不发送。用户修改草稿后，外循环根据修改记录优化写作Skill。这种自动化循环让Agent不断学习用户风格，提升后续草稿质量。

技巧 Loop Engineering 智能体提示词工程自动化工作流

推荐理由：这个工作流把自动写邮件草稿和自动学习你风格的动作做成循环，越来越懂你，适合常写邮件的人。

原文

07:37

Cursor@cursor_ai

Cursor 推出新功能，允许用户将本地 agent 迁移到云端。这样在合上笔记本电脑后，agent 仍可继续运行。用户可以从手机向 Cursor 发出提示，并行运行多个 agent，并接收带有演示的 PR。该功能提升了开发者的远程协作效率。

AI产品 Cursor 云端 agent 并行运行 PR 编程助手

推荐理由：Cursor 现在能让你的 agent 在云端跑，合上电脑也能继续干活。还能从手机发指令、多 agent 并行，直接拿到带演示的 PR 结果，比之前省心太多。

原文

07:36

Cursor@cursor_ai

Cursor 发布了新功能 /in-cloud，允许用户在独立的云端虚拟机中启动子代理。该功能专为隔离长时间运行或并行任务设计，避免占用本地资源。使用 /in-cloud 后，本地工作空间保持清洁和快速响应。该命令通过云端 VM 执行子代理，适合复杂或耗时操作。

AI产品 Cursor /in-cloud 子代理云端虚拟机编程助手

推荐理由：Cursor 这个新功能很实用：用 /in-cloud 把耗时任务扔到云端 VM 上跑，本地不卡顿，适合写代码时跑长任务。

原文

07:29

Amjad Masad@amasad

Replit 宣布集成 Claude Design，用户可直接将设计稿发送至 Replit 平台，自动生成可运行的应用。该功能无需手动编写代码，简化了从设计到产品的流程。用户只需在 Claude Design 中点击发送即可触发转换。

AI产品 Claude Design Replit AI设计编程助手

推荐理由：Replit 和 Claude Design 连上了，设计完一键变应用，省掉手动敲代码的麻烦。

原文

06:26

Harrison Chase@hwchase17

harbor是一个用于运行长时间、有状态智能体评估的框架，目前支撑Terminal Bench 2。LangSmith Sandboxes现已原生集成harbor，成为一等环境。用户只需安装harbor[langsmith]并设置LANGSMITH_API_KEY即可运行评估。该集成覆盖Daytona、E2B和Modal等沙箱环境。

AI产品 harbor LangSmith LangChain 智能体评估

推荐理由：LangChain老大强推harbor框架跑复杂智能体评估，现在直接集成LangSmith沙箱，一行代码搞定环境，省心。

原文

05:56

elvis@omarsar0

精选

Block 公司构建了名为 Builderbot 的内部 AI 系统，通过 orchestrator 代理协调多个代理跨代码库工作。工程师在 Slack 中标记 Builderbot，系统即可自动研究、规划并发布代码。该平台每天处理 200,000 次操作，每周合并 1,500 个拉取请求，占 Block 全部生产代码变更的 15%。原本需要数月的工作现在只需数天完成。

AI产品 Builderbot Block 智能体代码生成编程助手

推荐理由：Block 内部搞了个 Builderbot，每天自动处理 20 万次操作、合并 1500 个 PR，把几个月的工作缩短到几天，效率太猛了。

原文

05:53

xAI@xai

xAI将其编程智能体Grok Build预安装在DigitalOcean的虚拟机上，用户可一键启动。该产品已上架DigitalOcean Marketplace。用户通过SSH登录即可运行grok命令进行开发。该方案利用了DigitalOcean的Serverless Inference服务。

AI产品 Grok Build xAI DigitalOcean 编程助手虚拟机

推荐理由：xAI把Grok Build直接预装到DigitalOcean的虚拟机里，点一下就能用，省去配置麻烦，适合想在云上快速用AI编程的人。

原文

05:47

Jerry Liu@jerryjliu0

精选

LlamaIndex 将 Agentic Search 从固定 RAG 管道升级为灵活 agent harness，供 AI 代理访问 keyword search（BM25、grep regex）和 semantic search 两类工具。当用户上传非结构化文档至 LlamaParse 时，系统自动暴露这些检索能力。公司将于6月30日举办网络研讨会，探索各工具在 agentic search 中的最佳用法。

AI产品 LlamaIndex LlamaParse agentic search 智能体检索工具

推荐理由：LlamaIndex 在 LlamaParse 里加了一套检索工具包，包括 BM25 和语义搜索，让 agent 能灵活调取。6月30日还有免费 webinar 讲架构细节，干搜索的可以看看。

原文

05:29

ollama@ollama

用户称 GLM 5.2 达到 SOTA 级别的智能，但成本仅为同类模型的一小部分。他认为 GLM 5.2 的输出和个性优于 GPT 5.5。他计划将 GLM 5.2 用于自己的工具 Hermes 以及客户项目中。该推文获得 170 点赞和超 7300 次浏览。

AI模型 GLM 5.2 GPT 5.5 Hermes 开源模型

推荐理由：有人实测后说 GLM 5.2 比 GPT 5.5 更强还便宜，准备放进自己产品用，有参考价值。

原文

05:25

OpenAI@OpenAI

OpenAI推出LifeSciBench新基准，用于评估AI模型在生物科学中的实际推理能力。该基准包含七个工作流，测试模型从证据推理、处理科学制品、应对不确定性等技能。GPT-Rosalind在所有七个工作流上得分均超过GPT-5.5。结果显示在制品密集、设计密集和操作受限任务上仍有改进空间。

AI模型 LifeSciBench GPT-Rosalind GPT-5.5 OpenAI 推理模型

推荐理由：OpenAI搞了个新基准LifeSciBench，专门测生物科学推理，GPT-Rosalind比GPT-5.5还强，值得看看。

原文

05:24

OpenAI@OpenAI

OpenAI发布LifeSciBench，一个专门用于衡量AI在真实生命科学研究中表现的基准。该基准由173位生物技术和制药领域科学家参与开发，包含750个专家编写的任务，覆盖7个生物研究工作流。LifeSciBench旨在系统评估AI模型在文献分析、实验设计等科研环节的实用性，并指导后续改进。

AI模型 OpenAI LifeSciBench 基准生命科学科研辅助

推荐理由：OpenAI联合173位科学家搞了个LifeSciBench，750个专家级任务覆盖7个生物研究流程，想测AI在生命科学里到底好不好用，科研人员可以用它来选模型。

原文

05:23

OpenAI@OpenAI

OpenAI推出LifeSciBench，这是一个专门用于评估AI在生命科学领域表现的基础基准。该基准旨在通过更现实的测试场景，帮助研究者衡量进展、识别差距。LifeSciBench强调与生命科学社区的持续合作，以共同改进AI。具体评估指标和测试集细节尚待公开。

AI模型 LifeSciBench OpenAI 基准测试生命科学

推荐理由：OpenAI搞了个LifeSciBench，专门测AI在生命科学上的表现，比以前的评估更贴近真实场景，想了解差距的可以看看。

原文

05:17

Greg Brockman@gdb

精选

OpenAI的GPT-5.4与Molecule.one的Maria AI合作，推动了一个药物化学项目从文献综述到实验验证的完整流程。模型提出了一种意想不到的方法，改进药物发现中广泛使用的反应。该结果在专用实验室中得到验证。相关推文获得180个点赞和超过2.3万次查看。

AI模型 GPT-5.4 OpenAI Molecule.one 推理模型药物研发

推荐理由：OpenAI的GPT-5.4这次不是聊天，而是真帮化学家改进了药物反应，和Molecule.one的AI配合，从文献到实验跑通了

原文

05:15

LangChain@LangChainAI

LangChain为Harbor添加了完整Dockerfile快照支持，可自动构建、缓存和复用任务环境快照。新增SDK profile支持，用户无需修改配置即可切换不同目标环境。同时实现了完整的exec/upload/download生命周期，使Harbor任务在不同沙箱提供商间行为一致。这些功能主要面向运行智能体评估的用户，相关文档已在docs.langchain.com/langsmith/sand…上线。

AI产品 LangChain Harbor Dockerfile 智能体沙箱环境

推荐理由：简单说，LangChain给Harbor加了三个实用功能，跑agent评估时能自动管理环境快照、切换配置，省去重复搭建的麻烦。

原文

05:05

lmarena.ai@lmarena_ai

76°

Agent Arena上线两周，新增10个模型。GLM-5.2 (Max)进入前十，以+9.4%确认成功率和+14.9%赞美vs抱怨率成为最强开源模型。Claude Fable 5在多项指标排名第一，但受美国政府指令暂停访问。评测基于超过30万任务、200万次工具调用和4000万行代码。

AI模型 Agent Arena GLM-5.2 Claude Fable 5 智能体 OpenAI

推荐理由：想看看最新智能体模型谁最强？Agent Arena更新了，GLM-5.2开源冲进前十，Claude Fable 5暂时下线，榜单有了新格局。

原文

05:04

@OpenAIDevs@OpenAIDevs

OpenAI Devs上周与Women who Code(x)社区合作举办活动。参与者使用Codex构建了任务代理和个人指南等应用。活动展示了Codex在辅助编程和快速开发项目方面的实际能力。

行业 OpenAI Codex 智能体社区活动

推荐理由：OpenAI和Women who Code(x)用Codex搞了个活动，实际展示了怎么用Codex快速搭建智能体和项目，很接地气。

原文

05:01

Lovable@lovable_dev

Lovable为Claude Code用户推出三项终端命令：/build、/deploy和/db。这些命令允许开发者在终端内直接构建应用、部署项目和编程管理数据库。用户可以将代理运行在后台，不打断编码流程。Lovable的产品定位是让用户通过命令行即可完成全栈开发，无需切换浏览器界面。

AI产品 Lovable Claude Code 编程助手终端命令

推荐理由：Lovable给Claude Code用户加了三个终端命令，不切屏就能构建、部署、管数据库，效率拉满。

原文

04:57

Lovable@lovable_dev

Lovable 推出了与 Claude 的 MCP 服务器原生集成，用户可在 Claude 中直接与 @claudeai 对话、将 Claude Design 的设计导出到 Lovable，并使用 Claude Code 将项目部署到 Lovable。用户只需在 Claude 中点击 + → Connectors → Browse Connectors → Lovable 即可启用。该集成简化了从设计到部署的工作流。

AI产品 Lovable Claude MCP/工具集成

推荐理由：Lovable 现在能直接从 Claude 聊天、导出设计、用 Claude Code 部署，一步到位。

原文

04:56

elvis@omarsar0

GLM-5.2 在 Design Arena 设计基准上以 Elo 1360 分排名第一，超越此前第一的 Claude Fable 5。该模型擅长生成游戏、落地页、HTML 组件和 3D 世界等内容。Zai 组织发布了这个开源权重模型，其设计质量被认为接近 Opus 级别。评测显示它相比此前版本提升了 4 个名次和 27 个 Elo 点。

AI模型 GLM-5.2 Zai Design Arena 设计生成开源模型

推荐理由：Zai 开源的 GLM-5.2 在 Design Arena 上干掉了 Claude Fable 5，能设计游戏、HTML 和 3D 世界，不看后悔。

原文

04:53

ChatGPT@ChatGPTapp

OpenAI 为 ChatGPT 推出新的任务调度功能，支持在 web 和移动端使用。新功能通过 Scheduled 页面管理，声称更快、更可靠。该更新面向 Go、Plus、Pro、Business 和 Enterprise 用户分批推送。

AI产品 ChatGPT OpenAI 任务调度 Scheduled页面

推荐理由：ChatGPT 现在可以让你更稳地安排定时任务，管理起来也方便多了，特别适合需要自动化提醒或定期输出的朋友。

原文

04:27

LMSYS Org (SGLang)@lmsysorg

精选73°

LMSYS 发表博客详解如何用 SGLang-JAX 在 TPU v7x 上优化 Ling-2.6-1T（1T 参数混合 MoE 模型）。通过 Fused MoE V2 内核将令牌和累加器留在 VMEM 中并双缓冲专家权重，MoE 预填充延迟降低 53%。混合内存池为 10 个全注意力层分配逐令牌 MLA KV，为 70 个 GLA 层分配逐请求循环状态。GLA 线性注意力采用分块并行预填充，单控制器 DP 保持分组 RMS Norm 芯片本地化，无需逐层跨芯片规约。

AI模型 Ling-2.6-1T TPU SGLang-JAX MoE 推理优化

推荐理由：LMSYS 和 InclusionAI 联手，用 SGLang-JAX 让 1T 参数 MoE 在 TPU 上跑得快 53%，技术细节都在博客里。

原文

04:09

Aadit Sheth@aaditsh

88°

Amazon CEO于5天前向白宫举报Claude Fable 5的安全风险。该模型在24小时内被禁止海外访问。Amazon是Anthropic最大投资者，投资额达40亿美元。Anthropic CEO Dario的模型被禁，而OpenAI CEO Sam的模型未受限。这一事件凸显AI监管的地缘政治分歧。

行业 Claude Fable 5 Amazon Anthropic OpenAI AI安全

推荐理由：Amazon举报了自己投了40亿的模型？Claude Fable 5被白宫禁了，OpenAI却没事，这背后有瓜吃。

原文

04:05

Replit@Replit

Replit 宣布与 Claude Design 集成，用户可将 Claude Design 中的设计直接发送到 Replit，自动转化为可运行的应用。该功能目前已在 Replit 平台上线，支持从设计到开发的一键生成。该集成简化了原型到产品的流程，无需手动编写代码。

AI产品 Replit Claude Design 编程助手应用构建

推荐理由：Replit 和 Claude 打通了，画完 UI 直接变成能用的 app，省掉写代码的功夫。

原文

04:03

Amjad Masad@amasad

Replit Agent 现在支持语音交互，用户可以通过说话与 AI 协作编程。该功能已在移动应用、移动网页和桌面网页端全面可用。Replit 创始人 Amasad 称这是最自然的协作方式。此前 Replit Agent 已能通过文字生成代码，语音模式进一步降低了使用门槛。

AI产品 Replit Agent 语音交互编程助手

推荐理由：你直接跟 Replit Agent 说话就能让它写代码，手机和电脑都能用，比打字快多了

原文

仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档（侧边栏 → AI 日报 → 顶部「往期日报」）。