10:58shao__meng@shao__meng74°Vercel 开源了 Agent 框架 Eve,将 Agent 定义为目录结构,内置持久会话(基于 Workflow SDK 的可 checkpoint 工作流)、沙箱(本地 Docker/microsandbox,部署用 Vercel Sandbox)和 Human-in-the-loop 审批机制。Eve 支持 MCP/OpenAPI 连接、多 Channel(HTTP、Slack、Discord、Teams)和定时任务。内部验证显示:d0 月处理 3 万+ 问数,Lead Agent 年成本约 $5k,回报约 32 倍,Vertex 约 92% 工单自动解决。开发者可用 eve dev 本地调试,vercel deploy 部署,Agent 进 Git 管理。AI产品VercelEve智能体MCP/工具开源框架5 个信源在谈推荐理由:Vercel 开源了 Eve,把 Agent 做成标准目录,内置沙箱、持久会话和审批流,开发部署一条龙,内部验证 ROI 高达 32 倍。原文
10:58shao__meng@shao__meng精选实验让Kimi K2.7 Code和Claude Fable 5分别生成12个落地页进行并排对比,覆盖B2B SaaS、酒吧、开发者工具等类别。Kimi单页成本仅4美分,Claude Fable为1.09美元,差距约27倍,整体Kimi总成本降低94%。使用GPT-5.5按标准化评分表打分,Claude Fable部分案例略高但差距不大。Kimi通过MCP Server提供高质量视觉参考后,页面质量显著提升,成本效率优势突出。AI模型Kimi K2.7 CodeClaude Fable 5落地页生成MCP/工具对比评测10 个信源在谈推荐理由:想知道怎么用Kimi K2.7 Code花不到5分钱做出媲美Claude Fable 5的落地页?实验数据全给你算清楚了,迭代省大钱。原文
10:57Viking@vikingmuteGLM5.2在Artificial Analysis开源模型排名中登顶,多项benchmark评分领先。有用户反馈其实际体验接近Opus 4.6,作者考虑将Deepseek V4 Pro替换为GLM5.2。该帖子获得2条回复、505次浏览。AI模型GLM5.2Artificial AnalysisOpus 4.6Deepseek V4 Pro开源模型2 个信源在谈推荐理由:GLM5.2在开源模型排名拿了第一,而且有人说用起来感觉像Opus 4.6,你要是想换掉Deepseek V4 Pro可以试试。原文
10:50小互@imxiaohu精选该MCP插件内置对蓝图、资产、关卡、材质、网格体等核心系统的支持,无需额外配置即可让AI Agent读取并修改关卡内容。例如用户下达“把所有红色材质换成蓝色”指令后,AI能自动读取材质参数并执行修改。插件还预留接口,允许开发者接入自定义系统扩展功能。技巧MCPUnreal EngineAI Agent智能体游戏开发推荐理由:这个MCP插件让人能用自然语言直接操控Unreal Engine场景,省掉手写蓝图和脚本的麻烦。原文
10:39小互@imxiaohuUnreal Engine 5.8 今天发布,新增实验性 MCP 插件,允许用户通过 Claude Code 用自然语言指令创建3D场景。例如,可以布置现代客厅(沙发、地毯、茶几),或一句话生成整座城市(城区、高速、路网、建筑)。还能通过“波哥大早上九点半”自动计算太阳位置和大气光照,将原本数月的手动工作缩短到几天甚至一句话完成。AI产品Unreal EngineMCP插件Claude Code自然语言游戏开发推荐理由:Unreal Engine 5.8 的新插件太实用了,跟Claude Code说句话就能生成城市或室内场景,光照参数也不用自己调了,效率直接拉满。原文
10:07阿里云 Alibaba Cloud@alibaba_cloud阿里云日本区域经理Takeshi Kurita与CyberAgent高管Takahito Naito探讨如何通过Qwen模型降低企业生成式AI成本。双方分享了基于Alibaba Cloud的Agentic Cloud策略的实际部署经验。会议聚焦于企业级AI模型的高效运用与未来方向。行业Alibaba CloudQwenCyberAgent企业AI成本优化推荐理由:阿里云和CyberAgent聊用Qwen降成本,有实战干货,搞企业AI的可以听听。原文
09:51berryxia@berryxia精选当前Physical AI的VLA模型仅在统计相关性上学习,桌子高2cm即失败。UCSD黄碧薇教授在CVPR 2026发布Causal World Models框架,让AI从模仿动作进化到理解因果。她创立的Aether AI获得2000万美元融资,成为全球首个因果世界模型公司。与杨立昆AMI(融10亿美元)和李飞飞World Labs(10亿美元)等不同,Aether AI不卷规模而卷因果结构。AI模型Causal World ModelsAether AIVLA因果模型具身智能推荐理由:黄碧薇教授不堆数据,教AI理解物理因果。Aether AI刚融资2000万美元,可能改变具身智能的游戏规则。原文
09:49shao__meng@shao__meng精选Codex Automations 采用双循环架构:内循环在写作前检索历史、事实等上下文,生成可审阅的草稿;外循环在人工审阅后分析草稿与终稿的差异(如补事实、删承诺),并将有效改进写入写作指引。内循环每2小时运行一次以保持即时效率,外循环每日或每周运行以避免过拟合。该架构适用于邮件、汇报、Issue 分诊等需要起草-审阅-修改的流程。AI产品Codex Automations工作流自动化邮件助手AI审阅推荐理由:想让你写的邮件或报告由AI打草稿,还能从你的每次修改里自动学习?Codex Automations这个双循环设计挺实用,特别适合需要反复审阅的场景。原文
09:30小互@imxiaohuAnthropic 更新了 Claude Code 和 Claude Design 的集成,新增双向同步功能。运行 /design-sync 可将设计拉取到代码库,基于真实组件构建;使用 /design 可将代码推回 Claude Design 画布编辑。编辑器新增拖拽、缩放、对齐、修改字体和颜色等传统设计工具操作。导出格式扩展至 PDF、PPTX、Canva、HTML、Claude Code 五种。Claude Design 现在支持三种方式读取设计系统:指向 GitHub 仓库读取代码中的颜色变量、间距常量、组件样式;上传 Figma 文件;上传品牌规范文档,并在生成后自动对照设计系统检查并修正偏差。AI产品Claude CodeClaude Design设计系统代码同步设计工具10 个信源在谈推荐理由:Claude 终于让设计师和开发者能双向同步了,还能直接读你 GitHub 的组件代码,自动检查设计偏差,省去手动对齐的麻烦。原文
09:05Claude@claudeai73°Claude Design新增功能:可跨项目保持设计系统品牌一致(stays on brand),用户可直接在画布上编辑(edit directly on the canvas),并与Claude Code同步(syncs with Claude Code),同时连接更多已有工具。该功能目前已在Claude.ai上可用。AI产品ClaudeClaude Design设计工具画布编辑Claude Code6 个信源在谈推荐理由:Claude Design现在能跨项目统一品牌,还能在画布直接改图,和Claude Code打通,做设计更方便了。原文
09:04Claude@claudeai77°Claude Design和Claude Code现在支持双向协作,今天开始推送。用户可以将设计稿交给Claude Code进行构建,或从Claude Code终端同步设计项目。该功能支持导出为PDF和PowerPoint格式,并能发送到其他常用工具。AI产品Claude DesignClaude Code编程助手设计工具6 个信源在谈推荐理由:Claude现在能双向同步设计与代码,从终端直接建项目,还能导出PPT,省事多了。原文
08:30Ate-a-Pi@svpino推文作者Santiago分享了他的7款最爱模型:日常用Claude Opus 4.7和ChatGPT 5.5 Thinking、实时新闻用Grok、编程用Claude Code(Sonnet 4.6和Opus 4.6)、本地快速用Gemma 4、开放权重用MiniMax 2.7和Qwen 3.6。他还推荐了Anuma作为一站式替代方案,支持跨模型共享上下文和并排对比答案。AI产品Claude OpusChatGPTGrokGemmaAnuma1 个信源在谈推荐理由:有人列出了7款主流模型推荐,还发现Anuma能跨模型保持对话、对比答案,省订阅费。原文
08:04eric zakariasson@ericzakariassonCursor宣布其移动端App即将进入正式发布阶段(GA)。用户可将本地Agent迁移至云端,让Agent在笔记本合盖后仍持续工作。通过手机即可向Cursor发送提示,并支持并行运行多个Agent。完成后可直接获取带有演示视频的Pull Request。AI产品Cursor移动端Agent云端编程助手10 个信源在谈推荐理由:Cursor马上出手机App了,能把本地Agent搬到云端继续跑,合上电脑也能用。还能并行跑多个Agent,手机发个指令就拿到带演示的PR。原文
08:01LlamaIndex@llama_index精选关于智能体检索架构,团队在向量数据库和纯grep之间存在分歧。LlamaIndex工程主管George He将于6月29日分享在LlamaParse Index中构建检索架构的决策和死胡同。实际需要两者结合:语义搜索用于快速初筛,grep和文件读取用于top-k块切分不完整时的精确检索。活动注册见landing.llamaindex.ai/retrieval-harn…。行业向量数据库grepLlamaIndexLlamaParse智能体推荐理由:LlamaIndex的工程主管来讲检索架构实战,区分语义搜索和精确grep的时机,做智能体的别错过。原文
07:43Runway ML@runwaymlRunway API 推出 Recipes 功能,这是预构建的生成式媒体端点,内含 Runway 的提示词和工作流专业知识。用户只需一次 API 调用即可将功能集成到平台中,无需自行构建和维护工作流。示例包括从图片生成产品广告、在现有视频中替换产品等。该功能支持大规模商用。AI产品RunwayAPIRecipes生成式媒体视频编辑推荐理由:Runway 的 Recipes 用一条 API 就能给你的平台加上生成式广告和视频替换功能,省去自己搭工作流的麻烦。原文
07:42Gary Marcus@GaryMarcusGoogle DeepMind、滑铁卢大学、ANU 和 UCL 联合发表新论文,提出 AGI 能力层级定义,包括“胜任型 AGI”(competent AGI)、“专家级 AGI”和“超人级 AGI”。论文指出当前连最低层级的“胜任型 AGI”都未达成,更不用说更高级别。Gary Marcus 公开表示完全赞同该结论,认为所有声称 AGI 已实现的说法只是营销。论文Gary MarcusGoogle DeepMindAGI论文推荐理由:别被吹牛忽悠了。这篇论文给了你一个硬核标尺:DeepMind 等机构说连最低门槛的胜任型 AGI 都没到,真相比营销更靠谱。原文
07:42宝玉@dotey该方法通过内循环每2小时检查新邮件,自动检索上下文生成草稿但不发送。用户修改草稿后,外循环根据修改记录优化写作Skill。这种自动化循环让Agent不断学习用户风格,提升后续草稿质量。技巧Loop Engineering智能体提示词工程自动化工作流推荐理由:这个工作流把自动写邮件草稿和自动学习你风格的动作做成循环,越来越懂你,适合常写邮件的人。原文
07:37Cursor@cursor_aiCursor 推出新功能,允许用户将本地 agent 迁移到云端。这样在合上笔记本电脑后,agent 仍可继续运行。用户可以从手机向 Cursor 发出提示,并行运行多个 agent,并接收带有演示的 PR。该功能提升了开发者的远程协作效率。AI产品Cursor云端 agent并行运行PR编程助手10 个信源在谈推荐理由:Cursor 现在能让你的 agent 在云端跑,合上电脑也能继续干活。还能从手机发指令、多 agent 并行,直接拿到带演示的 PR 结果,比之前省心太多。原文
07:36Cursor@cursor_aiCursor 发布了新功能 /in-cloud,允许用户在独立的云端虚拟机中启动子代理。该功能专为隔离长时间运行或并行任务设计,避免占用本地资源。使用 /in-cloud 后,本地工作空间保持清洁和快速响应。该命令通过云端 VM 执行子代理,适合复杂或耗时操作。AI产品Cursor/in-cloud子代理云端虚拟机编程助手10 个信源在谈推荐理由:Cursor 这个新功能很实用:用 /in-cloud 把耗时任务扔到云端 VM 上跑,本地不卡顿,适合写代码时跑长任务。原文
07:29Amjad Masad@amasadReplit 宣布集成 Claude Design,用户可直接将设计稿发送至 Replit 平台,自动生成可运行的应用。该功能无需手动编写代码,简化了从设计到产品的流程。用户只需在 Claude Design 中点击发送即可触发转换。AI产品Claude DesignReplitAI设计编程助手6 个信源在谈推荐理由:Replit 和 Claude Design 连上了,设计完一键变应用,省掉手动敲代码的麻烦。原文
06:26Harrison Chase@hwchase17harbor是一个用于运行长时间、有状态智能体评估的框架,目前支撑Terminal Bench 2。LangSmith Sandboxes现已原生集成harbor,成为一等环境。用户只需安装harbor[langsmith]并设置LANGSMITH_API_KEY即可运行评估。该集成覆盖Daytona、E2B和Modal等沙箱环境。AI产品harborLangSmithLangChain智能体评估推荐理由:LangChain老大强推harbor框架跑复杂智能体评估,现在直接集成LangSmith沙箱,一行代码搞定环境,省心。原文
05:56elvis@omarsar0精选Block 公司构建了名为 Builderbot 的内部 AI 系统,通过 orchestrator 代理协调多个代理跨代码库工作。工程师在 Slack 中标记 Builderbot,系统即可自动研究、规划并发布代码。该平台每天处理 200,000 次操作,每周合并 1,500 个拉取请求,占 Block 全部生产代码变更的 15%。原本需要数月的工作现在只需数天完成。AI产品BuilderbotBlock智能体代码生成编程助手5 个信源在谈推荐理由:Block 内部搞了个 Builderbot,每天自动处理 20 万次操作、合并 1500 个 PR,把几个月的工作缩短到几天,效率太猛了。原文
05:53xAI@xaixAI将其编程智能体Grok Build预安装在DigitalOcean的虚拟机上,用户可一键启动。该产品已上架DigitalOcean Marketplace。用户通过SSH登录即可运行grok命令进行开发。该方案利用了DigitalOcean的Serverless Inference服务。AI产品Grok BuildxAIDigitalOcean编程助手虚拟机推荐理由:xAI把Grok Build直接预装到DigitalOcean的虚拟机里,点一下就能用,省去配置麻烦,适合想在云上快速用AI编程的人。原文
05:47Jerry Liu@jerryjliu0精选LlamaIndex 将 Agentic Search 从固定 RAG 管道升级为灵活 agent harness,供 AI 代理访问 keyword search(BM25、grep regex)和 semantic search 两类工具。当用户上传非结构化文档至 LlamaParse 时,系统自动暴露这些检索能力。公司将于6月30日举办网络研讨会,探索各工具在 agentic search 中的最佳用法。AI产品LlamaIndexLlamaParseagentic search智能体检索工具推荐理由:LlamaIndex 在 LlamaParse 里加了一套检索工具包,包括 BM25 和语义搜索,让 agent 能灵活调取。6月30日还有免费 webinar 讲架构细节,干搜索的可以看看。原文
05:29ollama@ollama用户称 GLM 5.2 达到 SOTA 级别的智能,但成本仅为同类模型的一小部分。他认为 GLM 5.2 的输出和个性优于 GPT 5.5。他计划将 GLM 5.2 用于自己的工具 Hermes 以及客户项目中。该推文获得 170 点赞和超 7300 次浏览。AI模型GLM 5.2GPT 5.5Hermes开源模型推荐理由:有人实测后说 GLM 5.2 比 GPT 5.5 更强还便宜,准备放进自己产品用,有参考价值。原文
05:25OpenAI@OpenAIOpenAI推出LifeSciBench新基准,用于评估AI模型在生物科学中的实际推理能力。该基准包含七个工作流,测试模型从证据推理、处理科学制品、应对不确定性等技能。GPT-Rosalind在所有七个工作流上得分均超过GPT-5.5。结果显示在制品密集、设计密集和操作受限任务上仍有改进空间。AI模型LifeSciBenchGPT-RosalindGPT-5.5OpenAI推理模型10 个信源在谈推荐理由:OpenAI搞了个新基准LifeSciBench,专门测生物科学推理,GPT-Rosalind比GPT-5.5还强,值得看看。原文
05:24OpenAI@OpenAIOpenAI发布LifeSciBench,一个专门用于衡量AI在真实生命科学研究中表现的基准。该基准由173位生物技术和制药领域科学家参与开发,包含750个专家编写的任务,覆盖7个生物研究工作流。LifeSciBench旨在系统评估AI模型在文献分析、实验设计等科研环节的实用性,并指导后续改进。AI模型OpenAILifeSciBench基准生命科学科研辅助10 个信源在谈推荐理由:OpenAI联合173位科学家搞了个LifeSciBench,750个专家级任务覆盖7个生物研究流程,想测AI在生命科学里到底好不好用,科研人员可以用它来选模型。原文
05:23OpenAI@OpenAIOpenAI推出LifeSciBench,这是一个专门用于评估AI在生命科学领域表现的基础基准。该基准旨在通过更现实的测试场景,帮助研究者衡量进展、识别差距。LifeSciBench强调与生命科学社区的持续合作,以共同改进AI。具体评估指标和测试集细节尚待公开。AI模型LifeSciBenchOpenAI基准测试生命科学10 个信源在谈推荐理由:OpenAI搞了个LifeSciBench,专门测AI在生命科学上的表现,比以前的评估更贴近真实场景,想了解差距的可以看看。原文
05:17Greg Brockman@gdb精选OpenAI的GPT-5.4与Molecule.one的Maria AI合作,推动了一个药物化学项目从文献综述到实验验证的完整流程。模型提出了一种意想不到的方法,改进药物发现中广泛使用的反应。该结果在专用实验室中得到验证。相关推文获得180个点赞和超过2.3万次查看。AI模型GPT-5.4OpenAIMolecule.one推理模型药物研发10 个信源在谈推荐理由:OpenAI的GPT-5.4这次不是聊天,而是真帮化学家改进了药物反应,和Molecule.one的AI配合,从文献到实验跑通了原文
05:15LangChain@LangChainAILangChain为Harbor添加了完整Dockerfile快照支持,可自动构建、缓存和复用任务环境快照。新增SDK profile支持,用户无需修改配置即可切换不同目标环境。同时实现了完整的exec/upload/download生命周期,使Harbor任务在不同沙箱提供商间行为一致。这些功能主要面向运行智能体评估的用户,相关文档已在docs.langchain.com/langsmith/sand…上线。AI产品LangChainHarborDockerfile智能体沙箱环境推荐理由:简单说,LangChain给Harbor加了三个实用功能,跑agent评估时能自动管理环境快照、切换配置,省去重复搭建的麻烦。原文
05:05lmarena.ai@lmarena_ai76°Agent Arena上线两周,新增10个模型。GLM-5.2 (Max)进入前十,以+9.4%确认成功率和+14.9%赞美vs抱怨率成为最强开源模型。Claude Fable 5在多项指标排名第一,但受美国政府指令暂停访问。评测基于超过30万任务、200万次工具调用和4000万行代码。AI模型Agent ArenaGLM-5.2Claude Fable 5智能体OpenAI10 个信源在谈推荐理由:想看看最新智能体模型谁最强?Agent Arena更新了,GLM-5.2开源冲进前十,Claude Fable 5暂时下线,榜单有了新格局。原文
05:04@OpenAIDevs@OpenAIDevsOpenAI Devs上周与Women who Code(x)社区合作举办活动。参与者使用Codex构建了任务代理和个人指南等应用。活动展示了Codex在辅助编程和快速开发项目方面的实际能力。行业OpenAICodex智能体社区活动10 个信源在谈推荐理由:OpenAI和Women who Code(x)用Codex搞了个活动,实际展示了怎么用Codex快速搭建智能体和项目,很接地气。原文
05:01Lovable@lovable_devLovable为Claude Code用户推出三项终端命令:/build、/deploy和/db。这些命令允许开发者在终端内直接构建应用、部署项目和编程管理数据库。用户可以将代理运行在后台,不打断编码流程。Lovable的产品定位是让用户通过命令行即可完成全栈开发,无需切换浏览器界面。AI产品LovableClaude Code编程助手终端命令推荐理由:Lovable给Claude Code用户加了三个终端命令,不切屏就能构建、部署、管数据库,效率拉满。原文
04:57Lovable@lovable_devLovable 推出了与 Claude 的 MCP 服务器原生集成,用户可在 Claude 中直接与 @claudeai 对话、将 Claude Design 的设计导出到 Lovable,并使用 Claude Code 将项目部署到 Lovable。用户只需在 Claude 中点击 + → Connectors → Browse Connectors → Lovable 即可启用。该集成简化了从设计到部署的工作流。AI产品LovableClaudeMCP/工具集成推荐理由:Lovable 现在能直接从 Claude 聊天、导出设计、用 Claude Code 部署,一步到位。原文
04:56elvis@omarsar0GLM-5.2 在 Design Arena 设计基准上以 Elo 1360 分排名第一,超越此前第一的 Claude Fable 5。该模型擅长生成游戏、落地页、HTML 组件和 3D 世界等内容。Zai 组织发布了这个开源权重模型,其设计质量被认为接近 Opus 级别。评测显示它相比此前版本提升了 4 个名次和 27 个 Elo 点。AI模型GLM-5.2ZaiDesign Arena设计生成开源模型2 个信源在谈推荐理由:Zai 开源的 GLM-5.2 在 Design Arena 上干掉了 Claude Fable 5,能设计游戏、HTML 和 3D 世界,不看后悔。原文
04:53ChatGPT@ChatGPTappOpenAI 为 ChatGPT 推出新的任务调度功能,支持在 web 和移动端使用。新功能通过 Scheduled 页面管理,声称更快、更可靠。该更新面向 Go、Plus、Pro、Business 和 Enterprise 用户分批推送。AI产品ChatGPTOpenAI任务调度Scheduled页面10 个信源在谈推荐理由:ChatGPT 现在可以让你更稳地安排定时任务,管理起来也方便多了,特别适合需要自动化提醒或定期输出的朋友。原文
04:27LMSYS Org (SGLang)@lmsysorg精选73°LMSYS 发表博客详解如何用 SGLang-JAX 在 TPU v7x 上优化 Ling-2.6-1T(1T 参数混合 MoE 模型)。通过 Fused MoE V2 内核将令牌和累加器留在 VMEM 中并双缓冲专家权重,MoE 预填充延迟降低 53%。混合内存池为 10 个全注意力层分配逐令牌 MLA KV,为 70 个 GLA 层分配逐请求循环状态。GLA 线性注意力采用分块并行预填充,单控制器 DP 保持分组 RMS Norm 芯片本地化,无需逐层跨芯片规约。AI模型Ling-2.6-1TTPUSGLang-JAXMoE推理优化推荐理由:LMSYS 和 InclusionAI 联手,用 SGLang-JAX 让 1T 参数 MoE 在 TPU 上跑得快 53%,技术细节都在博客里。原文
04:09Aadit Sheth@aaditsh88°Amazon CEO于5天前向白宫举报Claude Fable 5的安全风险。该模型在24小时内被禁止海外访问。Amazon是Anthropic最大投资者,投资额达40亿美元。Anthropic CEO Dario的模型被禁,而OpenAI CEO Sam的模型未受限。这一事件凸显AI监管的地缘政治分歧。行业Claude Fable 5AmazonAnthropicOpenAIAI安全10 个信源在谈推荐理由:Amazon举报了自己投了40亿的模型?Claude Fable 5被白宫禁了,OpenAI却没事,这背后有瓜吃。原文
04:05Replit@ReplitReplit 宣布与 Claude Design 集成,用户可将 Claude Design 中的设计直接发送到 Replit,自动转化为可运行的应用。该功能目前已在 Replit 平台上线,支持从设计到开发的一键生成。该集成简化了原型到产品的流程,无需手动编写代码。AI产品ReplitClaude Design编程助手应用构建6 个信源在谈推荐理由:Replit 和 Claude 打通了,画完 UI 直接变成能用的 app,省掉写代码的功夫。原文
04:03Amjad Masad@amasadReplit Agent 现在支持语音交互,用户可以通过说话与 AI 协作编程。该功能已在移动应用、移动网页和桌面网页端全面可用。Replit 创始人 Amasad 称这是最自然的协作方式。此前 Replit Agent 已能通过文字生成代码,语音模式进一步降低了使用门槛。AI产品ReplitAgent语音交互编程助手推荐理由:你直接跟 Replit Agent 说话就能让它写代码,手机和电脑都能用,比打字快多了原文