VOL.2026.06.18·87 STORIES·AITOP DAILY

AITOP日报

二〇二六年六月十八日 星期四DAILY · 每早八时
01

模型发布/更新

Model Releases
5

GLM-5.2发布:753B参数开源纯文本模型登顶基准

官方Simon Willison’s Weblog

中国AI实验室Z.ai于6月16日开源GLM-5.2,采用MIT许可证。该模型753B参数、40激活参数(MoE),上下文窗口从GLM-5.1的20万提升至100万。在Artificial Analysis Intelligence Index v4.1上以51分领先MiniMax-M3(44)和DeepSeek V4 Pro(44)。在Code Arena WebDev前端编码排行榜上排名第二,仅次于Claude Fable 5。OpenRouter上输入价格$1.40/百万token,输出$4.40/百万token。

LMSYS 发布博客:在 TPU 上用 SGLang-JAX 优化 Ling-2.6-1T MoE 模型

X·KOLX:LMSYS Org (SGLang) (@lmsysorg)

LMSYS 发表博客详解如何用 SGLang-JAX 在 TPU v7x 上优化 Ling-2.6-1T(1T 参数混合 MoE 模型)。通过 Fused MoE V2 内核将令牌和累加器留在 VMEM 中并双缓冲专家权重,MoE 预填充延迟降低 53%。混合内存池为 10 个全注意力层分配逐令牌 MLA KV,为 70 个 GLA 层分配逐请求循环状态。GLA 线性注意力采用分块并行预填充,单控制器 DP 保持分组 RMS Norm 芯片本地化,无需逐层跨芯片规约。

ENPIRE:物理世界自主研究系统让8个机器人自动执行实验

X·KOLX:Jim Fan (@jimfan)

Jim Fan团队推出ENPIRE系统,让8个Codex智能体操控机器人舰队自主进行物理实验。系统硬编码两层安全机制:硬运动学限制和扭矩限制夹爪,防止机器人超出安全范围。通过人类演示几分钟成功/失败样本,智能体编写计算机视觉代码生成分类器作为冻结奖励函数。定义Mean Robot Utilization(MRU)和Mean Token Utilization(MTU)监控资源,以Tokens-to-Success和Time-to-Success衡量效率。

Agent Arena上线两周,GLM-5.2与Claude Fable 5登榜

X·KOLX:lmarena.ai (@lmarena_ai)

Agent Arena上线两周,新增10个模型。GLM-5.2 (Max)进入前十,以+9.4%确认成功率和+14.9%赞美vs抱怨率成为最强开源模型。Claude Fable 5在多项指标排名第一,但受美国政府指令暂停访问。评测基于超过30万任务、200万次工具调用和4000万行代码。

OpenAI推出LifeSciBench基准评估AI在生命科学中的表现

X·KOLX:OpenAI (@OpenAI)

OpenAI发布LifeSciBench,一个专门用于衡量AI在真实生命科学研究中表现的基准。该基准由173位生物技术和制药领域科学家参与开发,包含750个专家编写的任务,覆盖7个生物研究工作流。LifeSciBench旨在系统评估AI模型在文献分析、实验设计等科研环节的实用性,并指导后续改进。

02

产品发布/更新

Product
5

Cloudflare 推出 Agents SDK 并发布 Flue 框架

X·KOLX:Cloudflare Blog (@Thomas Gauvin)

Cloudflare 发布了 Agents SDK,这是一个开放的运行时,允许任何代理框架构建其上。同时推出了 Flue 作为首个针对 Agents SDK 的框架。Cloudflare 还在仪表板中推出了代理功能。这些更新旨在简化在 Cloudflare 平台上构建和部署 AI 代理。

SK海力士向主要客户供应12层HBM4E样品

官方IT之家

SK海力士宣布向主要客户供应12层HBM4E样品,该产品面向AI超高性能DRAM。引脚速率最高可达16Gbps,能效较HBM4提高20%以上。采用先进MR-MUF工艺,12层堆叠实现48GB容量,热阻降低约17%。该产品旨在提升AI训练与推理的数据处理能力,并降低数据传输延迟。

GitHub Copilot app 正式公开发布

X·KOLX:GitHub (@github)

GitHub Copilot app 现已正式可用(GA),作为新的工作中心。用户可在此直接启动下一步任务、并行指挥多个智能体,并完成PR合并。该应用整合了编码协作与项目管理流程,支持在单一界面内完成从构思到部署的完整工作流。

Vercel 发布 eve 智能体框架,内置持久执行与沙箱计算

X·KOLX:elvis (@omarsar0)

Vercel 推出了名为 eve 的智能体框架,内置持久执行、沙箱计算、人机审批、子代理与评估等关键功能。框架强调开箱即用的评估能力,并被誉为“像 Next.js 一样用于智能体”。该设计让开发者能快速构建可靠、可审核的 AI agent 应用。

Block 内部 AI 系统 Builderbot 每天协调 20 万次操作

X·KOLX:elvis (@omarsar0)

Block 公司构建了名为 Builderbot 的内部 AI 系统,通过 orchestrator 代理协调多个代理跨代码库工作。工程师在 Slack 中标记 Builderbot,系统即可自动研究、规划并发布代码。该平台每天处理 200,000 次操作,每周合并 1,500 个拉取请求,占 Block 全部生产代码变更的 15%。原本需要数月的工作现在只需数天完成。

03

行业动态

Industry
5

Amazon CEO向白宫举报Claude Fable 5,模型24小时内被禁海外访问

X·KOLX:Aadit Sheth (@aaditsh)

Amazon CEO于5天前向白宫举报Claude Fable 5的安全风险。该模型在24小时内被禁止海外访问。Amazon是Anthropic最大投资者,投资额达40亿美元。Anthropic CEO Dario的模型被禁,而OpenAI CEO Sam的模型未受限。这一事件凸显AI监管的地缘政治分歧。

XDOF融资7000万美元,开源最大遥操作数据集ABC-130K

X·KOLX:Clement Delangue (@ClementDelangue)

XDOF宣布完成7000万美元融资,投资方包括多家未披露的投资者。该公司由来自Covariant、Meta和Tesla的团队创立,专注于为机器人基础模型构建核心基础设施。同时,他们开源了ABC-130K数据集,这是目前最大的开源遥操作数据集,与UC Berkeley、CMU、MIT和Amazon FAR合作开发。该数据集可帮助研究人员和公司更高效地训练机器人基础模型。

Telepatia 获 a16z 领投 3300 万美元 A 轮融资

X·KOLX:a16z (@a16z)

Telepatia 是一家面向拉丁美洲的 AI 原生临床平台,提供 AI 抄写、临床决策支持和 AI 审计功能,连接医院所有数据源。自 2025 年 7 月上线以来,已在巴西、哥伦比亚和墨西哥超过 25 家医院系统部署,覆盖 1400 万患者。本轮 3300 万美元 A 轮由 a16z 领投,总融资额达 4200 万美元。创始人 Nicolás Abad 的父亲因药物相互作用去世,推动他开发这款产品。

Anthropic前沿红队通过LLM ATT&CK Navigator绘制AI网络威胁地图

官方Anthropic: Research

Anthropic前沿红队发布报告,利用LLM ATT&CK Navigator框架系统分析AI系统可能面临的网络威胁。该导航器将攻击者行为映射到战术和技术层面,涵盖提示注入、模型窃取、训练数据投毒等攻击类型。报告为安全团队提供了针对AI特定威胁的防御策略。

04

论文研究

Research
4

VibeCoder基于Qwen2.5-Coder-3B,后训练技术带来出色性能

X·KOLX:Sebastian Raschka (@rasbt)

VibeCoder采用Qwen2.5-Coder-3B作为基座,通过一套后训练技术栈大幅提升性能。技术报告显示其包含高信号合成数据、多重推理路径、2阶段SFT(先广训再难长推理样本)、MGPO(MaxEnt-Guided Policy Optimization)强化学习等9个关键组件。训练顺序为Math RL→Code RL→STEM RL,并采用了单64k长上下文RL而非渐进扩展。最后通过奖励短正确轨迹来提升效率而不牺牲准确性。

Anthropic前沿红队测量LLM开发漏洞利用能力

官方Anthropic: Research

Anthropic前沿红队于2026年5月22日发布了一份评估报告,系统测试了LLM自主开发软件漏洞利用的能力。评估覆盖了多种前沿模型,要求其在无人类协助的情况下发现并编写针对真实漏洞的利用代码。结果显示,部分模型在简单场景中成功开发了可利用漏洞,但复杂场景下表现有限。该研究为理解前沿AI模型的网络攻击能力提供了关键基准。

近自主AI化学家用GPT-5.4改进关键药物合成反应

官方OpenAI Blog

OpenAI与Molecule.one合作开发了一款近自主AI化学家,基于GPT-5.4模型。该系统针对药物化学中一项具有挑战性的反应进行优化,成功提升了反应产率。该研究展示了GPT-5.4在有机合成中的实用潜力,推动了AI辅助药物化学的进展。

LangChain、Alibaba Qwen与FireworksAI联合研究:低成本从trace中挖掘信号

X·KOLX:LangChain (@LangChainAI)

LangChain实验室与Alibaba Qwen及FireworksAI合作发布一项研究,探讨如何从每条trace中高效提取重要信号,同时保持前沿性能。研究对比了不同方法在成本与效果上的权衡。报告指出,通过优化模型选择和推理策略,可在保持95%以上准确率的情况下将成本降低80%。该研究为大规模trace分析提供了实用方案。

05

技巧与观点

Tips & Takes
3

编程智能体使用心得:验证器和护栏不可或缺

X·KOLX:elvis (@omarsar0)

作者在使用/loops和/goal后强调,验证器和鲁棒护栏对编程智能体至关重要,不能依赖盲目的自主循环。rahul在长线程中提出7点经验:将fable+类模型视为English-to-code解释器;按风险大小管理diff,高风险区域用小diff;代码审查成为瓶颈,需优化linter、测试等;理解全栈和风险管理比理解每行代码更重要;维护多50%代码以换取5%性能提升可能值得。

Deep Agents 揭秘第三部分:委派功能详解

X·KOLX:LangChain (@LangChainAI)

LangChain 发布 Deep Agents 深度解析第三部分,聚焦 Delegation 委派功能。该工具让模型能自动规划复杂任务,并内置子智能体支持。来自 @SydneyRunkle 的 90 秒讲解视频详细演示了如何通过委派分工提升任务执行效率。

Loop Engineering:邮件草稿自动生成与自进化Skill

X·KOLX:宝玉 (@dotey)

该方法通过内循环每2小时检查新邮件,自动检索上下文生成草稿但不发送。用户修改草稿后,外循环根据修改记录优化写作Skill。这种自动化循环让Agent不断学习用户风格,提升后续草稿质量。

87
今日事件
22
一手报道
23
新模型
47
信源
AITOP · 编辑系统自动生成