AITOP 日报｜2026年6月14日｜GLM-5.2开源，Claude Design引爆设计革命

AITOP

模型发布/更新

Model Releases

5 篇

智谱AI开源GLM-5.2，支持100万token上下文

X·KOLX：Pandaily (@contact@pandaily.com (Pandaily))原文 ↗

智谱AI宣布将GLM-5.2模型以MIT许可证开源，支持100万token上下文长度。此举直接回应美国针对Anthropic模型的出口限制。GLM-5.2在多项基准测试中表现优异，其开源策略旨在推动国内AI生态发展。

Claude Design 高精度可交互原型背后是模型能力差距，GPT-5.5 还扛不住

X·KOLX：宝玉 (@dotey)原文 ↗

Anthropic 推出的 Claude Design 能根据一句话描述生成可交互原型，点哪都有反应，状态保持完整。作者拆解了 Agent 的 Harness 层和模型层，指出 Harness 层技术不复杂，但 Claude Opus 4.8 在 UI/UX 和系统架构设计上远超 GPT-5.5。Claude Design 的产出物是 React 代码和 JSON 数据结构，开发者可直接复用。作者认为 Codex 不推类似产品是因为 GPT-5.5 模型能力不足，无法一次性交付完整可交互原型。

Cohere 发布轻量级 30B 开源模型，专为智能体编程任务设计

X·KOLX：Sebastian Raschka (@rasbt)原文 ↗

Cohere 推出了一款新的轻量级 30B 开源模型，基于 Command A+ 的并行 Transformer 架构，层数几乎翻倍。该模型专为智能体编程任务优化，在 Terminal-Bench 和 SWE-Bench 等基准测试中表现优于 Gemma 4。在 Terminal-Bench 中，模型需使用终端、检查环境、运行命令并读取输出；在 SWE-Bench 中，模型需处理真实 GitHub 软件问题，理解仓库、定位文件、生成补丁并通过测试。在 SciCode 和 LiveCodeBench 等传统代码基准上，模型也具备竞争力，但整体性能略低于 Qwen3.6。

Kimi-K2.7-Code 开源，编程与智能体性能提升

X·KOLX：lmarena.ai (@lmarena_ai)原文 ↗

Kimi 发布并开源了最新编程模型 Kimi-K2.7-Code，相比 K2.6 在 Kimi Code Bench v2 上提升 21.8%，在 Program Bench 上提升 11.0%，在 MLS Bench Lite 上提升 31.5%。推理效率优化，推理 token 使用量降低 30%。支持长程编程任务，指令遵循和端到端成功率更高。模型已通过 Kimi API 和 Kimi Code 提供。

Aster 用数千 AI 智能体并行研究，30 分钟创 ProteinGym 世界纪录

X·KOLX：Y Combinator (@ycombinator)原文 ↗

Aster 正在构建自主研究实验室，通过并行运行数千个 AI 智能体，实现自主研究速度 1000 倍提升。该实验室在 ProteinGym 基准测试中仅用 30 分钟就创造了世界纪录。Aster 目前正致力于自动化开放式研究。该项目由 Y Combinator 支持，并已正式发布。

产品发布/更新

Product

5 篇

Pyodide 314.0 支持将 WASM 包发布到 PyPI

官方Simon Willison’s Weblog原文 ↗

Pyodide 314.0 版本发布，允许开发者将针对 Pyodide 或兼容 PyEmscripten 平台的 Python 包直接发布到 PyPI 并运行时安装。此前 Pyodide 维护者需自行维护超 300 个包，成为社区瓶颈。现在包维护者可用 cibuildwheel 构建 WASM 轮子并发布，如 luau-wasm 包（276KB）已支持在 Pyodide 中通过 micropip 安装。目前已有 28 个 PyPI 包使用该平台。

Databricks 开源 Omnigent：跨 Claude Code、Codex 和 Pi 的 AI 智能体编排框架

X·KOLX：marktechpost (@Asif Razzaq)原文 ↗

Databricks 开源了 Omnigent，一个位于 Claude Code、Codex 和 Pi 等编码智能体之上的元编排框架。它提供统一的终端、网页、桌面和移动端界面，支持智能体组合、上下文策略管理和实时会话共享。该项目采用 Apache 2.0 许可，目前处于 alpha 阶段。

华为发布HarmonyOS 7：小艺升级为系统级AI智能体

X·KOLX：Pandaily (@contact@pandaily.com (Pandaily))原文 ↗

华为在HDC 2026上推出HarmonyOS 7，将小艺助手升级为系统级AI智能体，开放超过2100项系统能力和2000+技能。新系统从以应用为中心转向以意图驱动交互，小艺成为操作系统的智能核心。HarmonyOS 7旨在通过AI智能体重塑用户体验，实现更自然的设备控制。

Google Cloud 发布 Open Knowledge Format，将文档转为 AI 智能体可用的 Markdown 文件

X·KOLX：Decoder (@Matthias Bastian)原文 ↗

Google Cloud 推出 Open Knowledge Format (OKF)，一种将组织知识标准化为 Markdown 文件（含 YAML 元数据）的格式。该格式借鉴了 Andrej Karpathy 近期推广的“LLM Wiki”模式，旨在让 AI 智能体轻松读取和利用分散的文档。OKF 强调可移植性，支持将知识库转换为 AI 代理可处理的统一格式。

Adaline 推出 AI 智能体自我改进层，从生产痕迹生成评估

X·KOLX：rohanpaul_ai (@rohanpaul_ai)原文 ↗

Adaline 发布了一个自我改进层，能将 AI 智能体的生产痕迹转化为新的评估、合成边缘案例和更好的候选智能体。该工具读取生产流量和用户反馈，将混乱的对话聚类为可识别的智能体行为，无需人工逐一检查。它还能生成人类从未考虑过的评估，帮助提升智能体性能。

行业动态

Industry

5 篇

Anthropic 内幕：Bloomberg 纪录片揭示安全优先与权力博弈

X·KOLX：shao__meng (@shao__meng)原文 ↗

Bloomberg 深度纪录片采访 Anthropic 联合创始人 Dario & Daniela Amodei 及 Claude Code 负责人 Boris Cherny，揭示公司从 OpenAI 出走后的发展历程。Anthropic 估值约 9650 亿美元，2026 年 Q1 年化增长约 80 倍，API 调用量同比 17 倍，首次盈利主要靠 Claude Code 等企业工具。Dario 维持 AI 可能在 1-5 年内消除约 50% 初级白领岗位的判断，并支持对华芯片出口管制。纪录片还披露了 Claude Mythos 发现数千个高危漏洞、与五角大楼冲突（拒绝无护栏使用后遭黑名单）等内幕。

Gary Marcus称所有模型已被越狱，呼吁更好的技术而非选择性执法

X·KOLX：Gary Marcus (@GaryMarcus)原文 ↗

Gary Marcus在X上发帖称每个模型都已被越狱，需要更好的技术但不应选择性执法。Pliny the Liberator展示了针对Anthropic的Mythos模型的越狱，使用了Unicode、同形字、西里尔字母等文本变换，以及长上下文引用跟踪、分类学与文档结构推理、虚构叙事框架、学术评审风格上下文和意图分类不一致等技术。最有效的方法是后端分解与重组，例如通过获取birch还原法/还原胺化（经典甲基苯丙胺合成途径）等过程信息，而非直接获取“甲基苯丙胺配方”等明确危害名称。Pliny还提到利用越狱的Opus辅助将无害信息片段重组为有害内容。

Anthropic因美国出口管制禁用Fable 5和Mythos 5，连自家员工也无法访问

X·KOLX：rohanpaul_ai (@rohanpaul_ai)原文 ↗

Anthropic表示，由于美国政府的出口管制指令，即使是参与构建其最强AI模型Fable 5和Mythos 5的员工，也无法访问这些模型。该指令将向外国国民（包括在美国境内工作的外籍员工）提供这些先进模型视为非法的“视同出口”，基于国家安全理由。由于Anthropic无法实时验证每个用户的国籍，公司不得不为所有人禁用这些模型，包括其国际团队成员。

宝玉谈模型与Harness：Claude Design将合并到Desktop，Codex未来集成Design

X·KOLX：宝玉 (@dotey)原文 ↗

宝玉在推文中指出，模型能力是根本，而Harness层（工具链）相对容易补齐，且不需要过多垂直领域定制。他透露Claude Design很快就会合并到Claude Desktop。对于Codex，他认为在下一代或几代模型能力足够后，Codex App会以Plugin方式集成Codex Design。他还回应了关于开源Open Design的提问，认为若其使用Claude Code的模型，可能达到类似工程能力。

联想为2026世界杯打造AI引擎，开幕夜表现揭晓

X·KOLX：Pandaily (@contact@pandaily.com (Pandaily))原文 ↗

联想作为FIFA官方技术合作伙伴，为2026年世界杯构建了AI引擎，处理包括进球、VAR红牌和越位检查等关键赛事事件。开幕夜上，该系统成功运行，展示了实时AI分析能力。这是中国公司首次担任世界杯技术合作伙伴。

论文研究

Research

3 篇

AI编程助手找对文件但漏关键行，SWE-Explore基准揭示问题

X·KOLX：Decoder (@Jonathan Kemper)原文 ↗

一项新研究显示，Claude Code和Codex等AI编程助手在定位文件时准确率较高，但会错过文件中大部分关键代码行。新发布的SWE-Explore基准首次将代码搜索与修复步骤分离测试，发现缺乏足够上下文时，即使最佳修复也会失败。该基准评估了多个模型，结果显示它们平均只能找到约30%的关键行。这表明AI编码代理在精确理解代码逻辑方面仍有显著短板。

Agentic RL for LLMs 综述：500+ 论文绘制能力与应用图谱

X·KOLX：rohanpaul_ai (@rohanpaul_ai)原文 ↗

一篇综述论文系统梳理了面向大语言模型的智能体强化学习方法，覆盖 500 余篇相关工作。论文将现有研究分为能力与应用两大部分：能力部分涵盖记忆、规划、工具使用、推理、多模态感知和自我改进；应用部分展示这些方法在复杂任务中的落地。核心观点是传统 LLM 训练只奖励单次回答，而真实任务需要多步决策与延迟反馈，强化学习恰好能解决这一时序学习问题。

AI智能体在真实CAPTCHA验证中仍表现不佳，HLL基准测试揭示短板

X·KOLX：rohanpaul_ai (@rohanpaul_ai)原文 ↗

一项新研究提出了HLL基准测试，要求AI智能体完成10种CAPTCHA任务，包括识别页面元素、正确点击或拖动、跟踪状态变化并提交答案。测试发现，即使强大的智能体在静态任务中表现良好，但在页面杂乱、任务复杂或系统验证操作有效性时仍会失败。该基准旨在评估智能体在真实人机验证场景中的能力，结果显示当前AI智能体难以通过此类验证。

技巧与观点

Tips & Takes

5 篇

今日事件

一手报道

新模型

信源

AITOP日报

模型发布/更新

智谱AI开源GLM-5.2，支持100万token上下文

Claude Design 高精度可交互原型背后是模型能力差距，GPT-5.5 还扛不住

Cohere 发布轻量级 30B 开源模型，专为智能体编程任务设计

Kimi-K2.7-Code 开源，编程与智能体性能提升

Aster 用数千 AI 智能体并行研究，30 分钟创 ProteinGym 世界纪录

产品发布/更新

Pyodide 314.0 支持将 WASM 包发布到 PyPI

Databricks 开源 Omnigent：跨 Claude Code、Codex 和 Pi 的 AI 智能体编排框架

华为发布HarmonyOS 7：小艺升级为系统级AI智能体

Google Cloud 发布 Open Knowledge Format，将文档转为 AI 智能体可用的 Markdown 文件

Adaline 推出 AI 智能体自我改进层，从生产痕迹生成评估

行业动态

Anthropic 内幕：Bloomberg 纪录片揭示安全优先与权力博弈

Gary Marcus称所有模型已被越狱，呼吁更好的技术而非选择性执法

Anthropic因美国出口管制禁用Fable 5和Mythos 5，连自家员工也无法访问

宝玉谈模型与Harness：Claude Design将合并到Desktop，Codex未来集成Design

联想为2026世界杯打造AI引擎，开幕夜表现揭晓

论文研究

AI编程助手找对文件但漏关键行，SWE-Explore基准揭示问题

Agentic RL for LLMs 综述：500+ 论文绘制能力与应用图谱

AI智能体在真实CAPTCHA验证中仍表现不佳，HLL基准测试揭示短板

技巧与观点

Andrej Karpathy 发布 3.5 小时免费课程讲解 ChatGPT 工作原理

如何有效运行自主长期编码智能体：Opus 4.8 + GPT-5.5 实践

用Claude Design更新设计和代码的具体例子

Shadcn 发布 /improve 思路：用最强模型出计划，便宜模型执行

给Agent交代任务时先说清楚验证标准，不用管中间结果