官方Simon Willison’s Weblog
中国AI实验室Z.ai于6月16日开源GLM-5.2,采用MIT许可证。该模型753B参数、40激活参数(MoE),上下文窗口从GLM-5.1的20万提升至100万。在Artificial Analysis Intelligence Index v4.1上以51分领先MiniMax-M3(44)和DeepSeek V4 Pro(44)。在Code Arena WebDev前端编码排行榜上排名第二,仅次于Claude Fable 5。OpenRouter上输入价格$1.40/百万token,输出$4.40/百万token。
X·KOLX:LMSYS Org (SGLang) (@lmsysorg)
LMSYS 发表博客详解如何用 SGLang-JAX 在 TPU v7x 上优化 Ling-2.6-1T(1T 参数混合 MoE 模型)。通过 Fused MoE V2 内核将令牌和累加器留在 VMEM 中并双缓冲专家权重,MoE 预填充延迟降低 53%。混合内存池为 10 个全注意力层分配逐令牌 MLA KV,为 70 个 GLA 层分配逐请求循环状态。GLA 线性注意力采用分块并行预填充,单控制器 DP 保持分组 RMS Norm 芯片本地化,无需逐层跨芯片规约。
X·KOLX:Jim Fan (@jimfan)
Jim Fan团队推出ENPIRE系统,让8个Codex智能体操控机器人舰队自主进行物理实验。系统硬编码两层安全机制:硬运动学限制和扭矩限制夹爪,防止机器人超出安全范围。通过人类演示几分钟成功/失败样本,智能体编写计算机视觉代码生成分类器作为冻结奖励函数。定义Mean Robot Utilization(MRU)和Mean Token Utilization(MTU)监控资源,以Tokens-to-Success和Time-to-Success衡量效率。
X·KOLX:lmarena.ai (@lmarena_ai)
Agent Arena上线两周,新增10个模型。GLM-5.2 (Max)进入前十,以+9.4%确认成功率和+14.9%赞美vs抱怨率成为最强开源模型。Claude Fable 5在多项指标排名第一,但受美国政府指令暂停访问。评测基于超过30万任务、200万次工具调用和4000万行代码。
X·KOLX:OpenAI (@OpenAI)
OpenAI发布LifeSciBench,一个专门用于衡量AI在真实生命科学研究中表现的基准。该基准由173位生物技术和制药领域科学家参与开发,包含750个专家编写的任务,覆盖7个生物研究工作流。LifeSciBench旨在系统评估AI模型在文献分析、实验设计等科研环节的实用性,并指导后续改进。