X·KOLX:LMSYS Org (SGLang) (@lmsysorg)
poolside发布的Laguna M.1是一个225B参数的MoE模型,专为智能体编码和长期任务设计。该模型采用70层结构:3个密集SwiGLU层加67个稀疏MoE层,共有256个专家,top-k=16且使用无辅助损失负载均衡。它在所有层使用全局注意力:64个Q头、8个KV头,以及softplus输出门控。Laguna M.1支持原生交错推理:在工具调用之间进行思考,并可每个请求切换。在SWE-bench Verified、SWE-bench Multilingual、SWE-Bench Pro和Terminal-Bench 2.0上表现强劲。现在可通过SGLang运行。
X·KOLX:Sebastian Raschka (@rasbt)
GLM-5.2是智谱发布的最新开放权重模型,基于GLM-5和GLM-5.1架构,复用了DeepSeek V3.2的Multi-head Latent Attention(MLA)和DeepSeek Sparse Attention(DSA)机制。新增的IndexShare机制在每四层运行一次完整索引器,后续三层复用选中的token索引,使100万token推理成本大幅降低。目前GLM-5.2在开放权重模型中表现最佳。
X·KOLX:Greg Brockman (@gdb)
OpenAI 与波士顿儿童医院及哈佛大学合作,在 NEJM AI 发表研究。研究使用 o3 Deep Research 模型重新分析 376 个先前未解决的罕见儿科病例。模型帮助临床医生找到了 18 个新诊断。其中包括 Kyra 的病例,她从 9 岁起持续肌肉无力,在 28 岁生日前夕被确诊为罕见的肌原纤维肌病。
X·KOLX:vLLM (@vllm_project)
Anyscale 与 Google Cloud GKE 合作推出 Ray Serve LLM 新版本,在 vLLM 基础上实现显著性能飞跃。预填密集型负载吞吐量提升 4.4 倍,解码密集型负载提升 24 倍。三个关键优化包括:控制平面端点选择器的直接流式传输、新的 vLLM Ray V2 执行器后端、以及基于 HAProxy 的 C 语言级路由。Ray 的容错、可观察性和跨 K8s/VM 可移植性为复杂推理部署奠定基础。
X·KOLX:Anthropic (@AnthropicAI)
Anthropic 发布 Frontier Red Team 博客,介绍 Project Fetch 第二阶段:测试 Claude 编程机器人狗的能力。Opus 4.7 自主完成编程任务,速度比去年最佳人类团队(使用 Opus 4.1)快约 20 倍。尽管速度提升显著,机器人狗仍未成功取回沙滩球。该研究旨在评估前沿模型在物理世界中的自主能力与安全风险。