VOL.2026.06.19·74 STORIES·AITOP DAILY

AITOP日报

二〇二六年六月十九日 星期五DAILY · 每早八时
01

模型发布/更新

Model Releases
5

Laguna M.1模型获SGLang Day-0支持,225B MoE聚焦智能体编码

X·KOLX:LMSYS Org (SGLang) (@lmsysorg)

poolside发布的Laguna M.1是一个225B参数的MoE模型,专为智能体编码和长期任务设计。该模型采用70层结构:3个密集SwiGLU层加67个稀疏MoE层,共有256个专家,top-k=16且使用无辅助损失负载均衡。它在所有层使用全局注意力:64个Q头、8个KV头,以及softplus输出门控。Laguna M.1支持原生交错推理:在工具调用之间进行思考,并可每个请求切换。在SWE-bench Verified、SWE-bench Multilingual、SWE-Bench Pro和Terminal-Bench 2.0上表现强劲。现在可通过SGLang运行。

GLM-5.2发布:开放权重模型用IndexShare机制降本

X·KOLX:Sebastian Raschka (@rasbt)

GLM-5.2是智谱发布的最新开放权重模型,基于GLM-5和GLM-5.1架构,复用了DeepSeek V3.2的Multi-head Latent Attention(MLA)和DeepSeek Sparse Attention(DSA)机制。新增的IndexShare机制在每四层运行一次完整索引器,后续三层复用选中的token索引,使100万token推理成本大幅降低。目前GLM-5.2在开放权重模型中表现最佳。

OpenAI o3 Deep Research 协助诊断376例疑难病例发现18种新病因

X·KOLX:Greg Brockman (@gdb)

OpenAI 与波士顿儿童医院及哈佛大学合作,在 NEJM AI 发表研究。研究使用 o3 Deep Research 模型重新分析 376 个先前未解决的罕见儿科病例。模型帮助临床医生找到了 18 个新诊断。其中包括 Kyra 的病例,她从 9 岁起持续肌肉无力,在 28 岁生日前夕被确诊为罕见的肌原纤维肌病。

Ray Serve LLM 在 GKE 上实现预填负载 4.4 倍、解码负载 24 倍吞吐量提升

X·KOLX:vLLM (@vllm_project)

Anyscale 与 Google Cloud GKE 合作推出 Ray Serve LLM 新版本,在 vLLM 基础上实现显著性能飞跃。预填密集型负载吞吐量提升 4.4 倍,解码密集型负载提升 24 倍。三个关键优化包括:控制平面端点选择器的直接流式传输、新的 vLLM Ray V2 执行器后端、以及基于 HAProxy 的 C 语言级路由。Ray 的容错、可观察性和跨 K8s/VM 可移植性为复杂推理部署奠定基础。

Claude Opus 4.7 在 Project Fetch 中编程机器人狗,速度比人类团队快20倍

X·KOLX:Anthropic (@AnthropicAI)

Anthropic 发布 Frontier Red Team 博客,介绍 Project Fetch 第二阶段:测试 Claude 编程机器人狗的能力。Opus 4.7 自主完成编程任务,速度比去年最佳人类团队(使用 Opus 4.1)快约 20 倍。尽管速度提升显著,机器人狗仍未成功取回沙滩球。该研究旨在评估前沿模型在物理世界中的自主能力与安全风险。

02

产品发布/更新

Product
5

Perplexity发布Brain,为Computer Agent打造自改进上下文图记忆系统

X·KOLX:marktechpost (@Asif Razzaq)

Perplexity推出了Brain,一种自我改进的记忆系统,专门用于其Computer agent。Brain记录代理工作的历史,包括成功、失败和修正,并构建可追溯的上下文图。它会在夜间自动分析这些记录,优化后续行为。早期测试显示,Brain在正确性、召回率和成本方面均有提升。

OpenAI Codex 上线 Record & Replay 功能:演示一次操作即可生成可复用 Skill

X·KOLX:宝玉 (@dotey)

OpenAI Codex 桌面端新增 Record & Replay 功能,允许用户在 Mac 上录制一系列操作,Codex 自动生成可编辑的 Skill 文件。目前仅支持 macOS,欧盟地区不可用,使用前需开启 Computer Use。该功能旨在简化日常重复性任务,如报销填单、发布视频、创建 issue 等。录制完成后,用户可在新对话中调用 Skill 并传入不同参数,由 Codex 结合 Computer Use、浏览器和插件自动执行。

Claude Code 推出 Artifact 功能,终端会话变可共享网页

X·KOLX:宝玉 (@dotey)

Anthropic 在 Claude Code CLI 和桌面应用中新增 Artifact 功能,可将终端会话内容(如 PR 走查、调试时间线、发布清单)生成实时更新的私有网页,团队成员通过链接可直接查看。Artifact 会利用当前会话的完整上下文(包括代码库、外部工具和对话内容)自动更新,历史版本可回溯。该功能以 beta 形式向 Claude Team 和 Enterprise 组织开放,个人用户暂时无法使用。

Amazon Bedrock AgentCore harness正式可用:数分钟从想法到生产级智能体

X·KOLX:AWS Machine Learning Blog (@Kosti Vasilakakis)

Amazon Bedrock AgentCore harness现已正式可用,仅需CreateHarness和InvokeHarness两个API调用即可在数秒内启动一个智能体。该智能体运行在隔离环境(含文件系统和shell)中,可安全读写文件、运行命令和编写代码。它支持跨会话记忆用户和对话,接入AWS策展的技能目录,通过网关或MCP调用工具,并能在不丢失上下文的情况下中途切换模型提供商。每个步骤实时流式传输并自动追踪到Amazon CloudWatch,无需编写编排代码或构建容器。

Devin Review 新增安全审查,自动发现漏洞并修复

X·KOLX:Cognition (@cognition_labs)

Cognition 宣布将安全审查集成到 Devin Review 中。每次开发者提交 PR 时,Devin 自动运行安全扫描,识别那些传统漏洞扫描器遗漏的安全问题。Devin 还会为每个漏洞提供详细解释,并自动生成修复代码。该功能旨在帮助团队在不增加额外工作量的情况下提升代码安全性。

03

行业动态

Industry
3

Anjney Midha:GPU利用率95%即“故障”,AI竞争进入计算网格时代

X·KOLX:Latent.Space (@latentspacepod)

AMP 创始人 Anjney Midha 在播客中分享 Google 内部将 95% GPU 利用率视为“故障”的标准,指出单纯购买更多 GPU 已非 AI 竞争核心。他介绍 AMP 正推动将 FLOPs 像兆瓦级电力一样调度,并警告数据中心阻力可能成为 AI 最大瓶颈之一。同时分析 Anthropic 通过独特文化和准备在编码领域取得突破,DeepMind 的研究囤积导致市场失灵,强调下一个前沿属于能在计算、资本、文化和科学上“最大化输出”的团队。

DeepMind 新路线图将 AI 智能体当作潜在内部威胁

X·KOLX:Decoder (@Matthias Bastian)

Google DeepMind 发布了新的 "AI Control Roadmap",将安全措施与可衡量的 AI 能力挂钩。公司对 100 万个编码任务的分析显示,大多数问题源于过于热心的 AI 智能体,而非恶意意图。DeepMind 警告,建立全球安全标准的时间窗口正在关闭。

LlamaIndex CEO:AI智能体可处理90%企业非结构化数据

X·KOLX:LlamaIndex (@llama_index)

约90%的企业数据是非结构化的,被锁定在文档中,构成知识工作的主体。LlamaIndex CEO Jerry Liu在Databricks DataAISummit上演讲,介绍了OCR和agent编排的核心进展。这些技术使AI智能体能够大规模理解、推理和编辑文档,从而自动完成整个工作流程。演讲于当地时间10:20 AM在Yerba Buena Salon 7举行。

04

论文研究

Research
3

OpenAI研究:RL训练美德,好行为泛化至44项评测

X·KOLX:orange.ai (@oran_ge)

OpenAI发现对齐大模型时存在涌现失调现象,即坏行为会泛化。他们反向实验用RL训练模型诚实、谦逊、可纠正等特质,仅混入小部分此类数据。结果在训练领域内模型变得更诚实透明;在44个独立评测(未见过)中,欺骗、谄媚、有害建议等行为全面下降,即使只用健康数据训练,非健康领域也受益。模型在对抗性提示和恶意微调下更坚韧,正常指令仍可听从。

OpenAI新研究:训练模型在长期高风险任务中保持有益安全行为

X·KOLX:OpenAI (@OpenAI)

OpenAI发布新研究,旨在训练AI模型将有益和安全行为推广到训练范围之外的新领域,并在压力下维持。该方法聚焦于让模型具备广泛且持久的利他性,论文名为《Beneficial RL》。研究通过强化学习框架,让模型学会在更长、更高风险的任务中自主保持符合人类意图的行为,而不仅是拟合训练数据。相关论文和代码已发布在alignment.openai.com/beneficial-rl/。

Google发布TPU v2至Ironwood五代架构论文:30倍能效提升

X·KOLX:Jeff Dean (@JeffDean)

Jeff Dean宣布一篇将发表于IEEE Micro 2026年7/8月刊的论文,详细回顾Google从TPU v2到Ironwood共五代训练超算的架构演变。论文披露TPU每芯片每瓦TFLOPS提升了约30倍,每个pod的芯片数从TPU v2的256颗扩增至Ironwood的9216颗。冷却方式从风冷(TPU v2)转为水冷(TPU v3起),互连从2D torus升级为3D torus。论文还指出工作负载已大幅转向Transformer模型。

05

技巧与观点

Tips & Takes
4

Cloudflare教你构建自己的漏洞检测工具

X·KOLX:Cloudflare Blog (@Grant Bourzikas)

Cloudflare博客详解其多阶段漏洞发现工具的技术架构,包括状态控制机制、通过对抗性审查将误报率降低90%的方法,以及如何绕过LLM上下文长度限制(如4k token限制)。该工具实现自动化分类,每日可处理超过10万条告警。文章还公开了其基于GPT-4的分阶段提示词模板和缓存策略。

在 Claude Code 中委托任务给 DeepSeek 的实用方法

X·KOLX:Geek (@geekbb)

一个名为 handoff 的开源工具让你在 Claude Code 或 Codex 会话中直接委托任务给 DeepSeek 等其他模型。典型用法是让 Claude 负责规划与审阅,DeepSeek 负责执行代码。这种方式能降低 API 成本,同时保持高开发效率。该方案已获得社区关注,相关仓库在 GitHub 上可见。

用 SageMaker 详细指标和 CloudWatch Insights 监控生成式 AI 推理

X·KOLX:AWS Machine Learning Blog (@Apoorva Chandra)

Amazon SageMaker AI 提供全托管实时推理,支持单模型端点(SME)和推理组件(IC)两种架构。通过 CloudWatch 详细指标和 Insights 仪表盘,用户可监控生成式 AI 推理的延迟、吞吐量等关键指标。该仪表盘支持自定义视图和异常检测,帮助快速定位性能瓶颈。SME 和 IC 端点均能集成此观测能力,适用于生产环境的调试与优化。

别只看平均Recall@5:按查询类型分解才能发现检索短板

X·KOLX:Milvus (@milvusio)

Milvus指出,仅看平均Recall@5(如85%)会掩盖真实问题。例如,精确术语查询的Recall@5可能只有40%,其他类别拉高了平均值。文章建议将测试用例分为精确术语查询、多跳问题、长尾问题、不可回答问题、权限过滤问题五类,每类至少放5-10个案例分别检查召回率。这样能精准定位检索堆栈中的薄弱环节。

74
今日事件
13
一手报道
29
新模型
49
信源
AITOP · 编辑系统自动生成