VOL.2026.06.16·43 STORIES·AITOP DAILY

AITOP日报

二〇二六年六月十六日 星期二DAILY · 每早八时
01

模型发布/更新

Model Releases
4

DFlash + Spec V2 推测解码:LLM推理吞吐量提升4.3倍以上

X·KOLX:LMSYS Org (SGLang) (@lmsysorg)

LMSYS 发布博客介绍 DFlash 和 Spec V2 推测解码技术。在 8 块 B200 上,针对 HumanEval 基准,DFlash + Spec V2 实现超过 4.3 倍基线吞吐量和 1.5 倍原生 MTP 吞吐量。其核心包括块扩散起草器(一次前向传播生成完整 token 块)和 KV 注入(目标模型特征馈入每层 KV 缓存),以及 Spec V2 重叠调度器带来 33% 端到端提升。该方案现已作为 SGLang 的默认推测解码引擎。

新基准SusVibes揭露编程代理安全秘密

X·KOLX:AlphaSignal (@AlphaSignalAI)

卡内基梅隆大学构建SusVibes基准,包含200个真实编程任务,每个任务来自历史上人类曾引入漏洞的开源项目。SWE-Agent(Claude 4 Sonnet)通过功能测试61%,但仅10.5%的解决方案安全,超过80%的工作代码含有漏洞。尝试添加安全警告、让代理识别弱点、揭示漏洞类型三种修复,安全改善甚微,功能准确度下降7个百分点。

12B本地模型Gemma 4 12B Coder发布,蒸馏Fable 5推理链,消费级显卡离线跑顶级coding

X·KOLX:berryxia (@berryxia)

12B参数的Gemma 4 12B Coder GGUF模型基于Google的gemma-4-12B-it微调,专门针对代码生成和复杂推理。训练数据使用了Composer 2.5的真实通过案例,并由Fable 5辅助补全困难case,确保推理步骤导向可运行代码。模型采用GGUF格式,可在12GB显存的显卡甚至CPU上离线运行。下载量已突破6000,社区反馈在本地代码调试、补全、算法生成等场景表现出色。

GitHub发布多语言AI开源数据集,覆盖README、Issues、Pull Requests

X·KOLX:GitHub Blog (@Natalie Guevara)

GitHub发布了一个新的repository-level数据集,许可证为CC0-1.0,包含多语言开发者内容,涵盖README、issues和pull requests。该数据集旨在帮助研究人员和开发者训练或改进多语言AI模型。数据集中于2025年4月发布,可直接下载使用,无需额外申请。

02

产品发布/更新

Product
5

腾讯云Cube Sandbox更新:快照、克隆、回滚,给AI agent装上时光机

X·KOLX:腾讯混元 Tencent Hunyuan (@TencentCloud)

腾讯云开源Cube Sandbox一个月后,推出快照、克隆、回滚三项核心功能。该工具通过微虚拟机隔离运行AI agent,可在健康状态创建检查点,让agent自由操作后回滚到之前状态。回滚时间低于100毫秒,克隆支持秒级生成数十个完全隔离的副本。同时发布的Lobster WebUI可将检查点时间线和克隆操作图形化。下一步将加入内容感知网络控制和凭据保险库。

LlamaIndex推出Extract功能,将合同PDF转为结构化数据

X·KOLX:Jerry Liu (@jerryjliu0)

LlamaIndex在LlamaParse中新增Extract功能,解决企业合同非标准模板、跨章节引用及修订条款等语义解析难题。该功能通过保留文档层次结构、语义推理关键字段(如付款条款、续约日期),将合同从纯文本转化为验证后的模式对齐输出。相比传统OCR仅做数字化,Extract实现了高精度且成本可控的合同理解,避免在每页使用Fable/Opus等昂贵模型。结果可直接供下游生产系统使用,支持批量合同处理场景。

腾讯云WorkBuddy:一句话指令,多步骤工作自动完成

X·KOLX:腾讯混元 Tencent Hunyuan (@TencentCloud)

腾讯云推出AI原生智能体WorkBuddy,用户只需一条自然语言指令即可自动规划并执行复杂多步办公任务。内置超过100个行业专家,覆盖市场研究、财务分析、幻灯片设计等。任务可分解为子步骤并行执行,一次性交付报告、演示文稿、电子表格等完成品。支持手机端触发任务,结果直接存入文件工具,无需复制粘贴。

v0 发布 Skills 功能,可附加技能让智能体每次生成都使用

X·KOLX:Guillermo Rauch (@rauchg)

v0 推出了 Skills 功能,用户可从提示栏附加一项技能,智能体在每次生成中都会使用该技能。技能来源包括 skills.sh 社区库、用户保存的技能或仓库。Vercel CEO 表示目标是让每次提示都拥有 @shuding 和 @shadcn 级别产品工程师的能力。用户也可以从 skills.sh 获取任何技能,或添加团队的私有技能集。

ElevenLabs 发布 Music v2,通过 ElevenAPI 开放 AI 音乐生成与编辑能力

X·KOLX:ElevenLabs (@elevenlabsio)

ElevenLabs 推出 Music v2,通过 ElevenAPI 供开发者将 AI 音乐生成与编辑嵌入自身产品。新版本在人声、乐器编排和音轨质量上全面升级,支持更多音乐流派及多语言,并实现了此前无法完成的创作功能。API 接口允许实时生成并迭代调整音乐片段。

03

行业动态

Industry
5

Anthropic 应美国政府要求暂停 Fable 和 Mythos 模型

X·KOLX:The Rundown AI (@therundownai)

Anthropic 与美国政府在模型出口管制问题上发生冲突,公司已暂停旗下 Fable 和 Mythos 模型的访问。政府援引安全报告称 Fable 存在 jailbreak 风险,但 Anthropic 对此表示异议,认为行动缺乏透明和公正。Axios 消息称双方存在严重沟通障碍,政府曾给予 Anthropic 仅 90 分钟回应时间。数十名安全研究人员和行业人士签署公开信,呼吁恢复模型并建立透明的 AI 风险评估流程。

Anthropic高管与美政府谈判,寻求解除Fable 5出口禁令

官方IT之家

Anthropic公司高层于周一与特朗普政府官员举行会谈,希望解除对美国最新大模型Fable 5的出口禁令。该模型因被指存在安全漏洞,于上周五被禁止向境外用户开放。Anthropic辩称漏洞影响有限,且其他公开模型也能复现同类问题。近80名技术专家联名致信政府反对该禁令,认为此举会让防御方失去关键工具。一名官员警告,若僵持不下,未来新模型上线可能都需要政府审批。

Anthropic更新隐私政策:Free/Pro/Max用户或需提交身份验证数据

X·KOLX:Simon Willison (@simonw)

Anthropic在6月8日发布新版隐私政策,新增“验证数据”收集条款,次日推出Claude Fable 5,四天后美国政府实施出口禁令。政策明确可能要求Claude Free、Pro及Max用户提交年龄或身份证明,验证数据包括政府ID、面部照片/视频及面部几何模板。开发人员将首当其冲接受验证。

古尔曼预测苹果或将推出AI智能体,Siri可自主操作软件

官方IT之家

彭博社记者马克·古尔曼在专栏中预测,苹果可能推出对标OpenClaw的智能体系统,代用户自主操作iPhone、iPad与Mac软件。Siri工程主管迈克·罗克韦尔在WWDC上表示,新底层引擎是“完全现代化的架构”,为拓展智能体能力预留空间。苹果高管克雷格·费德里吉称智能体领域尚处试验阶段,但未排除未来入局。新版Siri已基于大语言模型重构,目前仍依赖用户指令触发。

模型中立性为何比云中立性更重要

X·KOLX:Harrison Chase (@hwchase17)

LangChain创始人Harrison Chase指出,模型中立性比云中立性更具进攻性。理由有三:模型变化速度远快于云基础设施,需保持中立应对快速迭代;不同模型在特定任务上选择性商品化,可同时使用多个;单次运行中可能需一个大型模型驱动核心智能体,搭配多个小型子模型。这与云时代仅在合同期或故障时切换不同。

04

论文研究

Research
3

LCLMs用压缩替代检索,重新定义Agent记忆系统

X·KOLX:AlphaSignal (@AlphaSignalAI)

传统Agent系统依赖检索获取信息,但LCLMs(Latent Compression Language Models)提出先压缩所有信息。该方法将数据全局压缩一次,再基于压缩进行全局推理,仅当需要时才局部扩展。这与检索式记忆的本质区别在于:压缩使模型能理解整体结构而非片段匹配。LCLMs在多个知识密集型任务中展现出更高效的记忆利用。

LangChain Labs与Fireworks AI合作发布新研究

X·KOLX:LangChain (@LangChainAI)

LangChain Labs与Fireworks AI合作发布了一项新研究。该研究由Viv Vtrivedy等人参与。此次合作可能聚焦于提升大语言模型在实际应用中的效率。具体细节可参考原文链接。

datasette-agent 0.3a0 新增 execute_write_sql 工具,需用户批准写数据库

官方Simon Willison’s Weblog

datasette-agent 0.3a0 发布,新增 execute_write_sql 工具,该工具会请求用户批准后再执行数据库写入操作,同时考虑用户权限。版本还增强了聊天终端模式,支持用户批准流程,并新增 --unsafe 模式自动批准所有用户确认问题。新选项包括 --root(以 root 运行)、--yes(自动批准所有 ask user 问题)和 --unsafe(同时启用前两者)。用户可通过 datasette agent chat content.db -m gpt-5.5 --unsafe 命令直接与特定数据库对话,并通过自然语言指令创建表或添加记录。

05

技巧与观点

Tips & Takes
4

Anthropic指南:Claude Fable 5提示词需删除旧指令

X·KOLX:AlphaSignal (@AlphaSignalAI)

Anthropic发布的Claude Fable 5官方提示词指南指出,过去为旧模型编写的提示词会降低Fable 5的输出质量。需要删除的要素包括:分步指令列表、"展示推理过程"(现在会触发拒绝)、剩余token倒计时、枚举边界案例列表。新增的要素包括:任务投入程度、验证子智能体、边界块、记忆文件、请求背后的原因。指南强调一个目标、上下文、边界以及验证自身工作的方式。

使用Strands Evals进行AI Agent失败检测与根因分析

X·KOLX:AWS Machine Learning Blog (@Po-Shin Chen)

AWS博客介绍了Strands Evals工具,用于检测AI Agent执行中的失败并定位根因。调用detector函数后,输出包含分类失败类型与置信度分数、从根因到下游症状的因果链,以及修复建议(指定修改系统提示还是工具定义)。该工具可集成到评估流程中,实现每个测试运行的自动诊断。

Ian 用 Notion Custom Agents 自动更新个人工作区:健康、财务、任务一屏搞定

X·KOLX:Notion (@NotionHQ)

Notion 产品布道师 Ian McClanlan 使用 Notion 的 Custom Agents 和 Notion Workers 构建了一个自动更新的个人仪表盘。他从 WHOOP 和 Strava 同步健康数据,通过 AI 自动填入健康数据库;从 Plaid 同步交易记录到 Notion 数据库,用 AI 自动分类并展示支出对比;还将所有想法通过 Agent 自动归档到对应数据库。这一系统已运行 6 年,他称其为“最有价值的人生信息集合”。

XQuant开源书稿:用自然语言描述策略,AI代写代码

X·KOLX:Geek (@geekbb)

该开源书稿名为XQuant,发布于GitHub,面向零基础读者。它教用户用自然语言描述量化交易策略,并让AI自动生成对应代码。目标是帮助读者从零搭建一个完整、可迭代的量化交易系统。书稿全程不需要读者编写代码,只需理解策略思路。

43
今日事件
7
一手报道
7
新模型
21
信源
AITOP · 编辑系统自动生成