VOL.2026.06.28·117 STORIES·AITOP DAILY

AITOP日报

二〇二六年六月二十八日 星期日DAILY · 每早八时
01

模型发布/更新

Model Releases
5

OpenAI 预览 GPT-5.6 系列:Sol、Terra、Luna

官方Simon Willison’s Weblog原文 ↗

OpenAI 发布 GPT-5.6 系列有限预览,包括旗舰模型 Sol、平衡模型 Terra 和快速廉价模型 Luna。Terra 性能与 GPT-5.5 相当,但成本降低 2 倍,输入每百万 tokens 仅 $2.50。Luna 为最低价选项,输入每百万 tokens $1。该系列引入可预测的提示缓存,支持显式缓存断点和 30 分钟最短缓存生命周期,缓存写入按 1.25 倍计费,读取享 90% 折扣。OpenAI 计划未来几周全面开放,并应美国政府要求先向可信伙伴提供预览。

DeepSeek开源DSpark推测解码框架,加速V4生成60-85%

X·KOLX:marktechpost (@Asif Razzaq)原文 ↗

DeepSeek开源了DSpark框架,通过将草稿模块附加到现有DeepSeek-V4权重上实现推测解码。它结合并行草稿骨干和轻量级马尔可夫头来减少后缀衰减,并加入基于置信度的调度验证,根据实时GPU负载调整检查token数量。离线测试中,接受长度相比DFlash和Eagle3提升16-31%;生产环境中每个用户生成速度比MTP-1基线提升57-85%,且无损。训练代码DeepSpec以MIT许可证开源。

英伟达发布GLM-5.2 NVFP4量化版,744B MoE推理编码模型

X·KOLX:LMSYS Org (SGLang) (@lmsysorg)原文 ↗

英伟达与智谱AI合作,发布了基于GLM-5.2的NVFP4量化检查点。该模型为744B参数混合专家架构(40B活跃参数),专注于推理和编码任务。NVFP4量化通过NVIDIA Model Optimizer实现,在降低内存占用的同时保持前沿推理性能。模型还支持稀疏注意力和IndexShare索引器,实现高效长上下文处理。目前已在Blackwell/Grace Blackwell上通过SGLang提供首日支持。

02

产品发布/更新

Product
5

开源视频制作工作流OpenMontage发布,单日获3000 Star

X·KOLX:berryxia (@berryxia)原文 ↗

OpenMontage是一个开源AI视频制作工作流,将视频生产拆分为12条结构化pipeline,涵盖动画解说、纪录片蒙太奇、Talking Head等类型。它内置52个工具和500多个agent skills,用户只需自然语言描述需求,agent就能完成调研、脚本、素材生成到剪辑合成全流程。该项目同时支持AI生成内容和真实素材工作流,并实现预合成验证、后渲染自检和预算控制等生产级质量管控。渲染引擎使用Remotion和自研HyperFrames,可输出高质量动态视频。

LiteParse 开源文档解析工具:每页仅3ms,支持50+格式

X·KOLX:Jerry Liu (@jerryjliu0)原文 ↗

LiteParse 由 LlamaIndex 开源,平均解析速度达每页3ms,是目前最快的文档解析工具。它在 opendataloader-bench、OlmOCR-bench 和 ParseBench 三项基准测试中准确率排名第一。支持超过50种文档格式,并能提供基本边界框供编程代理拼接。该工具已获得10k GitHub stars,适合作为各种文档解析任务的首选预处理步骤。

OpenAI 推出了Daybreak,一个专门给网络安全防御者的前沿AI系统

X·KOLX:berryxia (@berryxia)原文 ↗

OpenAI发布了Daybreak,一个面向网络安全防御者的AI系统。它整合了最强大的模型、Codex及安全合作伙伴,帮助防御者更快发现和修复漏洞。Daybreak能够自动化检测验证和响应,处理安全积压。此外,OpenAI在GPT-5.6 Sol上进一步强化了安全能力。目前Daybreak更倾向于服务受控合作伙伴,而非全面开放。

03

行业动态

Industry
5

两千人尝试黑掉AI助手,六千次攻击无人成功

官方Simon Willison’s Weblog原文 ↗

Fernando Irarrázaval 在 hackmyclaw.com 发起挑战,使用 OpenClaw 测试实例(基于 Opus 4.6 模型)验证能否通过邮件泄露秘密。6000 次攻击尝试消耗了 500 美元 token 并导致 Google 账号暂停,但无人成功。挑战中的反注入提示规则防止了模型泄露 secrets.env 或执行代码。作者认为前沿模型(如 Opus 4.6)在抗提示注入方面训练有效,但警告生产系统仍需谨慎。

04

论文研究

Research
3

BINEVAL:LLM-as-judge 的原子是非问题分解评估方法

X·KOLX:elvis (@omarsar0)原文 ↗

BINEVAL 将每个评估标准分解为原子的是非问题,独立回答每个输出,再聚合为校准的多维分数。在 SummEval、Topical-Chat 和 QAGS 三个基准上,它无需训练即匹配或超越了 UniEval 和 G-Eval,尤其在事实一致性上表现突出。每个问题级别的裁决都可检查,帮助诊断输出得分低的原因,并直接用于提示改进信号。论文 arxiv.org/abs/2606.27226 详细介绍了该方法。

改进DeepEP MoE负载均衡:SGLang引入Waterfill和LPLB

X·KOLX:LMSYS Org (SGLang) (@lmsysorg)原文 ↗

SGLang团队为DeepEP MoE引入两种调度时负载均衡器Waterfill和LPLB。Waterfill将共享专家工作分配到较轻的rank,在DeepSeek V3/R1上带来+1.48%到+4.66%的性能提升,V4 Flash吞吐量从49,253 tok/s增至51,677 tok/s。LPLB优化冗余路由专家副本的流量分配,在red16/red32配置下取得+0.84%到+7.34%的提升。两种方法均不改变模型语义,保持推理精度。

05

技巧与观点

Tips & Takes
5

Anthropic上下文管理演讲:从Claude MD到做梦架构

X·KOLX:berryxia (@berryxia)原文 ↗

Anthropic的Lamis在2026年AI DevCon上分享了上下文工程实践,从Claude MD文件起步,发现其效果出奇地好(unreasonably effective)。第二步引入记忆工具,让Agent自主读写,效果优于人类。第三步Skills采用渐进式披露,类似书架取书。第四步文件系统用bash和grep搜索,不需要向量数据库。生产环境面临多Agent并发写入等问题,Anthropic提出版本控制、并发控制等四个原则。最后介绍“做梦”机制:异步批量分析会话记录,识别模式并调整上下文,已在生产中运行,降低token成本。

Paul Bakaus 分享高级智能体技能工程与形容词级设计控制

X·KOLX:AI Engineer (@aiDotEngineer)原文 ↗

Paul Bakaus 将在 AI Engineer World's Fair 发表两场演讲,涵盖智能体技能工程与设计工具控制。他基于构建 24+ 技能、跨越 9 种 harness/模型组合的实战经验,揭示平行子智能体、混合专家路由、技能记忆、自动钩子与环境变量等技巧。此外还介绍开源设计工具 Impeccable AI 的 24 个形容词级命令(如 /bolder、/quieter、/distill)。两场演讲分别聚焦如何突破模型默认安全输出,以及从形容词层面控制设计风格。

使用NVIDIA Open-SWE-Traces构建监督微调数据:轨迹解析与补丁分析教程

X·KOLX:marktechpost (@Sana Hassan)原文 ↗

本教程演示如何从Hugging Face流式加载NVIDIA Open-SWE-Traces数据集,无需本地下载即可在Google Colab中高效处理。内容涵盖多轮智能体对话标准化、代码补丁解析、构建包含轨迹长度、工具使用次数、补丁大小、语言分布及解决结果的分析DataFrame。最后基于成功标签、Token限制、语言过滤和补丁可用性筛选出监督微调子集。

117
今日事件
37
一手报道
35
新模型
53
信源
AITOP · 编辑系统自动生成