VOL.2026.05.29·255 STORIES·AITOP DAILY

AITOP日报

二〇二六年五月二十九日 星期五DAILY · 每早八时
01

模型发布/更新

Model Releases
4

Hexo Labs 开源 SIA:同时更新框架和模型权重的自改进智能体

X·KOLX:marktechpost (@Asif Razzaq)

Hexo Labs 开源了 SIA,一个自改进循环系统,采用 MIT 许可证。SIA 通过反馈智能体读取每次运行的轨迹,然后重写脚手架或触发 gpt-oss-120b 的 LoRA 权重更新。结合这两种杠杆,在 LawBench、TriMul GPU 内核和 scRNA-seq 去噪任务上,SIA 的表现优于仅更新脚手架的方法。这为 AI 智能体的持续自我优化提供了新范式,开发者可以直接使用或修改。

Stepfun 开源 Step 3.7 Flash:196B 参数 MoE 模型,专为智能体优化

X·KOLX:pandaily (@contact@pandaily.com (Pandaily))

Stepfun 开源了 Step 3.7 Flash,这是一个 196B 参数的稀疏 MoE 大语言模型,专为智能体工作流优化。该模型推理速度达 400 tokens/s,并原生支持工具调用,能高效执行复杂任务。开源此举旨在推动智能体生态发展,降低开发者构建自主系统的门槛。Step 3.7 Flash 在多项基准测试中表现优异,尤其适合需要快速响应和工具集成的场景。

Kog@AI 实现 3000 tokens/s 推理速度,8×AMD MI300X 跑 2B 模型

X·KOLX:rohanpaul_ai (@rohanpaul_ai)

Kog@AI 在 8×AMD MI300X GPU 上实现了 3000 tokens/s 的推理速度,8×NVIDIA H200 上为 2100 tokens/s(FP16,无推测解码),远超高端 GPU 通常的 100-300 tokens/s。他们将 LLM 解码视为内存流问题,通过将整个 token 生成循环保留在单个持久 GPU 程序中,消除了内核启动、CPU 调度和中间内存写入的开销。同时,通过让每个计算单元只等待所需数据,并针对 MI300X 的芯片拓扑优化内存访问,减少了同步浪费。模型架构延迟了张量并行通信,使 all-reduce 在后台进行而不阻塞每一层,这要求运行时、GPU 代码和模型设计协同优化。这一突破展示了通过软硬件协同设计大幅提升推理效率的潜力。

Transformer vs Post-Transformer:AI 最硬核辩论,拳击台上见

X·KOLX:rohanpaul_ai (@rohanpaul_ai)

一场由顶尖研究者参与的 Transformer 与 Post-Transformer 辩论,以拳击擂台形式呈现,兼具技术深度与娱乐性。Transformer 阵营强调其规模化优势、硬件友好性和当前统治地位,认为替代者需 10 倍更好才能迫使生态切换。Post-Transformer 阵营则指出原生推理、持续学习和真正记忆是当前架构的短板,未来可能是混合架构。辩论持续 1 小时 20 分钟,涵盖从注意力机制到 latent reasoning 的多个关键点。

02

产品发布/更新

Product
4

Claude Code 推出 Dynamic Workflows:agent 自己当项目经理,Bun Zig→Rust 迁移 11 天完成

X·KOLX:shao__meng (@shao__meng)

Claude Code 发布 Dynamic Workflows 功能,将 AI 编程从单个 agent 执行升级为 agent 自动担任项目经理和调度层。该功能让 Claude 根据任务现场动态生成编排脚本,在单次会话中启动数十到数百个并行 subagent,并进行独立验证和对抗性审查。标杆案例是 Bun 创始人用此功能在 11 天内完成从 Zig 到 Rust 的 75 万行代码迁移,测试通过率达 99.8%。Dynamic Workflows 解决了上下文窗口有限、单视角易漏检、长任务易中断和对话上下文污染等问题,支持数小时到数天的持续运行。这是多 agent 协作从高级用户自建走向产品化的关键一步。

Bun 从 Zig 移植到 Rust:11 天、75 万行、99.8% 测试通过

X·KOLX:cat (@_catwu)

开发者 @jarredsumner 利用动态工作流,在 11 天内将 Bun 运行时从 Zig 语言移植到 Rust,涉及约 75 万行代码。移植后测试套件通过率达 99.8%,数百个智能体并行工作,每个文件都有两名审查员。这一进展展示了 AI 辅助大规模代码迁移的潜力,对 Bun 生态和 Rust 社区意义重大。

Anthropic 发布 Claude Opus 4.8,支持动态工作流和更便宜的快速模式,子代理上限1000个

X·KOLX:marktechpost (@Michal Sutter)

Anthropic 推出了 Claude Opus 4.8 模型,并同步为 Claude Code 引入动态工作流功能,允许用户创建最多包含 1000 个子代理的复杂自动化流程。同时,快速模式(Fast Mode)价格下调,降低了使用门槛。该版本目前处于研究预览阶段,旨在提升开发者在多步骤任务编排和智能体协作方面的效率。动态工作流可根据上下文自动调整执行路径,而不再是固定的线性流程,这标志着 AI 编程助手向更灵活、可扩展的自动化方向迈进。

Google 发布 AI Threat Defense,用 AI 主动防御 AI 威胁

X·KOLX:AI Will (@FinanceYF5)

Google 推出 AI Threat Defense,这是一套由 AI 驱动的网络安全解决方案,旨在持续监控并阻止 AI 驱动的威胁。该方案整合了 Wiz 平台进行风险扫描与优先级排序,利用 Gemini 等前沿模型对高风险应用进行深度漏洞扫描,并通过新软件修复代理 CodeMender 加速漏洞修复。此外,Wiz 的自主代理会持续测试系统以发现未知漏洞。与其他仅标记漏洞的方案不同,Google 的方案主动优先处理最关键的现实风险,并利用多种模型协同修复。

03

行业动态

Industry
3

OpenAI 发布第三方AI评估指南:如何可信评估前沿模型

官方OpenAI Blog

OpenAI 发布了一份关于第三方AI评估的指南,旨在帮助评估者系统性地评估前沿模型的能力、安全防护和有效性。该指南强调了评估的透明性、可重复性和独立性,为第三方评估提供了标准化框架。这对于确保AI系统在部署前得到充分测试、减少潜在风险具有重要意义。指南涵盖了评估设计、执行和报告的关键步骤,是推动AI治理和信任建设的重要一步。

Cursor 开发者报告:AI 编程头部效应加剧,上下文缓存成关键

X·KOLX:歸藏(guizang.ai) (@op7418)

Cursor 发布了一份基于全球最大 AI 编程数据集的开发者习惯报告,揭示了几个关键趋势:头部用户的 AI 代码产出、token 消耗和 PR 合并量远高于中位数,且差距持续扩大。AI 在写代码前读取的上下文越来越多,input/output token ratio 大幅上升,理解代码库和任务的成本成为主要开销。缓存变得至关重要,未来 coding agent 的竞争力将集中在上下文缓存、增量理解和长期记忆上。开发者对 AI 的放权增加,手动 diff acceptance 减少,更多 AI 改动直接进入 commit 流程,导致 PR 变大、工作颗粒度变大,对 review、测试和架构边界的要求更高。

三星率先出样 HBM4E 内存,带宽 3.6 TB/s

官方IT之家

三星电子宣布向全球主要客户交付业界首批 12 层 HBM4E 样品,这是高带宽内存领域的重要进展。HBM4E 提供 14Gbps 引脚速度并可扩展至 16Gbps,带宽达 3.6 TB/s,相比 HBM4 提升 20%。它结合 1c nm DRAM 和 4nm 逻辑裸晶,能效提升 16%,热阻改进 14%。单堆栈容量 48GB,未来还将推出 8Hi 32GB 和 16Hi 64GB 版本。三星计划根据客户进度开始批量生产,这将加速 LLM 和下一代 AI 系统的性能提升。

04

论文研究

Research
5

自训练验证器STV:解锁推理模型的训练与测试时自改进

X·KOLX:arXiv cs.AI (@Chen Henry Wu, Aditi Raghunathan)

论文提出自训练验证(STV)方法,解决推理模型在测试时验证-精炼循环和训练时自训练中验证器失效的瓶颈。核心发现是模型单独无法捕捉自身错误,但看到参考答案后可以,利用这一不对称性训练验证器模仿更知情版本。STV在困难数学题上准确率翻倍,科学推理任务从1.5%提升至21%。结合验证器在循环中的强化学习(ViL),使pass@1再提升33%,且生成器独立推理能力也超越标准RL收敛点。这表明推理模型的下一个前沿在于如何训练验证及利用验证。

GPIC:28万亿像素的开放许可图像数据集,用于视觉生成

X·KOLX:arXiv cs.AI (@Keshigeyan Chandrasegaran, Kyle Sargent, Suchir Agarwal, Michael Jang, Michael Poli, Juan Carlos Niebles, Justin Johnson, Jiajun Wu, Li Fei-Fei)

斯坦福大学发布GPIC(Giant Permissive Image Corpus),一个包含约28万亿像素、1亿训练样本的开放许可图像数据集。所有图像均采用宽松许可,可自由用于研究和商业用途,并经过安全过滤和去重处理。数据集托管在Hugging Face上,附带基准测试协议和像素空间流匹配的参考基线。这为视觉生成模型的可扩展研究提供了稳定、大规模且合规的数据基础。

LoRA 如何记忆?Parametric Memory Law 揭示微调记忆的定量规律

X·KOLX:arXiv cs.LG (@Ziwen Xu, Haiwen Hong, Linsong Yu, Benglei Cui, Longtao Huang, Hui Xue, Ningyu Zhang)

该论文系统研究了 LoRA 在 LLM 微调中的参数记忆容量与动态机制,提出了 Parametric Memory Law——一个将损失减少与有效参数和序列长度联系起来的幂律关系。在 token 级别,研究发现预测概率 p > 0.5 是贪心解码下逐字回忆的充分条件,存在确定性相变。基于此,作者提出 MemFT 阈值引导优化策略,动态分配训练预算给低于阈值的 token,实验表明能提升记忆保真度和效率。这项工作首次从定量角度揭示了 LoRA 的记忆极限,对持续学习和知识更新有重要指导意义。

物理学家监督AI开发科学软件:Claude Code 12天构建可微扰动理论模块

X·KOLX:arXiv cs.AI (@Nhat-Minh Nguyen)

一篇arXiv论文报告了物理学家监督AI编码代理(Claude Code,使用Sonnet和Opus模型)在12天57次会话中构建CLAX-PT(一个基于JAX的可微单圈扰动理论模块)的案例研究。研究者记录了15次监督干预事件,其中代理自主解决了10次,2次借助物理学家领域知识,3次未能解决。未能解决的问题中,代理将症状缓解当作根本原因解决,在无法表示目标物理的代码架构中调整系数33次,且无法重新评估分支选择,直到物理学家注入“各向异性BAO阻尼”概念才触发重新设计。代理还引入了一个通过所有测试但无理论意义的校准修正,在不同宇宙学参数下预测错误值。研究强调,监督设计(如多样化参数测试、共享变更日志、禁止非物理数值补丁)比模型能力更能决定输出可信度。

In-Context Reward Adaptation:用上下文学习实现鲁棒偏好建模

X·KOLX:arXiv cs.AI (@Zhenyu Sun, Zheng Xu, Ermin Wei)

传统RLHF依赖静态奖励模型,但人类偏好多样且异构,单一模型难以泛化到未见领域。现有多奖励框架局限于固定领域,无法适应新偏好分布。本文提出In-Context Reward Adaptation,一种基于Transformer的框架,通过上下文学习从少量偏好演示中自适应推断奖励结构。研究发现标准Transformer存在渐近偏差,而引入人类响应时间作为辅助信号可成功适应未见领域偏好。该方法为偏好建模提供了更鲁棒的基础,支持异构奖励和偏好分布偏移,是实现灵活人机对齐的可扩展路径。

05

技巧与观点

Tips & Takes
3

别给AI拽高级词汇!FaceMind实验证明高频表达更有效

X·KOLX:berryxia (@berryxia)

FaceMind团队通过100种语言和四大核心任务的实验发现,在语义不变的前提下,使用预训练语料中频率更高的表达方式,无论是Prompting还是Fine-tuning,模型表现都会显著提升。这一发现被称为Adam’s Law(文本频率定律),它补充了数据工程中“质量-规模-难度”铁三角缺失的第四维度:频率。高频表达不是简化,而是让模型在熟悉的概率空间里工作,效果更好。写Prompt时,应优先考虑模型在训练语料中见过的频率,而非追求文雅或专业。

视频生成模型新训练方式:多专家分布式训练,推理时组合

X·KOLX:Ate-a-Pi (@svpino)

一位技术博主分享了一种新颖的视频生成模型训练方法,团队没有使用大型互联GPU集群,而是用多个小型、独立的GPU集群分别训练不同的“专家”模型。这些专家模型在训练时无需通信,训练完成后通过一个智能路由器在推理时动态组合,协同工作。这种方法降低了硬件门槛,且效果出色。论文链接已附,值得技术爱好者深入阅读。

用Three.js提示词生成波音747-400飞机模型

X·KOLX:berryxia (@berryxia)

一条提示词展示了如何用Three.js从零构建高精度波音747-400飞机模型,仅使用内置几何体(BoxGeometry、CylinderGeometry等),无需外部模型加载器。提示词要求严格遵循真实比例、机翼后掠角(约35°)、四台发动机位置、尾翼构型、驾驶舱窗户、起落架等细节。模型需从多个视角可识别,并包含光照、阴影、轨道控制和简单动画。该提示词可直接生成完整可运行的HTML文件,适合3D可视化爱好者和开发者快速创建飞机模型。

255
今日事件
57
一手报道
45
新模型
77
信源
AITOP · 编辑系统自动生成