VOL.2026.05.24·70 STORIES·AITOP DAILY

AITOP日报

二〇二六年五月二十四日 星期日DAILY · 每早八时
01

模型发布/更新

Model Releases
4

NVIDIA 发布 Gated DeltaNet-2:线性注意力层解耦擦除与写入

X·KOLX:marktechpost (@Asif Razzaq)

NVIDIA 发布 Gated DeltaNet-2,一种线性注意力层,将 Delta 规则中的擦除和写入操作解耦为通道级擦除门 b_t 和写入门 w_t。在 1.3B 参数、100B FineWeb-Edu 令牌训练下,它在语言建模、常识推理和长上下文检索任务上超越 Mamba-2、Gated DeltaNet、KDA 和 Mamba-3。最大提升出现在 RULER S-NIAH 和多键针检索基准上。

DeepSeek 架构创新:将硬件稀缺转化为战略优势

X·KOLX:rohanpaul_ai (@rohanpaul_ai)

DeepSeek 通过 MoE、DSA 和 V4-Pro 的 CSA/HCA 技术,将 1M-token 单 token 推理 FLOPs 降至 V3.2 的 27%,KV 缓存降至 10%。其 Engram 研究线利用可扩展查找内存替代密集计算。Reuters 报道 V4-Pro 永久降价 75%,同时面临华为昇腾供应限制。这些举措旨在减少对 HBM 和高端 GPU 的依赖,使中国内存、加速器和系统适用于前沿 AI。

微软发布Webwright:终端原生Web Agent框架,Odysseys得分60.1%

X·KOLX:marktechpost (@Asif Razzaq)

微软研究院推出Webwright,一个终端原生的浏览器Agent框架,用可复用的Playwright脚本替代点击追踪式网页自动化。该框架仅用约1000行代码和三个模块的单Agent循环,在长程任务基准Odysseys上达到60.1%,远高于基础GPT-5.4的33.5%。在Online-Mind2Web上得分86.7%,是开源测试方案中AutoEval最高分。

Mythos 多项指标超越 GPT-5.5,安全威胁引担忧

X·KOLX:Gary Marcus (@GaryMarcus)

Gary Marcus 引用 scaling01 观点,认为 Mythos 在多项基准测试中优于 GPT-5.5,包括 SWE-bench Pro(77.8% vs 58.6%)、HLE(56.8% vs 41.4%)和网络安全测试。Mythos 在漏洞利用方面表现更强,能更高效地发现安全漏洞,但这也带来严重安全隐患。Marcus 警告,若 Mythos 完全发布,将对未充分防御的现实系统造成巨大混乱。目前最大的未知是 Mythos 在开放真实世界问题中的表现。

02

产品发布/更新

Product
5

腾讯开源 TencentDB Agent Memory:AI 智能体的四层本地记忆管线

X·KOLX:marktechpost (@Michal Sutter)

腾讯开源了 TencentDB Agent Memory,一个完全本地的 AI 智能体记忆系统,采用 MIT 许可证。该系统结合了符号短期记忆(将冗长的工具日志压缩为紧凑的 Mermaid 任务画布)和四层长期记忆金字塔(L0 对话 → L1 原子 → L2 场景 → L3 人格)。它作为 OpenClaw 插件和 Hermes Docker 镜像提供,默认在本地 SQLite + sqlite-vec 上运行,并使用混合 BM25 + 向量检索与 RRF 融合。腾讯自己的基准测试显示,在 WideSearch 上使用 OpenClaw 时,令牌减少 61.38%,相对通过率提升 51.52%,PersonaMem 准确率从 48% 提升到 76%。

我国研制智能透射电镜“原眼一号”,效率达人工300倍

官方IT之家

中国科学院大连化学物理研究所与沈阳自动化研究所联合研制出智能透射电子显微镜“原眼一号”,实现“传样—成像—解析”全流程自主运行。该设备在催化剂分析中单日可处理200个样品,采集5000张图像,定量解析50万个颗粒。相比现有设备,图像获取速度提升约56倍,分析效率达人工的约300倍。两周数据量相当于传统电镜一年工作量。

华为自研 DoB 封装技术,绕过 400 层 NAND 造出 122TB 企业级 SSD

官方IT之家

华为在 ID Forum 2026 上展示了基于自研 Die-on-Board(DoB)封装技术的大容量 SSD 系列,提供 61.44TB 和 122.88TB 两种容量,并计划推出 245TB 版本。DoB 技术将更多 NAND Die 直接封装在 PCB 上,突破传统 TSOP/BGA 封装最多 16 层堆叠的限制,实现 36 层堆叠,从而提升容量密度并降低成本。由于美国技术限制,华为无法获取 400 层以上 3D NAND 芯片,因此通过封装创新来弥补差距。该技术已应用于 OceanStor Pacific 9926 全闪分布式存储,2U 机箱可提供 4.42PB 原始容量,压缩后可达 11PB。华为的 DoB 方案在容量上已接近戴尔基于铠侠 245.88TB SSD 的方案,缩小了与行业领先者的差距。

Browser-use 团队发布 Rust 终端 TUI 工具,自然语言控制浏览器

X·KOLX:Geek (@geekbb)

Browser-use 团队推出了一款基于 Rust 编写的终端 TUI 工具,用户只需用自然语言描述任务,工具即可自动控制浏览器完成操作。该工具自研了 LLM 引擎,并利用 Chrome 的 CDP 协议实现浏览器控制。支持三种运行模式:使用用户登录态的 Chrome、无头浏览器或 Browser Use 云端。这一工具大幅降低了浏览器自动化的门槛,让非技术人员也能通过简单指令完成网页操作。

Claude Code Lark/Feishu Bridge 开源:在飞书里像同事一样用 Claude Code

X·KOLX:@zarazhangrui (@zarazhangrui)

开发者 zara zhangrui 开源了 Claude Code Lark/Feishu Bridge,让用户能在飞书聊天中直接与 Claude Code 交互。该工具支持在手机端通过飞书使用 Claude Code,将多个会话管理为群聊,告别杂乱的终端标签页。Claude Code 能读取飞书中的聊天、文档、会议记录等上下文,还能自动撰写飞书文档并回复评论。用户可将飞书消息转发给 Claude 完成任务,Claude 还能发送带按钮和 UI 的交互卡片。该项目完全开源,适合需要移动端或团队协作使用 Claude Code 的开发者。

03

行业动态

Industry
5

AI原生团队:IC像管理者思考,管理者像IC动手

X·KOLX:@zarazhangrui (@zarazhangrui)

张瑞在推文中提出AI原生团队的角色转变:独立贡献者(IC)应像管理者一样思考,学会将任务委托给AI代理、设定标准并验证输出;而管理者则应像IC一样动手构建,而非仅做人员管理。这种角色互换反映了AI工具对团队协作方式的深刻影响,强调每个人都需要适应AI协作的新模式。

Karpathy 设想神经计算机:软件界面将消失,神经网络成为主机

X·KOLX:rohanpaul_ai (@rohanpaul_ai)

Andrej Karpathy 在 Sequoia Capital 的访谈中提出,未来计算可能从经典计算转向神经计算,神经网络成为主机进程,CPU 退居协处理器。他认为许多现有软件是早期计算时代需要明确每一步的产物,未来设备可能直接接收原始视频、音频或意图,通过扩散模型实时生成独特 UI。这意味着大量中间软件可能消失,界面不再由产品团队预先构建,而是根据当前时刻动态生成。Karpathy 指出,1950-60 年代人们曾困惑计算机会像计算器还是神经网络,最终选择了计算器路径,但现在可能迎来反转。

华为发布122TB AI SSD,通过封装创新绕过出口限制

X·KOLX:rohanpaul_ai (@rohanpaul_ai)

华为推出122.88TB AI SSD,采用Die-on-Board封装技术,将NAND芯片直接焊在电路板上,而非依赖三星400+层3D NAND。该方案通过提高板级密度实现高容量,但面临散热和信号问题。未来计划推出245TB版本。此举表明出口管制迫使创新转向封装而非芯片本身。

DeepMind的Hassabis称人类处于奇点山脚,LeCun认为当前AI不智能

X·KOLX:Decoder (@Matthias Bastian)

DeepMind联合创始人Demis Hassabis认为人类已站在技术奇点的山脚,而Meta首席AI科学家Yann LeCun表示当前AI系统并非真正智能。Gemini联合负责人Oriol Vinyals则持中间立场,称七年前今天的模型会被视为AGI,但它们仍无法从经验中学习或产生真正突破。三位AI领域顶级专家在观点上存在显著分歧。

企业强推AI提效遇反效果:AI成本已超人力

官方IT之家

微软要求员工改用自研Copilot CLI而非Claude Code,因后者使用成本随用户增多而攀升。其他企业也在缩减AI工具使用规模,智能体词元消耗量可达普通大语言模型查询的上千倍。OpenClaw创始人称其团队单月词元使用成本超130万美元(约885.6万元人民币)。词元单价下降但使用量上涨,体现杰文斯悖论,AI开销已高于人力成本且效率提升有限。

04

论文研究

Research
3

研究者用Claude Code发现AI缩放算法,计算量减少70%

X·KOLX:Decoder (@Jonathan Kemper)

来自马里兰大学、Google、Meta等机构的研究者使用AutoTTS框架,让Claude Code自主发现AI推理控制算法。该算法相比标准自一致性方法,在保持相同准确率的同时,计算量减少约70%。整个搜索过程仅花费40美元,耗时160分钟。

字节跳动研究:提问比转录更有效训练长文档LMM

X·KOLX:Decoder (@Jonathan Kemper)

字节跳动Seed团队研究发现,通过提问方式训练7B参数的多模态大模型(LMM),在处理长文档(尤其是图像密集型文档)时,其可靠性甚至超过更大规模的模型。该模型能处理比训练时见过的文档长四倍的内容,且无需逐页转录文本,而是通过自主寻找相关段落来回答问题。这一方法显著提升了长文档问答的效率与准确性,为多模态模型在复杂文档理解任务中的应用提供了新思路。

论文定义AGI:适应能力至少与人类科学家相当

X·KOLX:rohanpaul_ai (@rohanpaul_ai)

一篇论文重新定义AGI为在计算、内存和能量限制下的适应能力。它提出AGI系统应能像人类科学家一样规划实验、学习因果关系、平衡探索与行动并自主运作。论文将这种AGI称为“人工科学家”,评判标准是其跨任务发现和适应的能力,而非仅通过类人测试。该论文预印本编号为2503.23923。

05

技巧与观点

Tips & Takes
3

SuperClaude 框架教程:用命令、智能体、模式和会话记忆构建工作流

X·KOLX:marktechpost (@Sana Hassan)

本文介绍了如何基于 Anthropic API 构建 SuperClaude 框架的高级工作流,通过集成命令系统、多智能体协作、模式切换和会话记忆功能,实现更复杂、更可控的 AI 交互。该框架允许开发者定义自定义命令、创建专用智能体角色、切换不同工作模式,并利用会话记忆保持上下文连续性。教程提供了具体代码示例和架构设计思路,适合希望扩展 Claude 能力的开发者。

为什么不应在Copilot、Gemini等AI工具中保留默认模型选择

X·KOLX:Decoder (@Matthias Bastian)

数学家Adam Kucharski发现,当向Microsoft Copilot输入相同数据集但不同国家标签时,Copilot会编造不存在的国家差异,输出详细刻板印象而非准确结果。思考模型能识别这种把戏,但前提是用户知道何时使用它们。文章指出,在Copilot、Gemini等AI工具中保留默认模型选择可能导致错误结论,用户应主动选择适合任务的模型。

Codex 网络优化提示词:先诊断再修复,亲测有效

X·KOLX:向阳乔木 (@vista8)

一位用户分享了一个针对 Codex 的提示词,用于优化电脑网络速度和稳定性。该提示词要求 Codex 按“先诊断、再最小可逆修改、最后复测”的流程执行,避免直接破坏性重置。诊断阶段会检查网络质量、DNS 耗时、Wi-Fi 状态、后台进程等;优化阶段只做安全可逆的修改,如调整网络服务顺序、设置更快 DNS、刷新缓存;最后复测并对比前后数据。这个提示词适合需要快速排查网络问题、又不想冒风险的用户,尤其对 macOS 用户友好。

70
今日事件
30
一手报道
7
新模型
22
信源
AITOP · 编辑系统自动生成