VOL.2026.05.25·123 STORIES·AITOP DAILY

AITOP日报

二〇二六年五月二十五日 星期一DAILY · 每早八时
01

模型发布/更新

Model Releases
5

Google DeepMind AlphaProof Nexus 以数百美元解决56年未解数学难题

X·KOLX:Decoder (@Matthias Bastian)

Google DeepMind 的 AlphaProof Nexus 系统自主解决了九个开放的 Erdős 问题,其中两个困扰数学家长达56年,每个问题的推理成本仅需数百美元。与 OpenAI 的自然语言方法不同,该系统使用 Lean 编译器自动验证每一步证明,确保结果严谨可靠。不过,整体成功率仅为2.5%,表明 AI 在数学推理领域仍有巨大提升空间。这一成果展示了 AI 在解决高难度数学问题上的潜力,可能加速数学研究进程。

华为发布 LogicFolding 芯片设计,缩小与台积电差距

X·KOLX:rohanpaul_ai (@rohanpaul_ai)

华为发布了一种名为 LogicFolding 的新型芯片设计方法,旨在通过减少信号传输延迟来提升性能,而非单纯追求晶体管尺寸缩小。该方法引入“τ scaling”概念,将芯片性能瓶颈从晶体管大小转向时间延迟的优化。LogicFolding 通过垂直堆叠有源电路层并用混合键合连接,缩短关键路径,降低延迟和能耗。这一突破有望帮助华为在芯片制造领域缩小与台积电的差距。

阿里 Qwen 3.7 Max 35 小时自主任务跑完,海外开发者惊叹

X·KOLX:pandaily (@contact@pandaily.com (Pandaily))

阿里巴巴的 Qwen 3.7 Max 模型完成了一次长达 35 小时的自主任务运行,期间执行了 1,158 次工具调用。这一表现展示了模型在长时间、多步骤任务中的持续稳定能力,令海外开发者印象深刻。该成果凸显了 Qwen 系列在复杂自动化场景下的潜力,可能推动更多企业探索 AI 驱动的长周期工作流。

StepFun 发布 StepAudio 2.5 Realtime:端到端语音模型,支持角色扮演 RLHF

X·KOLX:marktechpost (@Michal Sutter)

上海 AI 实验室 StepFun 于 2026 年 5 月发布 StepAudio 2.5 Realtime,这是一款端到端的实时语音大模型,支持中英文,通过 WebSocket API 连接。该模型在 2026 年 4 月的五项基准测试中均排名第一,包括 80.41 的人类评估分数和 82.18 的副语言理解分数。其特色在于角色扮演特定的 RLHF 训练和副语言理解能力,允许用户自定义角色风格。这标志着语音 AI 在情感和角色模拟方面取得了重要进展。

DeepSeek V4 完成华为昇腾全面适配,中国 AI 栈里程碑

X·KOLX:pandaily (@contact@pandaily.com (Pandaily))

DeepSeek V4 已全面适配华为昇腾芯片,标志着中国 AI 基础设施在推理负载上减少对海外芯片依赖的重要进展。该适配覆盖了从训练到推理的全流程,使得国内企业可以在国产硬件上运行 DeepSeek V4 模型。这一突破降低了供应链风险,同时提升了国产 AI 生态的自主可控能力。对于依赖 AI 推理的中国企业和开发者来说,这意味着更稳定的算力供应和更低的合规成本。

02

产品发布/更新

Product
5

WorkOS 发布 auth.md:基于 OAuth 标准的开放智能体注册协议

X·KOLX:marktechpost (@Asif Razzaq)

WorkOS 推出了 auth.md,一个基于 OAuth 标准的开放智能体注册协议。该协议通过让应用在其域名下发布一个 Markdown 文件,向 AI 智能体说明支持的注册流程、请求的权限范围以及如何获取与真实用户绑定的凭证,从而无需人工填写表单。这解决了当前大多数 Web 应用缺乏结构化智能体注册方式的问题,为智能体与服务的自动化交互提供了标准化方案。

我国研制全球首套智能透射电镜系统“原眼一号”,AI自主分析原子世界

官方IT之家

中国科学院大连化学物理研究所团队成功研制出全球首套智能透射电镜系统“原眼一号”,实现了从样品传递、成像到解析的全流程无人化、智能化运行。该系统攻克了具身智能高真空样品传递、电子光学成像自主调节等五大关键技术,图像分析效率较人工提升300倍以上,运行两周的数据量相当于传统电镜一年。该成果首次实现透射电镜从人工操作到AI全流程自主运行的跨越,为能源化工、材料科学、生命科学等领域提供大规模高质量结构数据,支撑AI驱动科研范式变革。

Onyx开源深度研究员:砍掉调度器搜索权反超Claude和ChatGPT

X·KOLX:berryxia (@berryxia)

一个开源团队发现,传统深度研究系统中调度器拥有搜索权限会导致浅尝辄止,因此他们设计了一个反直觉的架构:调度器只能分解任务和评估报告,不能上网搜索。这个名为Onyx的系统在DeepResearch Bench上登顶,超越Claude和ChatGPT。Onyx采用两层架构,上层纯策略调度器,下层最多6个独立研究agent,三阶段流水线确保高质量输出。它还能接入企业内部知识库,完全开源,任何人都可以复现。

Codex 自我改进提示:自动识别重复工作流并打包

X·KOLX:Greg Brockman (@gdb)

VB Srivastav 分享了一个改进版的 Codex 自我改进提示,让 Codex 跨会话、记忆和 Chronicle 查找重复的手动工作流,并自动创建最小的实用技能、子代理或自动化。提示要求 Codex 优先复用已有资产,只对高频、稳定、可重复的任务进行打包,避免创建重复或过于宽泛的内容。最终输出包括创建了什么、跳过了什么以及需要更多证据的项目。这个提示能显著提升 Codex 用户的自动化效率,减少重复劳动。

2x DGX Sparks + MiniMax M2.7 NVFP4 同时运行16个本地AI智能体

X·KOLX:NVIDIA AI (@NVIDIAAI)

NVIDIA AI 官方账号展示了一个本地AI部署方案:使用两台 DGX Spark 服务器和 MiniMax M2.7 NVFP4 模型,实现了16个本地AI智能体同时运行。所有推理都在本地完成,无需调用云端API。这展示了在本地硬件上运行多个AI智能体的可行性,对于需要低延迟、高隐私或离线环境的AI应用场景具有重要意义。

03

行业动态

Industry
5

华为提出Tau Law:逻辑折叠技术瞄准1.4nm等效密度

X·KOLX:Pandaily (@contact@pandaily.com (Pandaily))

华为董事何庭波在2026年ISCAS会议上提出Tau Law,这是一种新的半导体缩放框架,通过逻辑折叠技术实现时间最小化,目标是在2031年达到相当于1.4nm的晶体管密度。该定律被视为后Dennard缩放时代的替代路径,旨在突破传统制程微缩的物理极限。Tau Law强调通过电路设计和架构创新来提升性能,而非单纯依赖工艺节点缩小。这一进展对全球芯片产业格局具有潜在影响,尤其在中美科技竞争背景下。

赣锋锂业开始小批量生产全球首款500Wh/kg固态电池

X·KOLX:pandaily (@contact@pandaily.com (Pandaily))

全球最大锂金属生产商赣锋锂业宣布,已开始小批量生产其声称的全球首款10Ah锂金属固态电池,能量密度达到500Wh/kg。该电池采用固态电解质和锂金属负极技术,相比传统锂离子电池能量密度提升约一倍,有望显著提升电动汽车续航里程。赣锋锂业控制着全球约45%的锂金属供应,此次量产标志着固态电池从实验室走向商业化的重要一步。预计该电池将于2026年5月正式上市。

George Hotz 警告:AI 编程智能体将是软件开发最昂贵的错误

X·KOLX:Decoder (@Matthias Bastian)

著名程序员 George Hotz 在测试 AI 编程智能体六个月后发出警告,认为它们将成为软件开发行业最昂贵的错误之一。他指出,LLM 能快速生成原型,但在细节上漏洞百出,产生的错误越来越难以发现。这一观点反映了 AI 社区在 LLM 角色问题上存在的深刻分歧。Hotz 的批评提醒开发者,在依赖 AI 编程工具时需谨慎评估其长期影响。

黄仁勋:封锁中国芯片不等于封锁AI,华为崛起是产业刺激

X·KOLX:rohanpaul_ai (@rohanpaul_ai)

英伟达CEO黄仁勋在Fox Business采访中表示,美国对华芯片出口管制并不能阻止中国在AI领域的发展。他指出,华为的崛起证明制裁反而成为产业刺激,市场缺口促使本土供应商成熟、规模化并走向出口。黄仁勋认为,真正的竞争不再是单纯拥有最快加速器,而是谁定义智能的操作层:芯片、能源、基础设施、模型、应用及标准。他警告,长期风险可能是美国技术被排除在它希望影响的系统之外。

npm 遭供应链投毒攻击,影响 echarts-for-react、AntV 等热门项目

官方IT之家

国家网络安全通报中心预警,npm 平台遭“沙虫”供应链投毒攻击,攻击者攻陷官方维护者账户,批量投放 600 余个恶意版本,涉及 300 余个独立程序包。恶意代码在安装后自动窃取 GitHub Token、云密钥、SSH 私钥等敏感信息,并具备蠕虫式自我复制能力,可篡改并二次发布受害者名下的其他包。受影响项目包括 echarts-for-react、@antv 系列核心库、TanStack 系列 42 个包、Mistral AI 相关 PyPI 包等。前端开发者、AI/ML 开发者、开源维护者及企业研发人员均面临风险,建议立即隔离设备、排查依赖、更换凭证。

04

论文研究

Research
3

阿里+南大新论文:百万token预填充提速9.36倍

X·KOLX:rohanpaul_ai (@rohanpaul_ai)

阿里巴巴与南京大学联合发表论文,提出RTPurbo方法,通过轻量级适配将百万token预填充速度提升9.36倍(对比FlashAttention-2)。该方法发现训练好的全注意力模型已存在隐藏稀疏结构,无需重新训练。RTPurbo识别出少数需要远距离token的注意力头,其余头聚焦邻近文本,并使用16维索引器快速定位关键token。在长上下文基准和推理任务中,RTPurbo保持接近全注意力的精度,同时实现高达9.36倍加速。这证明长上下文推理中的浪费比表面看起来更有结构性。

微软 SkillOpt:将技能文档视为可训练外部状态,冻结智能体性能提升 23.5 点

X·KOLX:elvis (@omarsar0)

微软研究院提出 SkillOpt,一种将智能体技能文档视为可训练外部状态的新方法。该方法通过一个优化器模型对技能文件进行验证门控的增删改编辑,并引入文本学习率控制改写强度,而智能体本身保持不变。在 52 个(模型、基准、工具)组合上,SkillOpt 均达到最佳或并列最佳,在 GPT-5.5 上直接聊天提升 23.5 点,与 Codex 配合提升 24.8 点,与 Claude Code 配合提升 19.1 点,且零额外推理成本。学到的技能可跨模型和工具迁移,效果优于人工编写技能、TextGrad、GEPA 和 EvoSkill。

MoE模型浪费一半专家计算?ZEDA框架让Qwen3等模型跳过简单token

X·KOLX:rohanpaul_ai (@rohanpaul_ai)

研究发现,大型混合专家(MoE)模型在处理许多简单token时,浪费了约一半的专家计算资源。新提出的ZEDA(零专家自蒸馏适应)框架,通过为路由器添加“零专家”选项,让模型在token不需要复杂处理时直接跳过专家计算。该方法无需重新训练,而是将原MoE模型作为冻结教师,通过自蒸馏学习何时安全跳过计算。在Qwen3-30B-A3B和GLM-4.7-Flash上测试,去除了约50%的专家计算,精度损失极小,实际推理速度提升约20%。这表明计算消耗并不简单跟随任务难度,而是与不确定性相关,为部署MoE模型提供了更经济的方案。

05

技巧与观点

Tips & Takes
3

构建完整 Langfuse 可观测性与评估管道:追踪、提示管理、评分与实验

X·KOLX:marktechpost (@Sana Hassan)

本文是一篇教程,指导读者使用 Langfuse(一个开源 LLM 工程平台)构建完整的可观测性与评估管道。教程涵盖了追踪、提示管理、评分、数据集和实验等核心功能。它支持使用真实的 OpenAI 密钥或确定性模拟 LLM,让读者无需付费模型访问即可理解所有主要功能。文章提供了逐步实现的工作流程,适合希望系统学习 LLM 工程实践的开发者。

Codex 技巧:Steer 和 Queue 用法详解

X·KOLX:宝玉 (@dotey)

宝玉分享了 Codex 的两个实用功能:Steer 和 Queue。Steer 允许用户在任务执行中途打断并插入新指令,无需手动停止再继续;Queue 则用于在任务完成后排队执行后续指令。Steer 影响当前轮次,Queue 影响下一轮次,但实测 Queue 可能不会按预期执行。这两个功能能提升 Agent 任务的灵活性和效率。

PPT 设计提示词:用 AI 生成高级幻灯片

X·KOLX:向阳乔木 (@vista8)

这是一条来自 X 的推文,分享了一套用于 AI 生成 PPT 的详细提示词。提示词要求 AI 扮演专业 PPT 设计师,自主完成内容理解、结构设计和视觉决策,无需用户干预。它规定了优雅极简的视觉风格,对标 Apple/Linear/Notion 的质感,并严格限制配色、字体和图形元素的使用。该提示词特别适合在 Youmind 或 GPT 中使用,能一键生成符合高级初创企业美学的幻灯片。

123
今日事件
38
一手报道
18
新模型
40
信源
AITOP · 编辑系统自动生成