VOL.2026.05.23·98 STORIES·AITOP DAILY

AITOP日报

二〇二六年五月二十三日 星期六DAILY · 每早八时
01

模型发布/更新

Model Releases
5

NVIDIA Nemotron-Labs扩散语言模型实现光速文本生成

官方Hugging Face: Blog

NVIDIA 发布了 Nemotron-Labs 扩散语言模型,该模型采用扩散机制替代传统的自回归生成方式,大幅提升文本生成速度,接近光速。与 GPT-4 等模型相比,Nemotron-Labs 在保持生成质量的同时,推理速度提升了一个数量级。该模型在多个基准测试中表现出色,尤其适合需要低延迟的实时应用场景。这一突破可能改变大语言模型的部署范式,让文本生成更接近实时交互。

阿里Qwen3.7-Max自主运行35小时优化芯片代码

X·KOLX:Decoder (@Jonathan Kemper)

阿里巴巴Qwen团队发布Qwen3.7-Max,这是一款专为长时间自主代理任务设计的专有模型。在基准测试中,它匹配了Claude Opus 4.6,并击败了DeepSeek V4 Pro和Kimi K2.6等中国竞争对手。团队还演示了该模型操控四足机器人。该模型曾自主运行35小时,优化其自有定制芯片的代码,展示了强大的长期任务执行能力。

NVIDIA Research 发布 LongLive-2.0:长视频生成系统方案

X·KOLX:NVIDIA AI (@NVIDIAAI)

NVIDIA Research 推出 LongLive-2.0,一个端到端的 NVFP4 训练与推理系统,专门解决长视频生成问题。该系统将 NVFP4 感知训练、蒸馏和 W4A4 推理对齐,弥补了低精度部署中训练与运行之间的差距。在保持基准质量的同时,显著提升了速度和内存效率。这标志着长视频生成从模型问题转向系统问题,为实际部署提供了更高效的方案。

MTP 技术让 Qwen 在 Atomic Chat 中提速 2.5 倍

X·KOLX:@atomic_chat_hq (@atomic_chat_hq)

Atomic Chat 团队通过 Multi-Token Prediction (MTP) 技术,在 2 块 RTX 5090 上对 Qwen 模型实现了最高 2.5 倍的推理加速。其中,Qwen3.6 27B 密集模型从 51 tps 提升至 117 tps(+137%),而 MoE 模型 35B-A3B 从 218 tps 提升至 267 tps(+25%)。MTP 通过一次前向传播验证多个预测 token,显著减少了内存带宽瓶颈,密集模型受益更大。该技术保持零精度损失,仅需额外约 1 GB 显存,且代码已开源。

微软 Fara1.5 浏览器 AI 智能体模型发布,72% 任务成功率超 OpenAI Operator

官方IT之家

微软研究院推出 Fara1.5 系列浏览器 AI 智能体模型,包含 4B、9B 和 27B 三个参数版本。该模型通过读取浏览器截图并输出鼠标键盘操作来完成网页任务,采用“观察—思考—行动”循环。在 Online-Mind2Web 基准测试中,Fara1.5-27B 以 72% 的任务成功率超越 OpenAI Operator(58.3%)和 Gemini 2.5 Computer Use(57.3%)。模型基于 Qwen3.5 微调,使用约 200 万条样本训练,并在安全方面设计了主动询问机制。配套的 MagenticLite 沙盒浏览器提供了安全边界。

02

产品发布/更新

Product
5

Anthropic 披露 Glasswing 首月成果:AI 发现超 1 万个漏洞

官方IT之家

Anthropic 在 Project Glasswing 项目上线一个月后,宣布其 Claude Mythos Preview 模型已与约 50 家合作伙伴合作,在关键软件中发现超过 1 万个高危和关键漏洞。该模型将部分团队的漏洞发现速度提升超过 10 倍,当前瓶颈已从发现转向验证和修补。Cloudflare 在关键系统中发现 2000 个漏洞,误报率优于人工;Mozilla 在 Firefox 150 中修复 271 个漏洞,是之前的 10 倍。外部评测中,Mythos Preview 成为首个端到端攻破两个网络攻防靶场的模型。针对开源软件,已扫描 1000 多个项目,发现 23019 个漏洞,其中 1587 个经人工复核确认为真实漏洞,真实率达 90.6%。

OpenAI Appshots 让 Mac 窗口一键成为 Codex 上下文

X·KOLX:Decoder (@Jonathan Kemper)

OpenAI 为编程助手 Codex 推出了新功能 Appshots,Mac 用户可以通过快捷键将任意应用窗口的内容发送给 Codex,作为任务上下文。这解决了开发者需要手动复制粘贴代码或文档的痛点,提升了编程效率。Appshots 目前仅支持 Mac 平台,用户可自定义快捷键,并选择窗口内容(如代码编辑器、终端或浏览器)。该功能旨在让 Codex 更自然地融入开发工作流,减少上下文切换。

Cursor SDK 发布:用 Composer 2.5 构建自定义智能体,支持 Python/TypeScript

X·KOLX:Cursor (@cursor_ai)

Cursor 宣布推出 Cursor SDK,允许开发者使用 Composer 2.5 构建自己的智能体。该 SDK 现已支持 Python 和 TypeScript,并且在这个长周末期间,Composer 的使用费用享受 90% 折扣。这意味着开发者可以低成本地利用 Cursor 的底层能力,快速搭建定制化的 AI 编程助手或自动化工作流。Cursor 团队表示期待看到社区的创意应用。

Perplexity 开源 Bumblebee:只读供应链扫描器

X·KOLX:marktechpost (@Asif Razzaq)

Perplexity 开源了内部安全工具 Bumblebee,用于保护其搜索产品 Comet 和 Computer 的开发者系统。Bumblebee 是一个只读的资产清单收集器,适用于 macOS 和 Linux 开发者端点。它扫描 npm、PyPI、Go 模块、MCP 配置、编辑器扩展和浏览器扩展,无需调用任何包管理器或运行任何代码。该工具帮助开发者在不影响系统的情况下发现供应链风险。

FinSight:开源AI股票研究代理,支持证据溯源与RAG评估

X·KOLX:Geek (@geekbb)

FinSight 是一个开源的 AI 股票研究代理系统,能够将公告、财报、研究笔记和市场数据转化为有证据支撑的回答和版本化的研究报告。它提供证据溯源报告、工作流编排和 RAG 评估能力,帮助投资者和研究人员高效获取可信的金融信息。该系统通过模块化设计支持自定义工作流,并内置评估机制确保检索增强生成的质量。对于需要快速、透明地分析大量金融文档的团队,FinSight 提供了一个可部署的开源解决方案。

03

行业动态

Industry
5

AI 找漏洞加速,但修复链路成瓶颈:Anthropic 发现超 1 万高危漏洞

X·KOLX:岚叔 (@lufzzliz)

Anthropic 发布 Project Glasswing 更新,显示 AI 在漏洞发现上取得突破:与 50 个合作伙伴用 Claude Mythos Preview 发现超 1 万个高危/严重漏洞,Cloudflare 扫出 400 个高危,Mozilla 修复 Firefox 150 中 271 个漏洞。AI 也能快速生成补丁,Claude Security 三周内帮企业修了 2100 多个漏洞。但真正的瓶颈在于从发现到部署的整条链路——复现、确认、写补丁、合并、发版、用户升级等环节仍按人类速度运转。开源生态尤其脆弱,维护者被 AI 生成的低质量报告淹没,甚至要求放慢披露。这导致一个尴尬窗口期:漏洞发现和攻击学习加速,但修复部署跟不上。长期看 AI 将提升软件安全,但短期需要更高吞吐量的漏洞处理系统。

Linus Torvalds 称 AI 开发即便再强,也不代表你能少动脑

官方IT之家

Linus Torvalds 在 Linux 基金会北美开源峰会上指出,AI 编码工具已显著改变 Linux 内核开发节奏,最近两个版本的提交量比常态高出约 20%。他认为 AI 降低了贡献门槛,但也放大了社区协作中的沟通、评审和分发压力,真正的瓶颈是社会性问题而非技术。他还提到 Linux 内核安全邮件列表被 AI 生成的重复漏洞报告淹没,维护者需花费大量时间处理。Torvalds 反对“99% 代码由 AI 编写”的说法,强调开发者仍需理解代码和系统,AI 只是效率工具,不会改变编程的根本。

Agentic AI 可能让 CPU 重回计算核心,OpenAI 高管也这么说

X·KOLX:rohanpaul_ai (@rohanpaul_ai)

Ark Invest CEO Cathie Wood 引用 OpenAI 首席财务官 Sarah Friar 的观点,指出随着 Agentic AI 的兴起,市场对 GPU 的追逐可能忽略了 CPU 的重要性。Agentic AI 的工作模式涉及规划、工具调用、内存检查、文件检索、代码编写和数据库查询等复杂任务,这些任务需要大量通用计算,而 CPU 在这些场景下比 GPU 更高效。这可能导致计算架构从以 GPU 为中心转向 CPU 与 GPU 协同,改变硬件投资方向。

内存短缺导致消费电子产品重新定价

官方Simon Willison’s Weblog

内存制造商(仅剩三家大公司)的晶圆产能固定,需分配给DDR(台式机/服务器)、LPDDR(手机/低功耗设备)和HBM(GPU用)。AI数据中心对HBM的需求激增,其晶圆分配比例从2%预计升至2026年底的20%,且每GB HBM消耗的晶圆容量是DDR或LPDDR的三倍以上。内存公司因历史教训倾向于保守扩产,导致消费设备RAM生产受限。这已影响100美元以下智能手机市场,尤其对非洲和南亚地区冲击明显。未来几年,使用内存的消费电子产品价格将显著上涨。

国家数据局召开词元经济座谈会,阿里云、腾讯、月之暗面等参会

官方IT之家

5月22日,国家数据局局长刘烈宏主持召开词元经济座谈会,邀请阿里云、腾讯、月之暗面等企业及高校专家,围绕“推动词元经济健康可持续发展”展开讨论。词元(Token)作为AI服务的最小运算单元,正成为计量、结算和统计单位。国家数据局将把词元经济纳入工作体系,以高质量数据集和算力网建设为着力点,推动数据要素市场化配置改革。截至2026年3月,我国日均词元调用量达140万亿次,较2024年初增长千倍。官方已明确Token的中文翻译为“词元”。

04

论文研究

Research
5

Nous Research 发布 CNA:无需 SAE 训练或权重修改的稀疏 MLP 电路操控方法

X·KOLX:marktechpost (@Asif Razzaq)

Nous Research 推出了 Contrastive Neuron Attribution (CNA),一种无需稀疏自编码器训练或权重修改即可识别并消融稀疏 MLP 神经元电路的方法,用于操控大语言模型的行为。CNA 通过对比分析激活模式,定位影响特定行为的神经元子集,然后直接抑制这些神经元,从而改变模型输出,且不降低通用能力基准。该方法解决了现有电路操控技术依赖复杂训练或权重修改的问题,为模型行为调控提供了更轻量、高效的方案。

Meta 论文:编码智能体通过复用尝试摘要大幅提升性能

X·KOLX:rohanpaul_ai (@rohanpaul_ai)

Meta 最新论文发现,编码智能体在复用过去尝试的简短摘要(而非原始日志)时,性能显著提升。研究表明,更强的编码智能体不仅需要更多尝试,更需要更好的记忆方式。论文提出将每次完整尝试转化为紧凑摘要,包含主要猜测、部分进展和失败点,然后利用这些摘要选择最佳尝试并指导新尝试。在 SWE-Bench Verified 基准上,Claude 4.5 Opus 从 70.9% 提升至 77.6%,在 Terminal-Bench v2.0 上从 46.9% 提升至 59.1%。核心结论是:长编码任务的测试时扩展瓶颈不在于生成更多尝试,而在于以智能体可复用的形式存储经验。

Google DeepMind 新论文:AI 在 Lean 中搜索形式化数学证明

X·KOLX:rohanpaul_ai (@rohanpaul_ai)

Google DeepMind 发表新论文,展示 AI 系统 AlphaProof Nexus 能在形式化数学证明中进行搜索,但仅限于精心约束的世界。该系统使用 Lean 证明检查器,让 LLM 不断编辑形式化证明、读取编译器错误并重试,同时维护共享的局部证明池来指导搜索。在测试中,该系统解决了 9 个 Erdős 问题和 44 个序列猜想,并协助优化、图论、代数几何和量子光学领域的问题。失败案例同样有启示性,揭示了 LLM 在数学推理中隐藏错误的方式。该工作并非实现完全数学自主,而是建立了人机协作的新分工:人类选择问题,模型提出路径,证明助手严格验证。

论文:智能体性能更依赖“控制层”而非提示词

X·KOLX:rohanpaul_ai (@rohanpaul_ai)

一篇新论文指出,AI智能体的真实行为更多来自其外围的“控制层”(harness),而非模型本身或提示词。该控制层负责规划、工具调用、记忆、重试、验证和停止等逻辑,而许多智能体将这一层隐藏在代码中,导致问题难以调试。论文提出“自然语言智能体控制层”概念,用结构化自然语言表达这些逻辑,使其可检查、可移植、可测试。在SWE-bench上的实验表明,增加控制层结构会显著改变智能体行为,但并非总是带来性能提升。

Google SensorFM:万亿分钟穿戴数据训练的基础模型

X·KOLX:rohanpaul_ai (@rohanpaul_ai)

Google 发表新论文,提出 SensorFM,一个基于 500 万人超过 1 万亿分钟未标记穿戴传感器数据训练的基础模型。该模型旨在学习人类生理活动的通用模式,而非仅处理孤立事件。SensorFM 在 35 项预测任务中的 34 项上超越了传统特征工程方法,涵盖心血管、代谢、心理健康、睡眠和生活方式等领域。研究表明,穿戴数据的价值在于先学习其内在结构,而非过早压缩为粗略摘要。

98
今日事件
27
一手报道
11
新模型
50
信源
AITOP · 编辑系统自动生成