AITOP 日报｜2026年5月23日｜Qwen3.7-Max自主编码35小时，AI智能体时代加速

模型发布/更新

Model Releases

5 篇

NVIDIA Nemotron-Labs扩散语言模型实现光速文本生成

官方Hugging Face: Blog原文 ↗

NVIDIA 发布了 Nemotron-Labs 扩散语言模型，该模型采用扩散机制替代传统的自回归生成方式，大幅提升文本生成速度，接近光速。与 GPT-4 等模型相比，Nemotron-Labs 在保持生成质量的同时，推理速度提升了一个数量级。该模型在多个基准测试中表现出色，尤其适合需要低延迟的实时应用场景。这一突破可能改变大语言模型的部署范式，让文本生成更接近实时交互。

阿里Qwen3.7-Max自主运行35小时优化芯片代码

X·KOLX：Decoder (@Jonathan Kemper)原文 ↗

阿里巴巴Qwen团队发布Qwen3.7-Max，这是一款专为长时间自主代理任务设计的专有模型。在基准测试中，它匹配了Claude Opus 4.6，并击败了DeepSeek V4 Pro和Kimi K2.6等中国竞争对手。团队还演示了该模型操控四足机器人。该模型曾自主运行35小时，优化其自有定制芯片的代码，展示了强大的长期任务执行能力。

NVIDIA Research 发布 LongLive-2.0：长视频生成系统方案

X·KOLX：NVIDIA AI (@NVIDIAAI)原文 ↗

NVIDIA Research 推出 LongLive-2.0，一个端到端的 NVFP4 训练与推理系统，专门解决长视频生成问题。该系统将 NVFP4 感知训练、蒸馏和 W4A4 推理对齐，弥补了低精度部署中训练与运行之间的差距。在保持基准质量的同时，显著提升了速度和内存效率。这标志着长视频生成从模型问题转向系统问题，为实际部署提供了更高效的方案。

MTP 技术让 Qwen 在 Atomic Chat 中提速 2.5 倍

X·KOLX：@atomic_chat_hq (@atomic_chat_hq)原文 ↗

Atomic Chat 团队通过 Multi-Token Prediction (MTP) 技术，在 2 块 RTX 5090 上对 Qwen 模型实现了最高 2.5 倍的推理加速。其中，Qwen3.6 27B 密集模型从 51 tps 提升至 117 tps（+137%），而 MoE 模型 35B-A3B 从 218 tps 提升至 267 tps（+25%）。MTP 通过一次前向传播验证多个预测 token，显著减少了内存带宽瓶颈，密集模型受益更大。该技术保持零精度损失，仅需额外约 1 GB 显存，且代码已开源。

微软 Fara1.5 浏览器 AI 智能体模型发布，72% 任务成功率超 OpenAI Operator

官方IT之家原文 ↗

微软研究院推出 Fara1.5 系列浏览器 AI 智能体模型，包含 4B、9B 和 27B 三个参数版本。该模型通过读取浏览器截图并输出鼠标键盘操作来完成网页任务，采用“观察—思考—行动”循环。在 Online-Mind2Web 基准测试中，Fara1.5-27B 以 72% 的任务成功率超越 OpenAI Operator（58.3%）和 Gemini 2.5 Computer Use（57.3%）。模型基于 Qwen3.5 微调，使用约 200 万条样本训练，并在安全方面设计了主动询问机制。配套的 MagenticLite 沙盒浏览器提供了安全边界。

产品发布/更新

Product

5 篇

Anthropic 披露 Glasswing 首月成果：AI 发现超 1 万个漏洞

官方IT之家原文 ↗

Anthropic 在 Project Glasswing 项目上线一个月后，宣布其 Claude Mythos Preview 模型已与约 50 家合作伙伴合作，在关键软件中发现超过 1 万个高危和关键漏洞。该模型将部分团队的漏洞发现速度提升超过 10 倍，当前瓶颈已从发现转向验证和修补。Cloudflare 在关键系统中发现 2000 个漏洞，误报率优于人工；Mozilla 在 Firefox 150 中修复 271 个漏洞，是之前的 10 倍。外部评测中，Mythos Preview 成为首个端到端攻破两个网络攻防靶场的模型。针对开源软件，已扫描 1000 多个项目，发现 23019 个漏洞，其中 1587 个经人工复核确认为真实漏洞，真实率达 90.6%。

OpenAI Appshots 让 Mac 窗口一键成为 Codex 上下文

X·KOLX：Decoder (@Jonathan Kemper)原文 ↗

OpenAI 为编程助手 Codex 推出了新功能 Appshots，Mac 用户可以通过快捷键将任意应用窗口的内容发送给 Codex，作为任务上下文。这解决了开发者需要手动复制粘贴代码或文档的痛点，提升了编程效率。Appshots 目前仅支持 Mac 平台，用户可自定义快捷键，并选择窗口内容（如代码编辑器、终端或浏览器）。该功能旨在让 Codex 更自然地融入开发工作流，减少上下文切换。

Cursor SDK 发布：用 Composer 2.5 构建自定义智能体，支持 Python/TypeScript

X·KOLX：Cursor (@cursor_ai)原文 ↗

Cursor 宣布推出 Cursor SDK，允许开发者使用 Composer 2.5 构建自己的智能体。该 SDK 现已支持 Python 和 TypeScript，并且在这个长周末期间，Composer 的使用费用享受 90% 折扣。这意味着开发者可以低成本地利用 Cursor 的底层能力，快速搭建定制化的 AI 编程助手或自动化工作流。Cursor 团队表示期待看到社区的创意应用。

Perplexity 开源 Bumblebee：只读供应链扫描器

X·KOLX：marktechpost (@Asif Razzaq)原文 ↗

Perplexity 开源了内部安全工具 Bumblebee，用于保护其搜索产品 Comet 和 Computer 的开发者系统。Bumblebee 是一个只读的资产清单收集器，适用于 macOS 和 Linux 开发者端点。它扫描 npm、PyPI、Go 模块、MCP 配置、编辑器扩展和浏览器扩展，无需调用任何包管理器或运行任何代码。该工具帮助开发者在不影响系统的情况下发现供应链风险。

FinSight：开源AI股票研究代理，支持证据溯源与RAG评估

X·KOLX：Geek (@geekbb)原文 ↗

FinSight 是一个开源的 AI 股票研究代理系统，能够将公告、财报、研究笔记和市场数据转化为有证据支撑的回答和版本化的研究报告。它提供证据溯源报告、工作流编排和 RAG 评估能力，帮助投资者和研究人员高效获取可信的金融信息。该系统通过模块化设计支持自定义工作流，并内置评估机制确保检索增强生成的质量。对于需要快速、透明地分析大量金融文档的团队，FinSight 提供了一个可部署的开源解决方案。

行业动态

Industry

5 篇

AI 找漏洞加速，但修复链路成瓶颈：Anthropic 发现超 1 万高危漏洞

X·KOLX：岚叔 (@lufzzliz)原文 ↗

Anthropic 发布 Project Glasswing 更新，显示 AI 在漏洞发现上取得突破：与 50 个合作伙伴用 Claude Mythos Preview 发现超 1 万个高危/严重漏洞，Cloudflare 扫出 400 个高危，Mozilla 修复 Firefox 150 中 271 个漏洞。AI 也能快速生成补丁，Claude Security 三周内帮企业修了 2100 多个漏洞。但真正的瓶颈在于从发现到部署的整条链路——复现、确认、写补丁、合并、发版、用户升级等环节仍按人类速度运转。开源生态尤其脆弱，维护者被 AI 生成的低质量报告淹没，甚至要求放慢披露。这导致一个尴尬窗口期：漏洞发现和攻击学习加速，但修复部署跟不上。长期看 AI 将提升软件安全，但短期需要更高吞吐量的漏洞处理系统。

Linus Torvalds 称 AI 开发即便再强，也不代表你能少动脑

官方IT之家原文 ↗

Linus Torvalds 在 Linux 基金会北美开源峰会上指出，AI 编码工具已显著改变 Linux 内核开发节奏，最近两个版本的提交量比常态高出约 20%。他认为 AI 降低了贡献门槛，但也放大了社区协作中的沟通、评审和分发压力，真正的瓶颈是社会性问题而非技术。他还提到 Linux 内核安全邮件列表被 AI 生成的重复漏洞报告淹没，维护者需花费大量时间处理。Torvalds 反对“99% 代码由 AI 编写”的说法，强调开发者仍需理解代码和系统，AI 只是效率工具，不会改变编程的根本。

Agentic AI 可能让 CPU 重回计算核心，OpenAI 高管也这么说

X·KOLX：rohanpaul_ai (@rohanpaul_ai)原文 ↗

Ark Invest CEO Cathie Wood 引用 OpenAI 首席财务官 Sarah Friar 的观点，指出随着 Agentic AI 的兴起，市场对 GPU 的追逐可能忽略了 CPU 的重要性。Agentic AI 的工作模式涉及规划、工具调用、内存检查、文件检索、代码编写和数据库查询等复杂任务，这些任务需要大量通用计算，而 CPU 在这些场景下比 GPU 更高效。这可能导致计算架构从以 GPU 为中心转向 CPU 与 GPU 协同，改变硬件投资方向。

内存短缺导致消费电子产品重新定价

官方Simon Willison’s Weblog原文 ↗

内存制造商（仅剩三家大公司）的晶圆产能固定，需分配给DDR（台式机/服务器）、LPDDR（手机/低功耗设备）和HBM（GPU用）。AI数据中心对HBM的需求激增，其晶圆分配比例从2%预计升至2026年底的20%，且每GB HBM消耗的晶圆容量是DDR或LPDDR的三倍以上。内存公司因历史教训倾向于保守扩产，导致消费设备RAM生产受限。这已影响100美元以下智能手机市场，尤其对非洲和南亚地区冲击明显。未来几年，使用内存的消费电子产品价格将显著上涨。

国家数据局召开词元经济座谈会，阿里云、腾讯、月之暗面等参会

官方IT之家原文 ↗

5月22日，国家数据局局长刘烈宏主持召开词元经济座谈会，邀请阿里云、腾讯、月之暗面等企业及高校专家，围绕“推动词元经济健康可持续发展”展开讨论。词元（Token）作为AI服务的最小运算单元，正成为计量、结算和统计单位。国家数据局将把词元经济纳入工作体系，以高质量数据集和算力网建设为着力点，推动数据要素市场化配置改革。截至2026年3月，我国日均词元调用量达140万亿次，较2024年初增长千倍。官方已明确Token的中文翻译为“词元”。

论文研究

Research

5 篇

Nous Research 发布 CNA：无需 SAE 训练或权重修改的稀疏 MLP 电路操控方法

X·KOLX：marktechpost (@Asif Razzaq)原文 ↗

Nous Research 推出了 Contrastive Neuron Attribution (CNA)，一种无需稀疏自编码器训练或权重修改即可识别并消融稀疏 MLP 神经元电路的方法，用于操控大语言模型的行为。CNA 通过对比分析激活模式，定位影响特定行为的神经元子集，然后直接抑制这些神经元，从而改变模型输出，且不降低通用能力基准。该方法解决了现有电路操控技术依赖复杂训练或权重修改的问题，为模型行为调控提供了更轻量、高效的方案。

Meta 论文：编码智能体通过复用尝试摘要大幅提升性能

X·KOLX：rohanpaul_ai (@rohanpaul_ai)原文 ↗

Meta 最新论文发现，编码智能体在复用过去尝试的简短摘要（而非原始日志）时，性能显著提升。研究表明，更强的编码智能体不仅需要更多尝试，更需要更好的记忆方式。论文提出将每次完整尝试转化为紧凑摘要，包含主要猜测、部分进展和失败点，然后利用这些摘要选择最佳尝试并指导新尝试。在 SWE-Bench Verified 基准上，Claude 4.5 Opus 从 70.9% 提升至 77.6%，在 Terminal-Bench v2.0 上从 46.9% 提升至 59.1%。核心结论是：长编码任务的测试时扩展瓶颈不在于生成更多尝试，而在于以智能体可复用的形式存储经验。

Google DeepMind 新论文：AI 在 Lean 中搜索形式化数学证明

X·KOLX：rohanpaul_ai (@rohanpaul_ai)原文 ↗

Google DeepMind 发表新论文，展示 AI 系统 AlphaProof Nexus 能在形式化数学证明中进行搜索，但仅限于精心约束的世界。该系统使用 Lean 证明检查器，让 LLM 不断编辑形式化证明、读取编译器错误并重试，同时维护共享的局部证明池来指导搜索。在测试中，该系统解决了 9 个 Erdős 问题和 44 个序列猜想，并协助优化、图论、代数几何和量子光学领域的问题。失败案例同样有启示性，揭示了 LLM 在数学推理中隐藏错误的方式。该工作并非实现完全数学自主，而是建立了人机协作的新分工：人类选择问题，模型提出路径，证明助手严格验证。

论文：智能体性能更依赖“控制层”而非提示词

X·KOLX：rohanpaul_ai (@rohanpaul_ai)原文 ↗

一篇新论文指出，AI智能体的真实行为更多来自其外围的“控制层”（harness），而非模型本身或提示词。该控制层负责规划、工具调用、记忆、重试、验证和停止等逻辑，而许多智能体将这一层隐藏在代码中，导致问题难以调试。论文提出“自然语言智能体控制层”概念，用结构化自然语言表达这些逻辑，使其可检查、可移植、可测试。在SWE-bench上的实验表明，增加控制层结构会显著改变智能体行为，但并非总是带来性能提升。

Google SensorFM：万亿分钟穿戴数据训练的基础模型

X·KOLX：rohanpaul_ai (@rohanpaul_ai)原文 ↗

Google 发表新论文，提出 SensorFM，一个基于 500 万人超过 1 万亿分钟未标记穿戴传感器数据训练的基础模型。该模型旨在学习人类生理活动的通用模式，而非仅处理孤立事件。SensorFM 在 35 项预测任务中的 34 项上超越了传统特征工程方法，涵盖心血管、代谢、心理健康、睡眠和生活方式等领域。研究表明，穿戴数据的价值在于先学习其内在结构，而非过早压缩为粗略摘要。

今日事件

一手报道

新模型

信源