NVIDIA Nemotron-Labs扩散语言模型实现光速文本生成
NVIDIA 发布了 Nemotron-Labs 扩散语言模型,该模型采用扩散机制替代传统的自回归生成方式,大幅提升文本生成速度,接近光速。与 GPT-4 等模型相比,Nemotron-Labs 在保持生成质量的同时,推理速度提升了一个数量级。该模型在多个基准测试中表现出色,尤其适合需要低延迟的实时应用场景。这一突破可能改变大语言模型的部署范式,让文本生成更接近实时交互。
NVIDIA 发布了 Nemotron-Labs 扩散语言模型,该模型采用扩散机制替代传统的自回归生成方式,大幅提升文本生成速度,接近光速。与 GPT-4 等模型相比,Nemotron-Labs 在保持生成质量的同时,推理速度提升了一个数量级。该模型在多个基准测试中表现出色,尤其适合需要低延迟的实时应用场景。这一突破可能改变大语言模型的部署范式,让文本生成更接近实时交互。
阿里巴巴Qwen团队发布Qwen3.7-Max,这是一款专为长时间自主代理任务设计的专有模型。在基准测试中,它匹配了Claude Opus 4.6,并击败了DeepSeek V4 Pro和Kimi K2.6等中国竞争对手。团队还演示了该模型操控四足机器人。该模型曾自主运行35小时,优化其自有定制芯片的代码,展示了强大的长期任务执行能力。
NVIDIA Research 推出 LongLive-2.0,一个端到端的 NVFP4 训练与推理系统,专门解决长视频生成问题。该系统将 NVFP4 感知训练、蒸馏和 W4A4 推理对齐,弥补了低精度部署中训练与运行之间的差距。在保持基准质量的同时,显著提升了速度和内存效率。这标志着长视频生成从模型问题转向系统问题,为实际部署提供了更高效的方案。
Atomic Chat 团队通过 Multi-Token Prediction (MTP) 技术,在 2 块 RTX 5090 上对 Qwen 模型实现了最高 2.5 倍的推理加速。其中,Qwen3.6 27B 密集模型从 51 tps 提升至 117 tps(+137%),而 MoE 模型 35B-A3B 从 218 tps 提升至 267 tps(+25%)。MTP 通过一次前向传播验证多个预测 token,显著减少了内存带宽瓶颈,密集模型受益更大。该技术保持零精度损失,仅需额外约 1 GB 显存,且代码已开源。
微软研究院推出 Fara1.5 系列浏览器 AI 智能体模型,包含 4B、9B 和 27B 三个参数版本。该模型通过读取浏览器截图并输出鼠标键盘操作来完成网页任务,采用“观察—思考—行动”循环。在 Online-Mind2Web 基准测试中,Fara1.5-27B 以 72% 的任务成功率超越 OpenAI Operator(58.3%)和 Gemini 2.5 Computer Use(57.3%)。模型基于 Qwen3.5 微调,使用约 200 万条样本训练,并在安全方面设计了主动询问机制。配套的 MagenticLite 沙盒浏览器提供了安全边界。
Anthropic 在 Project Glasswing 项目上线一个月后,宣布其 Claude Mythos Preview 模型已与约 50 家合作伙伴合作,在关键软件中发现超过 1 万个高危和关键漏洞。该模型将部分团队的漏洞发现速度提升超过 10 倍,当前瓶颈已从发现转向验证和修补。Cloudflare 在关键系统中发现 2000 个漏洞,误报率优于人工;Mozilla 在 Firefox 150 中修复 271 个漏洞,是之前的 10 倍。外部评测中,Mythos Preview 成为首个端到端攻破两个网络攻防靶场的模型。针对开源软件,已扫描 1000 多个项目,发现 23019 个漏洞,其中 1587 个经人工复核确认为真实漏洞,真实率达 90.6%。
OpenAI 为编程助手 Codex 推出了新功能 Appshots,Mac 用户可以通过快捷键将任意应用窗口的内容发送给 Codex,作为任务上下文。这解决了开发者需要手动复制粘贴代码或文档的痛点,提升了编程效率。Appshots 目前仅支持 Mac 平台,用户可自定义快捷键,并选择窗口内容(如代码编辑器、终端或浏览器)。该功能旨在让 Codex 更自然地融入开发工作流,减少上下文切换。
Cursor 宣布推出 Cursor SDK,允许开发者使用 Composer 2.5 构建自己的智能体。该 SDK 现已支持 Python 和 TypeScript,并且在这个长周末期间,Composer 的使用费用享受 90% 折扣。这意味着开发者可以低成本地利用 Cursor 的底层能力,快速搭建定制化的 AI 编程助手或自动化工作流。Cursor 团队表示期待看到社区的创意应用。
Perplexity 开源了内部安全工具 Bumblebee,用于保护其搜索产品 Comet 和 Computer 的开发者系统。Bumblebee 是一个只读的资产清单收集器,适用于 macOS 和 Linux 开发者端点。它扫描 npm、PyPI、Go 模块、MCP 配置、编辑器扩展和浏览器扩展,无需调用任何包管理器或运行任何代码。该工具帮助开发者在不影响系统的情况下发现供应链风险。
FinSight 是一个开源的 AI 股票研究代理系统,能够将公告、财报、研究笔记和市场数据转化为有证据支撑的回答和版本化的研究报告。它提供证据溯源报告、工作流编排和 RAG 评估能力,帮助投资者和研究人员高效获取可信的金融信息。该系统通过模块化设计支持自定义工作流,并内置评估机制确保检索增强生成的质量。对于需要快速、透明地分析大量金融文档的团队,FinSight 提供了一个可部署的开源解决方案。
Anthropic 发布 Project Glasswing 更新,显示 AI 在漏洞发现上取得突破:与 50 个合作伙伴用 Claude Mythos Preview 发现超 1 万个高危/严重漏洞,Cloudflare 扫出 400 个高危,Mozilla 修复 Firefox 150 中 271 个漏洞。AI 也能快速生成补丁,Claude Security 三周内帮企业修了 2100 多个漏洞。但真正的瓶颈在于从发现到部署的整条链路——复现、确认、写补丁、合并、发版、用户升级等环节仍按人类速度运转。开源生态尤其脆弱,维护者被 AI 生成的低质量报告淹没,甚至要求放慢披露。这导致一个尴尬窗口期:漏洞发现和攻击学习加速,但修复部署跟不上。长期看 AI 将提升软件安全,但短期需要更高吞吐量的漏洞处理系统。
Linus Torvalds 在 Linux 基金会北美开源峰会上指出,AI 编码工具已显著改变 Linux 内核开发节奏,最近两个版本的提交量比常态高出约 20%。他认为 AI 降低了贡献门槛,但也放大了社区协作中的沟通、评审和分发压力,真正的瓶颈是社会性问题而非技术。他还提到 Linux 内核安全邮件列表被 AI 生成的重复漏洞报告淹没,维护者需花费大量时间处理。Torvalds 反对“99% 代码由 AI 编写”的说法,强调开发者仍需理解代码和系统,AI 只是效率工具,不会改变编程的根本。
Ark Invest CEO Cathie Wood 引用 OpenAI 首席财务官 Sarah Friar 的观点,指出随着 Agentic AI 的兴起,市场对 GPU 的追逐可能忽略了 CPU 的重要性。Agentic AI 的工作模式涉及规划、工具调用、内存检查、文件检索、代码编写和数据库查询等复杂任务,这些任务需要大量通用计算,而 CPU 在这些场景下比 GPU 更高效。这可能导致计算架构从以 GPU 为中心转向 CPU 与 GPU 协同,改变硬件投资方向。
内存制造商(仅剩三家大公司)的晶圆产能固定,需分配给DDR(台式机/服务器)、LPDDR(手机/低功耗设备)和HBM(GPU用)。AI数据中心对HBM的需求激增,其晶圆分配比例从2%预计升至2026年底的20%,且每GB HBM消耗的晶圆容量是DDR或LPDDR的三倍以上。内存公司因历史教训倾向于保守扩产,导致消费设备RAM生产受限。这已影响100美元以下智能手机市场,尤其对非洲和南亚地区冲击明显。未来几年,使用内存的消费电子产品价格将显著上涨。
5月22日,国家数据局局长刘烈宏主持召开词元经济座谈会,邀请阿里云、腾讯、月之暗面等企业及高校专家,围绕“推动词元经济健康可持续发展”展开讨论。词元(Token)作为AI服务的最小运算单元,正成为计量、结算和统计单位。国家数据局将把词元经济纳入工作体系,以高质量数据集和算力网建设为着力点,推动数据要素市场化配置改革。截至2026年3月,我国日均词元调用量达140万亿次,较2024年初增长千倍。官方已明确Token的中文翻译为“词元”。
Nous Research 推出了 Contrastive Neuron Attribution (CNA),一种无需稀疏自编码器训练或权重修改即可识别并消融稀疏 MLP 神经元电路的方法,用于操控大语言模型的行为。CNA 通过对比分析激活模式,定位影响特定行为的神经元子集,然后直接抑制这些神经元,从而改变模型输出,且不降低通用能力基准。该方法解决了现有电路操控技术依赖复杂训练或权重修改的问题,为模型行为调控提供了更轻量、高效的方案。
Meta 最新论文发现,编码智能体在复用过去尝试的简短摘要(而非原始日志)时,性能显著提升。研究表明,更强的编码智能体不仅需要更多尝试,更需要更好的记忆方式。论文提出将每次完整尝试转化为紧凑摘要,包含主要猜测、部分进展和失败点,然后利用这些摘要选择最佳尝试并指导新尝试。在 SWE-Bench Verified 基准上,Claude 4.5 Opus 从 70.9% 提升至 77.6%,在 Terminal-Bench v2.0 上从 46.9% 提升至 59.1%。核心结论是:长编码任务的测试时扩展瓶颈不在于生成更多尝试,而在于以智能体可复用的形式存储经验。
Google DeepMind 发表新论文,展示 AI 系统 AlphaProof Nexus 能在形式化数学证明中进行搜索,但仅限于精心约束的世界。该系统使用 Lean 证明检查器,让 LLM 不断编辑形式化证明、读取编译器错误并重试,同时维护共享的局部证明池来指导搜索。在测试中,该系统解决了 9 个 Erdős 问题和 44 个序列猜想,并协助优化、图论、代数几何和量子光学领域的问题。失败案例同样有启示性,揭示了 LLM 在数学推理中隐藏错误的方式。该工作并非实现完全数学自主,而是建立了人机协作的新分工:人类选择问题,模型提出路径,证明助手严格验证。
一篇新论文指出,AI智能体的真实行为更多来自其外围的“控制层”(harness),而非模型本身或提示词。该控制层负责规划、工具调用、记忆、重试、验证和停止等逻辑,而许多智能体将这一层隐藏在代码中,导致问题难以调试。论文提出“自然语言智能体控制层”概念,用结构化自然语言表达这些逻辑,使其可检查、可移植、可测试。在SWE-bench上的实验表明,增加控制层结构会显著改变智能体行为,但并非总是带来性能提升。
Google 发表新论文,提出 SensorFM,一个基于 500 万人超过 1 万亿分钟未标记穿戴传感器数据训练的基础模型。该模型旨在学习人类生理活动的通用模式,而非仅处理孤立事件。SensorFM 在 35 项预测任务中的 34 项上超越了传统特征工程方法,涵盖心血管、代谢、心理健康、睡眠和生活方式等领域。研究表明,穿戴数据的价值在于先学习其内在结构,而非过早压缩为粗略摘要。