NVIDIA 发布 Cosmos 3:双塔 MoT 基础模型统一物理推理与生成
NVIDIA 发布了 Cosmos 3,这是一款开源的“全模态世界模型”,采用双塔混合 Transformer 架构,将自回归 VLM 推理器与扩散生成器结合。该模型能够统一物理推理、世界生成和动作生成,为物理 AI 提供基础能力。Cosmos 3 旨在让机器人、自动驾驶等系统更好地理解物理世界并生成合理动作。其开源特性有望加速物理 AI 领域的研究与应用开发。
NVIDIA 发布了 Cosmos 3,这是一款开源的“全模态世界模型”,采用双塔混合 Transformer 架构,将自回归 VLM 推理器与扩散生成器结合。该模型能够统一物理推理、世界生成和动作生成,为物理 AI 提供基础能力。Cosmos 3 旨在让机器人、自动驾驶等系统更好地理解物理世界并生成合理动作。其开源特性有望加速物理 AI 领域的研究与应用开发。
微软发布了 MAI-Thinking-1,这是其自研推理模型系列的首个成果。该模型采用 1T 总参数的混合专家架构,每次推理仅激活 35B 参数,在 AIME 2025 上达到 97.0%,LiveCodeBench v6 上 87.7%,SWE-Bench Pro 上 52.8%。微软称其训练流程为“爬山机器”,通过持续优化数据、训练、奖励和安全测试形成闭环。预训练基于 30T 主要人工生成 token,避免使用第三方模型蒸馏,随后通过强化学习提升数学、编程、工具使用和安全能力。这标志着微软在推理模型领域建立了完整的自研能力。
MiniMax-M3 是一款结合了 1M 上下文窗口、原生多模态能力和 MiniMax 稀疏注意力机制的新模型。Together 的推理和内核团队通过 KV-block-major 稀疏注意力、分页 MSA 解码、优化索引评分以及 GPU 工作前的多模态预处理,将常见智能体流量下的吞吐量提升了 81-125%。该模型在长上下文和多模态任务上表现出色,适合需要处理大量信息和多种数据类型的应用场景。
智元机器人开源了行业首个聚焦物理交互的具身数据集 AGIBOT WORLD 2026 第二期“多样交互”。该数据集系统记录了机器人与真实物理世界之间的复杂、高密度、非理想交互过程,旨在补齐当前世界模型训练中缺失的真实物理交互数据。它将具身智能的数据范式从“学习成功动作”推进到“理解完整的物理分布”,对世界模型、神经仿真器、物理感知等研究至关重要。目前数据集已在 Hugging Face 开放下载。
中国开源世界模型 Boundless 在全球排行榜上超越 Google、NVIDIA 等巨头的产品,成为第一名。世界模型是能理解和模拟物理现实的 AI 系统,对机器人、自动驾驶等领域至关重要。Boundless 的开源特性降低了研究门槛,让更多团队能参与开发。这一突破显示中国在 AI 基础模型领域的竞争力正在增强。
在Build 2026大会上,英伟达与微软宣布深度合作,展示从Windows设备到Azure云及本地部署的统一加速计算栈,为AI智能体提供端到端支撑。双方推出RTX Spark个人智能体PC平台和DGX Station for Windows桌面级AI超级计算机,并发布Nemotron 3 Ultra等开放模型。微软Fabric数据仓库集成英伟达加速计算,SQL执行速度最高提升6倍。此外,微软位于费尔沃特的AI工厂提前上线,运行数十万套英伟达Grace Blackwell系统,并已对Vera Rubin平台完成验证。
微软推出开源框架 ASSERT,能将自然语言写成的行为规范自动转换为可执行的评估流程,包括生成测试场景、数据集、评估指标和计分卡。该框架通过四个阶段工作:细化行为规范、生成分层测试用例、运行测试并记录轨迹、对照行为分类评分。验证显示,ASSERT 生成的测试集覆盖更广,能暴露更多失败模式,与人工审核一致率达 80%-90%。该框架适用于行为定义明确的场景,旨在让评估更快速、明确和易于迭代。
Nous Research 发布了 Hermes Desktop,这是 Hermes Agent v0.15.2 的原生跨平台桌面前端。它提供无终端 GUI,与 Hermes Agent CLI 共享同一智能体核心、技能和记忆,并支持流式工具输出。该工具旨在让用户更直观地操作智能体,无需依赖命令行。对于偏好图形界面的开发者和研究者来说,这是一个重要的易用性改进。
TinyFish 发布了开源多智能体系统 BigSet,用户只需用自然语言描述数据集需求,系统便会自动从实时网络中搜索并返回结构化表格。BigSet 由编排器和并行子智能体组成,能够高效处理复杂的数据收集任务。这一工具大幅降低了数据获取的门槛,对需要快速构建定制化数据集的开发者和研究人员意义重大。BigSet 完全开源,可直接部署使用。
Refortifai 推出 Atrisa,一款专为模拟电路设计打造的 AI 智能体。Atrisa 能够对电路进行分层推理,根据规格找到合适的拓扑结构,并进行深度调试,同时考虑寄生效应、物理布局、可复用性和干扰。它支持用户导入现有的 PDK、设计文档和工具包,并自动理解和适配。这标志着 AI 在模拟芯片设计这一高难度领域迈出了重要一步。
随着AI智能体和大型语言模型推动数据中心流量爆炸式增长,GPU之间的通信链路成为关键瓶颈。在当代AI集群中,GPU等待数据的时间往往超过实际计算时间。Co-Packaged Optics(共封装光学)技术通过将光学引擎与交换芯片直接集成,有望大幅降低功耗、提升带宽密度并缩短延迟。该技术被视为AI数据中心互连架构的下一代骨干,预计将在2026年6月左右迎来商业化部署。
GitHub COO 在访谈中透露,AI 智能体正在推动 GitHub 从代码托管平台向智能体协作平台进化。Copilot 将从自动补全扩展到 CLI、桌面、云智能体和环境工作流。GitHub Actions 已成为 CI/CD 和自动化的计算层。当 80% 的 PR 来自智能体时,信任将成为开源的新瓶颈。GitHub 正在为智能体编写、审查和部署代码的世界做准备。
微软在Build 2026大会上推出Agent Control Specification(ACS)开源标准,旨在统一和细化AI智能体的行为控制。ACS允许开发、合规和安全团队共同制定策略规则,明确智能体允许或禁止的操作、需人工审批的行为及审计记录。该规范在智能体工作流的多个阶段(如输入接收前、工具调用前后、回复前)执行策略检查,支持允许、阻止、脱敏或人工审批等操作。ACS以单一文件定义策略,可随智能体跨框架迁移,并已支持LangChain、OpenAI Agents SDK、Anthropic Agents SDK、AutoGen、CrewAI、Semantic Kernel及MCP等主流框架。这解决了当前控制机制分散、难以审计和复用的问题,为AI智能体在企业级部署中的安全性和合规性提供了标准化方案。
Moffett AI 发文批评当前 AI 硬件行业“堆算力”的惯性思维,认为万亿参数模型并不总是需要同等规模的昂贵基础设施。他们提出,推理成本优化应聚焦于“匹配任务需求”,避免过度配置。文章以“别用大炮打蚊子”比喻,强调针对不同场景选择合适算力,而非一味追求高端 GPU。这一观点挑战了 NVIDIA 主导的高性能硬件路线,为中小企业和边缘计算场景提供了更经济的 AI 部署思路。
天风国际分析师郭明錤评论英伟达 RTX Spark 处理器,认为其核心看点在于黄仁勋提出的“重新发明 PC”口号和端侧 AI 智能体工作流概念。该概念涵盖操作系统、云端与本地大模型切换、智能体框架等,但并非英伟达原创。郭明錤指出,RTX Spark 在未来2年内仍属于利基市场,目标用户是对端侧 AI 算力有需求的重度用户,而非大众市场。软件生态是关键,英伟达需让 CUDA Toolkit 支持 Windows Arm64,微软也需推进本机 AI 智能体架构商用化。苹果在 WWDC 上对端侧 AI 智能体的回应将是重要观察点。
自主科学正从演示走向基础设施,但每个系统都需从头构建推理智能体与物理仪器间的连接,面临碎片化SDK和面向确定性客户端而非概率性智能体的标准。现有协议如MCP(智能体-工具)和A2A(智能体-智能体)未覆盖智能体-仪器边缘,该边缘涉及状态化、安全关键、独占、物理实体操作及带单位、校准和不确定性的测量结果。本文提出实验室智能体协议(LAP),填补这一空白。LAP保留A2A的点对点、发现优先、任务生命周期结构,并新增四个物理世界原语:仪器卡(能力与物理限制描述)、预留(独占锁定)、安全围栏握手(操作员确认令牌绑定任务参数)和测量结果模式(物理类型化、校准锚定、带不确定性)。LAP与A2A/MCP生态传输兼容,封装而非替代现有设备标准如SiLA 2和OPC-UA。
Muon优化器在大语言模型训练中表现出色,但其动量机制的理论作用一直不明确。本文通过将动量视为一种频谱滤波器,证明了在信号加扰动的梯度模型下,动量能有效抑制扰动并保留主导信号,从而扩大两者间的频谱间隙。这种间隙的扩大稳定了传递给Muon正交化步骤的矩阵的奇异子空间,使更新更可靠。实验表明,先应用动量再进行正交化比反向顺序或移除动量能更好地对齐梯度信号。该理论为理解其他基于矩阵的优化器中动量的作用提供了起点。
解耦式LLM推理中,KV缓存需在解码前穿越数据中心网络,导致传输时间直接计入首令牌延迟(TTFT)。现有调度器仅考虑计算负载和前缀缓存局部性,忽略了预填充与解码实例间的拓扑距离和动态拥塞。NetKV通过引入网络成本预言机,证明了忽略网络项会导致缓存感知调度在上下文长度增长时性能任意次优。在64 GPU四层胖树模拟器上,NetKV将平均TTFT降低21.2%,SLO达标率提升20.1个百分点,且每令牌时间开销低于0.5毫秒。该方法无需修改传输层、推理引擎或硬件。
AlignAtt4LLM 是 IWSLT 2026 同声传译任务的参赛系统,支持英语到德语、意大利语和中文的实时翻译。它采用同步级联架构:Qwen3-ASR 通过强制对齐生成逐步更新的源文本,Gemma-4 E4B-it 在 MT 侧使用 AlignAtt 策略进行翻译。这是首次将 AlignAtt 应用于纯解码器 LLM,解决了缺少编码器-解码器交叉注意力的问题,通过显式源跨度提示、离线选择翻译专用注意力头、选择性 qk-fast replay 和运行时查询/键捕获实现。在 IWSLT 2026 开发集上,该系统在低延迟(约2秒)和高延迟(低于4秒)场景下,对欧洲目标语言(英译德、英译意)均优于基线,对英译中结果较复杂,但方法不限于 Gemma-4,可复用于更强的翻译解码器 LLM。
随着计算资源增长快于高质量文本供给,多轮训练成为新常态,但单模型在几轮后即饱和。论文提出“超时代预训练”(q0),将多轮预算转化为多样模型群体并聚合预测,达到比单模型更低的验证损失。q0包含三个核心原语:反相关学习率与权重衰减的循环调度、链式蒸馏、以及基于学习先验的模型选择与加权。在1.8B参数模型、100M FineWeb tokens上,q0仅用约56轮就匹配了256轮强集成基线,效率提升约4.6倍,在Slowrun设置下累积数据效率达12.9倍。该方法还给出了不同预算下的最优分配策略,从单轮到最大预算均可适用。
开发者 Santiago 分享了一个 Claude Code 的使用技巧:当上下文利用率超过 60% 时,模型性能会下降,且自动压缩可能丢失重要信息。他建议通过 /statusline 命令实时监控上下文百分比,并在超过阈值时手动运行 /compact 命令,附带提示词指定保留内容(如项目描述和变更指令)。这样能更精准地控制上下文压缩,避免关键信息丢失。
Puget Systems 发布了针对内容创作场景的内存容量性能测试报告,对比 16GB、32GB 和 64GB 内存对 Lightroom Classic、Photoshop、After Effects、Premiere 和 DaVinci Resolve 等软件的影响。测试平台为 AMD Ryzen 9 9950X3D 和 RTX 5080。结论是 16GB 会严重拖慢 Lightroom Classic(性能低 45%)和 After Effects(低 43%),32GB 适合轻量创作,64GB 是多数专业创作者的甜点容量。Photoshop 和 Premiere 对内存相对不敏感,但复杂项目仍需更大内存。
一位用户惊叹于 LLM 带来的学习速度与广度,认为它让任何人都能随时学习自己领域的前沿知识。这种能力既可以让人贬低智力或沮丧,也可以让人成为在小房间里就能掌握前沿的普通人。自学从未如此普及和高效。