全部 AI 动态 · AI 热点

6月2日

13:44

13:44IT之家（博客/媒体）

精选72°

JetBrains 于 6 月 1 日开源了 Mellum2 模型，这是其面向软件工程系统的新一代机器学习模型。相比原版 Mellum，Mellum2 从代码补全模型升级为完整的编码助手，上下文窗口从 8192 Token 扩展到 131072 Token。该模型总参数为 12B，采用稀疏混合专家框架，激活时参数量为 2.5B，在标准硬件上仍能保持较快计算。Mellum2 支持代码生成与编辑、外部工具调用、多步骤智能体工作流和长对话维持，定位在 AI 工作负载路由、低延迟 RAG 管线、复杂工作流中的子智能体以及私有本地 AI 部署。JetBrains 已开源基础版、指令版和思考版，开发者可在 Apache 2.0 许可证下使用。

推荐理由：JetBrains 把自家 IDE 的 AI 能力下放给社区了——做 JetBrains 插件开发或自建 AI 编程管线的团队，可以直接用 Mellum2 跑本地智能体工作流，省去自己训练和调优的麻烦。

原文

12:55

阶跃星辰 Stepfun@Stepfun_AI

精选

StepFun 的 Step 3.7 Flash 模型通过 MFA 和 AFD 技术，从设计之初就注重效率，而非事后优化。这些技术显著降低了 KV-cache 成本，使模型运行更经济高效。Fireworks AI 提供了便捷的一键部署支持，开发者可以快速上手。该模型特别适合构建智能体应用，体现了“效率优先”的设计哲学。

AI模型 Step 3.7 Flash KV-cache 效率优化智能体 Fireworks AI

推荐理由：Step 3.7 Flash 通过原生效率设计解决了 KV-cache 成本痛点，做智能体应用的开发者可以直接用 Fireworks AI 一键部署，值得试试。

原文

12:10

Latent.Space@latentspacepod

精选

Ethan He 在 Latent Space 播客中分享了对视频生成、世界模型、LLM、智能体和持续学习的看法。他认为视频模型的大部分智能来自语言而非视频数据，idea-to-code 的速度已经很快，瓶颈在于计算资源。他强调迭代速度在模型开发中几乎压倒一切，下一个飞跃将是视频智能体而非更好的视频模型。他还预测扩散模型将成为 AGI 的前端，LLM 作为后端，生成式 UI 将取代 HTML/CSS，物理具身可能成为强大 AI 的工具。

AI模型视频生成世界模型智能体扩散模型 LLM

推荐理由：Ethan He 对 AI 前沿的预判直击要害，做视频生成、智能体或世界模型的开发者看完会有启发——尤其是关于迭代速度和智能体方向的洞察，值得点开细品。

原文

10:36

Skywork@Skywork_ai

精选

Skywork 宣布其模型 Opus 4.8 升级，主要提升了两项能力：长文档分析速度更快，能从密集文件中快速提取关键信息而不拖慢工作流；跨域多步推理能力增强，能更精准地规划、决策和执行复杂任务。这标志着 Skywork 在文档处理与复杂推理场景的实用化迈出一步，适合需要处理大量文档或进行多步骤推理的用户。

AI模型 Opus 4.8 Skywork 长文档分析多步推理模型升级

推荐理由：做文档密集型工作或复杂推理的团队，可以关注 Opus 4.8 带来的速度与精准度提升，值得一试。

原文

10:36

Skywork@Skywork_ai

88°

AI模型 Claude Opus 4.8 推理模型 Skywork Anthropic 模型更新

推荐理由：Claude Opus 4.8 的更强推理能力对需要高精度判断的开发者（如代码审查、逻辑分析）是直接利好，Skywork 用户现在就能体验，建议试试。

原文

10:35

Harrison Chase@hwchase17

精选76°

MiniMax 正式发布 M3 模型，这是首个同时具备编码、智能体能力和原生多模态的开放权重模型。在 SWE-Bench Pro 上达到 59.0%，Terminal Bench 2.1 为 66.0%，并支持 1M 上下文窗口。模型权重和技术报告将在约 10 天后公开。开发者可通过 API 和专属代码平台 code.minimax.io 使用。

AI模型 MiniMax M3 开源模型编码能力智能体

推荐理由：MiniMax M3 把编码、智能体和多模态三合一开源，做 AI 应用和 Agent 开发的团队可以直接拿来用，尤其适合需要长上下文和复杂任务自动化的场景。

原文

10:30

shao__meng@shao__meng

Claude Opus 4.8 在基准测试、诚实度和长任务处理上优于 4.7，但作者认为这种进步对用户来说并不构成真正的改变，只是 4.7 的升级版。对于已经在用 Opus 4.7 的用户，切换到 4.8 是自然的选择，但不会吸引 GPT-5.5 或 DeepSeek 的用户迁移。作者指出，除非 Opus 5 有重大突破，否则难以撼动现有格局。

AI模型 Claude Opus 4.8 模型对比升级 Benchmark 用户迁移

推荐理由：如果你在用 Opus 4.7，升级到 4.8 是顺理成章的事；但如果你是 GPT 或 DeepSeek 用户，这次更新不值得你切换。做模型选型的团队可以看看这篇冷静分析，避免被 Benchmark 数字带偏。

原文

10:20

elvis@omarsar0

精选

受 Karpathy 关于 LLM 知识库的帖子启发，作者认为微调模型以优化智能体技能、记忆、上下文工程、路由效率和知识库将变得非常重要。这一方向可能改变 AI 系统的实用性和效率，尤其对构建复杂智能体的开发者有深远影响。作者还分享了一篇相关阅读链接，供进一步探讨。

AI模型微调智能体知识库上下文工程路由效率

推荐理由：Karpathy 的洞察点出了微调在智能体系统中的关键作用，做 AI 智能体开发的团队值得关注这一趋势，建议点开原文看看具体思路。

原文

10:04

Browser Use@browser_use

Minimax M3 模型在 BU Bench 基准测试中取得了显著进步，相比之前版本提升了 26%。该测试使用 browsercode 方法评估模型在浏览器自动化任务上的表现。目前 M3 的性能已与 Claude 4.6-sonnet 和 Gemini 3.5 flash 等主流模型持平。这一结果表明 Minimax 在浏览器智能体领域取得了重要突破，为未来进一步优化奠定了基础。

AI模型 Minimax M3 BU Bench 浏览器自动化智能体模型评测

推荐理由：做浏览器自动化或智能体开发的团队值得关注——Minimax M3 用 26% 的提升证明自己已跻身第一梯队，可以直接拿来对比测试。

原文

09:51

Julien Chaumond@julien_c

精选

阿里巴巴 Qwen 团队发布 Qwen3.7-Plus，一个多模态智能体模型，统一了视觉和语言能力。该模型支持多模态交互式混合智能体，可同时处理 GUI 和 CLI 操作，具备视觉感知、推理、定位和搜索增强问答能力。它还能作为全能编码助手和生产力工具，接受全模态输入。Qwen3.7-Plus 现已通过阿里云模型服务 API 提供，开发者可直接尝试。

AI模型 Qwen 多模态智能体开源/仓库阿里云

推荐理由：多模态智能体模型将视觉与语言统一，做自动化操作和智能体开发的团队可以直接用 API 试，省去自己拼接多模型的工作。

原文

09:44

Pandaily@contact@pandaily.com (Pandaily)

精选

Deep Principle 发布了 MPA（Materials Property Axiom），一个用于材料科学的 AI 基础模型。该模型借鉴了大语言模型的训练技术，在 40 项真实工业任务上取得了最先进的结果。MPA 能够预测材料属性，加速新材料发现和设计过程，有望在电池、半导体、合金等领域产生重大影响。这标志着 AI 在材料科学领域的应用迈出了重要一步。

AI模型材料科学基础模型 MPA Deep Principle 工业应用

推荐理由：材料科学家和工业研发团队终于有了一个强大的 AI 工具，MPA 在 40 项工业任务上达到 SOTA，能大幅缩短材料筛选周期，做新材料开发的团队值得关注。

原文

09:44

Pandaily@contact@pandaily.com (Pandaily)

精选

阿里巴巴通义千问团队正式推出Qwen-VLA，这是其首个面向具身智能的视觉-语言-动作模型，标志着阿里进入物理世界AI竞赛。该模型整合了视觉理解、语言推理和动作执行能力，旨在让机器人或智能体在真实环境中完成复杂任务。Qwen-VLA的发布意味着阿里在AI领域的布局从纯数字世界扩展到物理交互，与特斯拉、英伟达等公司形成竞争。此举可能加速具身智能在工业、服务等场景的落地。

AI模型具身智能视觉-语言-动作模型阿里千问 Qwen-VLA 机器人

推荐理由：阿里千问首次将大模型能力延伸到物理世界，做机器人或具身智能的开发者值得关注——Qwen-VLA可能降低机器人编程门槛，让AI直接驱动动作执行。

原文

09:32

阿里通义 Qwen@Alibaba_Qwen

83°

阿里 Qwen 团队正式推出 Qwen3.7-Plus，这是一款将视觉与语言能力统一的多模态智能体模型。它支持多模态交互混合智能体，可同时处理 GUI 和 CLI 操作；具备全模态输入的编程助手与生产力工具能力；视觉方面涵盖感知、推理、定位和搜索增强问答。该模型在多种智能体框架上表现出跨框架泛化能力，现已通过阿里云 Model Studio API 开放使用。

AI模型多模态智能体 Qwen3.7-Plus 阿里云 API

推荐理由：做多模态应用或智能体开发的团队可以直接用 API 试——一个模型搞定看、想、写、做，省去多模型拼接的麻烦。

原文

08:23

Guillermo Rauch@rauchg

76°

MiniMax M3 在 Next.js 智能体评测中成为领先的开源模型，性能仅次于 Opus 和 GPT-5，但成本低 10 倍。这是 MiniMax 首个支持多模态输入的长上下文模型。Vercel 宣布 M3 已上线 AI Gateway，并提供一周 50% 折扣。开发者可以以极低成本获得接近顶级模型的智能体能力。

AI模型 MiniMax M3 开源模型智能体 Next.js 多模态

推荐理由：做 Next.js 智能体开发的团队终于有了高性价比的开源选择——M3 性能接近 Opus 但成本仅 1/10，Vercel 用户现在就能用上，建议立刻试试。

原文

08:14

岚叔@lufzzliz

AI模型 Qwen3.7-Plus 多模态 Agent 工具调用性价比

推荐理由：Qwen3.7-Plus 把多模态 Agent 的实用门槛又拉低了一截，做自动化工作流或 GUI 操作的开发者可以直接关注，性价比和功能覆盖都很能打。

原文

08:13

岚叔@lufzzliz

用户对Qwen3.7-Plus进行了10项测评任务，整体完成度尚可。新加入的测评任务中，倒计时功能出现圈与数字分离的瑕疵，粒子引力场存在页面卡顿bug，拟物相机任务与SOTA模型差距明显，洗车问题相比Qwen3.6-Plus出现倒退。完整测评结果已公开。

AI模型 Qwen3.7-Plus 模型测评通义千问 SOTA差距任务测试

推荐理由：Qwen3.7-Plus在多项任务中表现尚可，但新任务暴露了与SOTA模型的差距，关注通义千问系列进展的开发者可以看看具体哪些场景翻车了。

原文

07:56

Fireworks AI@FireworksAI_HQ

精选76°

StepFun 发布 Step 3.7 Flash，一个 196B 参数的 MoE 模型，从设计之初就针对推理效率进行优化。它采用多矩阵分解注意力（MFA）技术，KV-cache 仅为 DeepSeek 的约 22%，并通过注意力-FFN 解耦（AFD）实现硬件优化的服务。模型在 ClawEval-1.1、SimpleVQA Search 等基准测试中排名第一，支持 400 TPS 的推理速度，256K 上下文窗口，并具备三种推理级别。它专为智能体、编程、搜索和多模态工作流设计，支持本地运行（如 Mac Studio M4 Max），并采用 Apache 2.0 许可证开放权重。

AI模型 Step 3.7 Flash MoE 推理效率 MFA Apache 2.0

推荐理由：Step 3.7 Flash 把推理效率从模型设计阶段就考虑进去，做智能体或搜索应用的团队可以直接在 Fireworks 上试用，成本可能比 DeepSeek 低很多。

原文

06:41

06:41IT之家（博客/媒体）

精选

阿里千问大模型推出 Qwen3.7-Plus，定位为多模态交互混合智能体，在保留文本、编码、工具使用等能力基础上，强化了视觉理解、视觉推理和跨模态任务处理。该模型支持图像、视频、屏幕、网页和文本输入，可在 GUI、CLI 和工具环境中完成复杂软件与办公流程。在 Vision Arena 评测中，阿里凭借该模型进入全球前 5、中国第 1，多模态测试在 BabyVision、MathVision 等基准上提升明显。模型已通过阿里云百炼和 Qwen Studio 提供服务。

AI模型 Qwen3.7-Plus 多模态智能体阿里千问视觉理解

推荐理由：Qwen3.7-Plus 把视觉与语言统一到智能体基座，做多模态应用或办公自动化的团队可以直接在百炼上试，能省掉不少模型拼接的麻烦。

原文

04:47

marktechpost@Asif Razzaq

78°

MiniMax 正式发布新一代大模型 MiniMax M3，采用自研的 MiniMax Sparse Attention（MSA）架构，支持高达 100 万 token 的超长上下文窗口。该模型原生支持图像、视频理解以及计算机使用（computer use）能力，并具备智能体编程（agentic coding）功能。MSA 架构通过稀疏注意力机制显著降低长序列计算成本，使得处理百万级 token 成为可能。这标志着国产大模型在长上下文和多模态融合方面迈出了重要一步，为复杂文档分析、视频理解和自动化编程等场景提供了新的基础设施。

AI模型 MiniMax M3 MSA架构长上下文多模态智能体编程

推荐理由：MiniMax M3 的 1M 上下文和原生多模态能力直接解决了长文档分析和视频理解的痛点，做 RAG 应用或自动化编程的团队值得关注其 agentic coding 特性。

原文

01:54

阿里通义 Qwen@Alibaba_Qwen

精选

Qwen3.7-Plus在文本基准测试中展现出竞争力，整体表现逼近Max级别模型。该结果来自Qwen官方发布的性能1测试。目前尚无具体基准和分数细节。

AI模型 Qwen3.7-Plus Qwen Alibaba 文本基准

推荐理由：Qwen新模型性能追平高端

原文

01:41

Decoder@Matthias Bastian

76°

图灵奖得主Richard Sutton指出，传统生成式AI的核心缺陷在于无法评估自身结果，因此无法实现真正的科学发现。他认为，没有内置评估循环，AI产生的创新只是昙花一现，无法积累。相比之下，AlphaGo和AlphaProof等系统通过内置评估机制展现了真正的创造力。Sutton的观点挑战了当前大语言模型在科学研究中的主导地位，强调评估能力是AI实现科学突破的关键。

AI模型生成式AI 科学发现评估循环 AlphaGo Richard Sutton

推荐理由：Sutton戳中了生成式AI的致命短板——没有自我评估能力，做科研的团队和AI开发者值得深思：你的模型真的能推动科学发现吗？

原文

00:45

Patrick Loeber@patloeber

精选

Google 于 6 月 1 日正式停用 Gemini 2.0 Flash 和 Gemini 2.0 Flash-Lite 两款模型。官方推荐用户迁移至 Gemini 3.5 Flash 和 Gemini 3.1 Flash-Lite。此次调整不涉及其他 Gemini 版本。

AI模型 Gemini 2.0 Flash Gemini 3.5 Flash Google 模型升级

推荐理由：旧模型退役，快换新版本

原文

00:33

00:33Hugging Face: Blog（博客/媒体）

精选72°

JetBrains 发布了 Mellum2，一个 12B 参数的混合专家（MoE）模型，专为代码生成和软件工程任务优化。该模型在 HumanEval 和 SWE-bench 等基准测试中表现优异，超越了同等规模的模型。Mellum2 基于 JetBrains 的代码数据训练，旨在为开发者提供更高效、更准确的代码补全和生成能力。该模型现已开源，可在 Hugging Face 上获取。

AI模型 JetBrains Mellum2 MoE 代码生成开源/仓库

推荐理由：JetBrains 的 Mellum2 为 IDE 内代码生成带来了更精准的 MoE 方案，用 JetBrains 全家桶的开发者可以直接在 Hugging Face 上体验，看看它能否提升你的编码效率。

原文

00:27

rohanpaul_ai@rohanpaul_ai

精选76°

Nvidia 将在几天内发布 Nemotron 3 Ultra 模型。该模型采用混合状态空间模型（SSM）与混合专家（MoE）架构，SSM 部分专为长序列设计，使模型能够更长时间地保持推理或使用工具，而不会被常规注意力机制的计算成本压垮。黄仁勋在 NVIDIA GTC Taipei 2026 上宣布了此消息。

AI模型 Nemotron 3 Ultra Nvidia SSM MoE 长序列推理

推荐理由：Nemotron 3 Ultra 的混合 SSM+MoE 架构解决了长序列推理的高成本痛点，做长上下文应用或工具调用的开发者值得关注，可以直接期待其发布。

原文

00:17

Paul Couvert@itsPaulAi

83°

MiniMax 发布开源权重模型 M3，在 SWE-Bench Pro 上达到 59.0%，与 GPT-5.5 持平，并在多项编码基准上与 Opus 4.7 不相上下。M3 还支持 1M 上下文、原生多模态，使用成本仅为 GPT 和 Opus 的十分之一。权重和技术报告将在约 10 天后在 Hugging Face 开放。这标志着开源模型首次在多个前沿能力上追平闭源顶级模型，对 AI 开发者和企业用户意义重大。

AI模型开源/仓库推理模型编程助手 MiniMax M3

推荐理由：开源模型首次在编码和智能体任务上追平 GPT-5.5 和 Opus，成本却低一个数量级。做 AI 应用开发或自建模型的团队，值得关注权重发布后直接试用。

原文

6月1日

21:50

Decoder@Jonathan Kemper

78°

中国AI公司MiniMax发布了新模型M3，号称是首个结合顶级编码性能、百万token上下文窗口和原生多模态能力的开源权重模型。该模型在多项基准测试中表现优异，尤其在长上下文任务和代码生成方面，直接挑战GPT-4、Claude等闭源模型。M3的开源特性使得开发者可以自由部署和微调，降低了使用门槛。这一发布标志着开源模型在关键能力上正快速追赶闭源方案。

AI模型 MiniMax M3 开源模型百万token上下文多模态

推荐理由：百万token上下文+开源权重，做长文档处理或代码分析的团队可以直接部署，不用再被闭源API的token计费卡脖子。

原文

21:50

Decoder@Maximilian Schreiner

基准测试平台 Artificial Analysis 显示，Nvidia 的 Nemotron 3 Ultra 是目前美国最强大的开源 AI 模型，在多项指标上超越此前领先的 Llama 3 等模型。然而，该模型在整体性能上仍落后于中国开源模型如 DeepSeek 和 Qwen，表明中国在开源 AI 领域的领先地位依然稳固。这一进展凸显了美国在开源模型竞争中的追赶态势，但中国模型在推理、多模态等关键能力上仍保持优势。

AI模型 Nvidia Nemotron 3 Ultra 开源模型模型对比中国领先

推荐理由：Nvidia 终于拿出了美国最强的开源模型，但中国开源模型依然领先，做模型选型和对比的开发者值得关注这一格局变化。

原文

18:53

岚叔@lufzzliz

精选76°

MiniMax 发布新一代旗舰模型 M3，面向 coding agent、长上下文和多模态任务。M3 支持 1M 上下文，核心技术创新是 MiniMax Sparse Attention (MSA)，通过稀疏注意力将 KV 分块并精确选取相关块，大幅降低长上下文计算成本。在 1M 上下文下，每 token 计算量仅为上一代的 1/20，prefill 提速 9 倍以上，decode 提速 15 倍以上。M3 支持文本、图片、视频输入，将长上下文、工具调用、多模态理解和持续执行能力整合，明确押注 agentic coding 场景。

AI模型 MiniMax-M3 稀疏注意力长上下文 Agentic Coding 多模态

推荐理由：M3 的稀疏注意力解决了长上下文推理的成本痛点，做 coding agent 和自动化任务的开发者可以直接关注——1M 上下文下计算量骤降 95%，意味着更长的任务链也能跑得动。

原文

18:24

berryxia@berryxia

精选76°

KwaiKeye 在 Hugging Face 开源了多模态模型 Keye VL 2.0-30B-A3B，总参数 30B 但活跃参数仅 3B，采用 Apache 2.0 协议。模型通过 DeepSeek 稀疏注意力实现 256K 上下文，视频理解能力随输入帧数增加而准确率上升，打破长视频导致模型迷失的直觉。在多个长视频基准上，其表现与 Qwen3 VL 和 Gemini 3 Flash 相当。该模型证明了稀疏注意力可同时兼顾长上下文和深度理解，是多模态领域的重要进展。

AI模型多模态模型稀疏注意力开源/仓库视频理解 KwaiKeye

推荐理由：做视频理解或多模态应用的开发者，终于有了一个长上下文和深度理解兼得的开源模型，建议直接去 Hugging Face 下载试试。

原文

15:16

pandaily@contact@pandaily.com (Pandaily)

精选83°

MiniMax 发布了其旗舰模型 M3，声称这是国内首个将前沿编码、智能体能力、100 万 token 上下文窗口和原生多模态处理整合在单一架构中的 AI 模型。M3 模型在多项基准测试中表现出色，尤其在长文本理解和复杂任务执行方面。该模型支持同时处理文本、图像、音频等多种输入，并具备强大的代码生成和工具调用能力。MiniMax 表示 M3 旨在为开发者和企业提供更高效、更全面的 AI 解决方案。

AI模型 MiniMax M3 多模态长上下文智能体

推荐理由：MiniMax M3 将 1M 上下文、多模态和智能体能力打包进一个模型，做长文本处理或多模态应用的开发者可以直接用它替代多个模型组合，省心又高效。

原文

15:07

NVIDIA AI@NVIDIAAI

精选

NVIDIA 宣布其 Cosmos 3 模型完全开源，包括模型权重和训练配方。该模型已在 Hugging Face 上发布，供开发者自由使用。此举延续了 NVIDIA 在 AI 领域开放生态的策略，旨在推动更多创新应用。Cosmos 3 的开放将加速研究者和工程师在视觉、语言等多模态任务上的探索。

AI模型开源/仓库多模态模型 NVIDIA Cosmos 3 Hugging Face

推荐理由：NVIDIA 把 Cosmos 3 的权重和训练配方全开源了，做多模态研究的团队可以直接下载使用，省去从头训练的算力成本，值得点开看看。

原文

15:06

NVIDIA AI@NVIDIAAI

精选

NVIDIA AI 发布了一个基于数十亿跨模态样本训练的多模态预训练模型，旨在为开发者提供强大的基础模型，用于构建物理AI系统。该模型能显著减少所需的数据量和训练成本，使开发者能够更高效地开发机器人、自动驾驶等物理AI应用。NVIDIA 在技术博客中详细介绍了该模型的架构和性能优势。

AI模型 NVIDIA 多模态模型预训练模型物理AI 机器人

推荐理由：做物理AI（如机器人、自动驾驶）的开发者终于有了一个强大的预训练基础，能大幅降低数据收集和训练成本，建议直接查看技术博客了解细节。

原文

15:05

NVIDIA AI@NVIDIAAI

93°

NVIDIA 宣布推出 Cosmos 3，号称全球首个完全开放的全能模型，原生支持视觉推理、世界生成和动作生成。该模型提供 Super（32B）和 Nano（8B）两个版本，面向物理 AI 领域的研究与开发。Cosmos 3 的开源特性有望加速机器人、自动驾驶等物理世界交互系统的训练与部署，降低开发者门槛。

AI模型物理AI 开源/仓库视觉推理世界生成 NVIDIA

推荐理由：做机器人或自动驾驶的团队终于有了一个全开源的物理世界模型——Cosmos 3 原生支持视觉推理和动作生成，32B 和 8B 两个版本覆盖不同算力场景，值得直接上手试试。

原文

14:50

歸藏(guizang.ai)@op7418

精选76°

MiniMax 正式发布大版本模型升级 MiniMax M3，核心亮点包括标配 1M 超长上下文、采用新的 MSA（MoE with Segment-wise Attention）稀疏注意力架构，以及从训练起就融合了文本、图片、视频和桌面操作的原生多模态能力。MSA 架构在 100 万上下文下每 token 计算量仅为上一代的约 1/20，大幅提升可落地性。API 价格同步更新，小于 512k 的 API 限时五折（7 天）。模型权重和技术报告将在约 10 天后开源。

AI模型 MiniMax M3 长上下文稀疏注意力多模态 API

推荐理由：MiniMax M3 把长上下文、稀疏注意力和多模态融合做到了一个模型里，而且计算效率大幅提升，做 Agent 开发、多模态应用或长文档处理的团队可以直接用 API 试试，价格也很友好。

原文

14:33

14:33Hugging Face: Blog（博客/媒体）

83°

NVIDIA 发布了 Cosmos 3，这是首个开源的物理 AI 全能模型，能够同时进行推理和行动。该模型基于多模态输入（如视觉、语言）理解物理世界，并生成可执行的动作序列。Cosmos 3 在机器人、自动驾驶等需要物理交互的领域具有重大意义，因为它将感知、推理和行动整合在一个模型中。NVIDIA 在 Hugging Face 上开源了该模型，开发者可以直接使用或微调。

AI模型物理 AI 开源/仓库 NVIDIA 机器人自动驾驶

推荐理由：做机器人或自动驾驶的开发者终于有了一个开源的物理世界理解模型，能直接推理并生成动作，省去多模型拼接的麻烦，值得立即上手试试。

原文

13:59

13:59IT之家（博客/媒体）

88°

英伟达发布全球首款全开源全模态物理AI大模型Cosmos 3，基于混合Transformer架构，融合视觉推理、世界生成与动作预测能力。该模型可原生理解并生成文本、图像、视频、环境音效及动作内容，物理仿真精度业界领先，能将训练与评估周期从数月缩短至数日。英伟达同时发起Cosmos联盟，联合多家机构推动世界模型技术发展。Cosmos 3提供Super、Nano、Edge三个版本，分别面向机器人/自动驾驶训练、快速推理和边缘端实时推理。

AI模型英伟达 Cosmos 3 物理AI 全模态开源

推荐理由：英伟达把物理AI的门槛打下来了——全开源、全模态、训练周期从月缩到天，做机器人、自动驾驶或视觉AI的团队可以直接拿来用，省掉从头造轮子的成本。

原文

13:05

13:05IT之家（博客/媒体）

精选76°

英伟达发布 Alpamayo 2 Super，一款 320 亿参数的视觉-语言-动作（VLA）开源模型，专为 L4 自动驾驶研发设计。该模型具备类人感知、推理与行动能力，支持全车环视感知和元动作输出，可免去企业从零搭建核心基础设施。英伟达同步推出 AlpaGym 闭环强化学习平台、OmniDreams 世界模型等工具，打通从数据采集到车载部署的全流程。模型定位为教师模型，可通过知识蒸馏部署在 DRIVE AGX Thor 芯片上，已获比亚迪、吉利等车企采用。推理代码预计夏季开源。

AI模型英伟达 Alpamayo 2 Super 自动驾驶开源模型 VLA模型

推荐理由：英伟达把自动驾驶模型参数翻了三倍，还开源了全套工具链，做 L4 研发的团队可以直接省掉从零搭建的环节，建议关注夏季开源代码。

原文

12:50

12:50IT之家（博客/媒体）

精选78°

英伟达发布 Nemotron 3 Ultra 开源模型，拥有 5500 亿参数，采用混合专家架构，专为全天候运行的自主智能体设计。该模型在推理速度上较同级别前沿模型最高提升 5 倍，使用成本降低 30%，并已适配 Hermes Agent、LangChain 等主流智能体平台。同时推出安全防护和语音识别模型，增强企业级智能体能力。CrowdStrike 和 Palantir 已将其用于网络安全和业务流程自动化。模型将于 6 月 4 日通过 Hugging Face 等平台以 NIM 微服务形式开放。

AI模型英伟达 Nemotron 3 Ultra 开源模型智能体混合专家模型

推荐理由：英伟达把大模型推理速度和成本同时优化了，做智能体开发或企业自动化的团队可以直接用上，比现有开源方案更高效省钱，值得关注。

原文

12:36

marktechpost@Asif Razzaq

精选

Parallax是一种新型参数化局部线性注意力（LLA）机制，通过学习投影器替换逐查询求解器，将算术强度提升至原来的两倍。在0.6B和1.7B参数规模的语言模型上，Parallax显著降低了困惑度。该方法在保留原始Softmax注意力的同时，引入了一个学习的协方差校正分支，用于建模更丰富的上下文依赖。

AI模型 Parallax LLA Softmax 注意力机制

推荐理由：注意力效率翻倍，困惑度更低

原文

12:35

NVIDIA AI@NVIDIAAI

精选

NVIDIA AI 官方推特宣布，新一代大语言模型 Nemotron 3 Ultra 将于本周内推出。这是 Nemotron 系列的最新版本，具体参数和性能细节尚未披露。此前 Nemotron 4 340B 以推理基准上的表现受到关注，业界期待新版本能否进一步在效率和准确性上提升。

AI模型 Nemotron 3 Ultra NVIDIA 开源模型推理模型

推荐理由：NVIDIA 终于要发新模型了

原文