全部 AI 动态 · AI 热点

6月13日

22:51

量子位@鹭羽

HuggingFace CEO和Bengio团队推荐的HRM模型，参数量仅1B，训练成本仅1500美元。该模型在多个基准测试中表现优于同规模模型，如MMLU上达到45.2%，HellaSwag上达到72.1%。其核心创新在于高效训练方法，大幅降低了资源需求。

AI模型 HRM HuggingFace Bengio 开源模型推理模型

推荐理由：1B模型，1500美元，性能超预期

原文

16:54

Decoder@Matthias Bastian

Moonshot AI 发布了开源模型 Kimi K2.7 Code，拥有 1 万亿参数，专为编程任务设计。在编程基准测试中，Kimi K2.7 Code 仍落后于 GPT-5.5 和 Claude Opus 4.8，但每 token 价格比它们低 12 倍。用户需权衡：在相同预算下，使用 Kimi K2.7 Code 能获得更多推理次数，但质量可能有所下降。

AI模型 Kimi K2.7 Code Moonshot AI GPT-5.5 Claude Opus 4.8 开源模型

推荐理由：编程省钱利器，12倍性价比

原文

14:36

14:36IT之家（博客/媒体）

智谱宣布 GLM-5.2 将面向 GLM Coding Plan 全量用户开放，覆盖 Lite、Pro、Max 及团队版。该模型支持 1M 上下文，是智谱迄今能力最强的开源模型，在长程任务中保持领先。GLM-5.2 API 将于下周上线，模型将遵循 MIT 协议正式开源。此前智谱于 3 月发布 GLM-5.1，5 月发布输出速度达 400 tokens/s 的 GLM-5.1 高速版。

AI模型 GLM-5.2 智谱开源模型 1M上下文

推荐理由：智谱最强开源模型下周上线

原文

13:03

marktechpost@Asif Razzaq

Moonshot AI 开源了 Kimi K2.7-Code，这是一个基于 Kimi K2.6 构建的编程智能体模型，采用 Modified MIT 许可证。该模型拥有 256K 上下文窗口，推理 token 使用量降低约 30%。在 Kimi Code Bench v2 上，K2.7-Code 相比 K2.6 提升了 21.8%，并在其他五个基准上也有增长。模型已通过 Kimi API 和 Kimi Code 提供。

AI模型 Kimi K2.7-Code Moonshot AI 编程助手开源模型智能体

推荐理由：编程模型开源，性能提升明显

原文

6月12日

15:07

15:07IT之家（博客/媒体）

73°

华为在 HDC 2026 上正式发布开源盘古 openPangu 2.0 模型，包含 Pro（505B 总参数/18B 激活）和 Flash（92B 总参数/6B 激活）两个版本，支持 512K 上下文。该模型针对昇腾算力优化，单卡吞吐率是业界主流开源模型的 2 倍，并适配鸿蒙系统，在 Agent 任务上更快更准更省。华为计划从 6 月 30 日起陆续开源 7 大组件，包括预训练代码、后训练代码和训练算子。余承东坦言，由于算力大量支持国内其他企业，华为自留算力有限，因此模型参数规模控制在 505B，更聚焦时延和吞吐率提升。

AI模型华为盘古 2.0 开源模型昇腾鸿蒙

推荐理由：华为开源盘古 2.0 解决了国产大模型在昇腾生态下的部署效率问题，使用昇腾算力的开发者和企业可以直接受益，建议关注 6 月 30 日的开源组件发布。

原文

6月11日

03:39

Decoder@Jonathan Kemper

72°

Google 发布了 DiffusionGemma，一个 260 亿参数的开源模型。它不采用传统的逐词生成方式，而是通过扩散过程从噪声中生成文本，类似于图像 AI 的工作方式。据 Nvidia 称，该模型在单个 H100 GPU 上每秒可处理约 1000 个 token，速度是同类自回归模型的约 4 倍。但输出质量较低，因此 Google 目前将其定位为面向开发者的实验性工具。

AI模型 Google DiffusionGemma 扩散模型开源模型推理加速

推荐理由：DiffusionGemma 为文本生成开辟了新路径，追求推理速度的开发者可以尝试这种非自回归方案，尤其适合对实时性要求高的场景。

原文

02:54

marktechpost@Asif Razzaq

76°

Google DeepMind 推出 DiffusionGemma，一款 26B 参数的混合专家（MoE）开源模型，采用文本扩散技术，在 GPU 上生成速度最高提升 4 倍。该模型在保持生成质量的同时，显著降低了推理延迟，适合对实时性要求高的场景。DiffusionGemma 已开源，开发者可直接下载使用。

AI模型 DiffusionGemma Google DeepMind MoE 文本扩散开源模型

推荐理由：做文本生成或实时 AI 应用的开发者，这个模型用扩散方法把生成速度翻了 4 倍，值得下载实测。

原文

6月5日

11:02

11:02阮一峰的网络日志（博客/媒体）

精选

今年5月，一个美国科技分析师访问团走访了DeepSeek、月之暗面、字节跳动等14家中国AI和机器人公司，回国后撰写了多篇观感文章。访问团发现，中国AI行业面临严重的算力不足，2025年底美国算力约为中国的8倍，但中国公司通过极高的计算效率弥补了这一差距，单位算力支持的AI智能是简单扩展下的4-7倍。中国公司内部对开源模型存在分歧，万亿参数模型的开源与否成为分水岭。此外，中国AI公司大量使用年轻实习生，他们享有全职待遇和完整权限，与西方公司形成鲜明对比。访问团还观察到，中国研究人员对AGI的态度坦然，不恐惧被取代，而中国企业AI需求正从SaaS模式转向云计算市场。

行业 AI大厂算力差距开源模型中美AI竞争实习生文化

推荐理由：这篇访问记揭示了中美AI竞争的真实图景——算力落后但效率反超，做AI模型或投资的从业者能从中看到中国公司的独特策略和生存智慧，值得细读。

原文

6月4日

16:15

marktechpost@Asif Razzaq

精选

Miso Labs 发布了 MisoTTS，一个 8B 参数的开源文本转语音模型，专注于情感表达。它采用残差向量量化（RVQ）技术，在不增加参数的情况下扩展声音范围，并能根据文本和音频上下文调整说话人语调。模型架构由 7.7B 主骨干和 300M 深度解码器组成。MisoTTS 的开放权重让开发者和研究者可以自由使用和定制，推动了情感语音合成领域的开源进展。

AI模型文本转语音情感合成开源模型 MisoTTS 残差向量量化

推荐理由：MisoTTS 解决了 TTS 模型情感表达不足的痛点，做语音合成、虚拟助手或内容创作的团队可以直接下载权重试用，感受 8B 模型带来的细腻语调变化。

原文

03:00

Decoder@Matthias Bastian

78°

Ideogram 发布了其文本到图像模型 4.0 版本，作为开源权重模型，支持原生 2K 分辨率、边界框控制和改进的文本渲染。在 DesignArena 排行榜上，它在所有开源模型中排名第一，仅落后于 OpenAI 和 Google 的闭源系统。商业使用需要付费许可。

AI模型 Ideogram 文本到图像开源模型 2K分辨率文本渲染

推荐理由：对于需要高质量图像生成且注重文本准确性的创作者和开发者，Ideogram 4.0 的开源权重版本提供了顶级性能，值得尝试。

原文

6月2日

22:37

Nathan Lambert: Interconnects@Nathan Lambert

作者在艾伦人工智能研究所（Ai2）的最后一周，回顾了参与 Olmo 模型开发的工作经历。文章分享了在 Ai2 的成长与学习，以及如何通过 Olmo 模型产生广泛而持久的影响。这不仅是个人告别，也反映了开源 AI 研究机构的发展与挑战。

行业 Ai2 Olmo 开源模型 AI 研究行业动态

推荐理由：对于关注开源大模型和 AI 研究机构动态的从业者，这篇文章提供了 Olmo 模型背后的真实视角和行业思考，值得一读。

原文

6月1日

21:50

Decoder@Jonathan Kemper

78°

中国AI公司MiniMax发布了新模型M3，号称是首个结合顶级编码性能、百万token上下文窗口和原生多模态能力的开源权重模型。该模型在多项基准测试中表现优异，尤其在长上下文任务和代码生成方面，直接挑战GPT-4、Claude等闭源模型。M3的开源特性使得开发者可以自由部署和微调，降低了使用门槛。这一发布标志着开源模型在关键能力上正快速追赶闭源方案。

AI模型 MiniMax M3 开源模型百万token上下文多模态

推荐理由：百万token上下文+开源权重，做长文档处理或代码分析的团队可以直接部署，不用再被闭源API的token计费卡脖子。

原文

21:50

Decoder@Maximilian Schreiner

基准测试平台 Artificial Analysis 显示，Nvidia 的 Nemotron 3 Ultra 是目前美国最强大的开源 AI 模型，在多项指标上超越此前领先的 Llama 3 等模型。然而，该模型在整体性能上仍落后于中国开源模型如 DeepSeek 和 Qwen，表明中国在开源 AI 领域的领先地位依然稳固。这一进展凸显了美国在开源模型竞争中的追赶态势，但中国模型在推理、多模态等关键能力上仍保持优势。

AI模型 Nvidia Nemotron 3 Ultra 开源模型模型对比中国领先

推荐理由：Nvidia 终于拿出了美国最强的开源模型，但中国开源模型依然领先，做模型选型和对比的开发者值得关注这一格局变化。

原文

13:05

13:05IT之家（博客/媒体）

精选76°

英伟达发布 Alpamayo 2 Super，一款 320 亿参数的视觉-语言-动作（VLA）开源模型，专为 L4 自动驾驶研发设计。该模型具备类人感知、推理与行动能力，支持全车环视感知和元动作输出，可免去企业从零搭建核心基础设施。英伟达同步推出 AlpaGym 闭环强化学习平台、OmniDreams 世界模型等工具，打通从数据采集到车载部署的全流程。模型定位为教师模型，可通过知识蒸馏部署在 DRIVE AGX Thor 芯片上，已获比亚迪、吉利等车企采用。推理代码预计夏季开源。

AI模型英伟达 Alpamayo 2 Super 自动驾驶开源模型 VLA模型

推荐理由：英伟达把自动驾驶模型参数翻了三倍，还开源了全套工具链，做 L4 研发的团队可以直接省掉从零搭建的环节，建议关注夏季开源代码。

原文

12:50

12:50IT之家（博客/媒体）

精选78°

英伟达发布 Nemotron 3 Ultra 开源模型，拥有 5500 亿参数，采用混合专家架构，专为全天候运行的自主智能体设计。该模型在推理速度上较同级别前沿模型最高提升 5 倍，使用成本降低 30%，并已适配 Hermes Agent、LangChain 等主流智能体平台。同时推出安全防护和语音识别模型，增强企业级智能体能力。CrowdStrike 和 Palantir 已将其用于网络安全和业务流程自动化。模型将于 6 月 4 日通过 Hugging Face 等平台以 NIM 微服务形式开放。

AI模型英伟达 Nemotron 3 Ultra 开源模型智能体混合专家模型

推荐理由：英伟达把大模型推理速度和成本同时优化了，做智能体开发或企业自动化的团队可以直接用上，比现有开源方案更高效省钱，值得关注。

原文

5月29日

17:17

17:17IT之家（博客/媒体）

76°

小米大模型应用团队开源了 ControlFoley，一个统一的可控视频音效生成框架，解决了视频配音中“按意图控制声音”的难题。该模型支持三类任务：文本引导视频配音、文本控制视频配音（当文本与画面冲突时优先遵循文本）、以及参考音频控制视频配音（保持音色风格同时同步动作）。ControlFoley 采用时空音视频编码器 CAV-MAE-ST 增强音画同步理解，并通过时间-音色解耦策略避免参考音频干扰节奏。在多个基准测试上，ControlFoley 达到开源 SOTA，甚至在某些指标上超越商业闭源系统 Kling-Foley。代码、模型权重、在线 Demo 均已开放。

AI模型小米 ControlFoley 视频音效生成可控生成开源模型

推荐理由：做视频创作或音效生成的开发者终于有了可控的配音工具——ControlFoley 让声音按文本或参考音频来，而不是被画面牵着走。建议直接试在线 Demo，看看它如何解决“画面是A但想要B声音”的痛点。

原文

5月27日

19:43

19:43IT之家（博客/媒体）

华为金融系统部CTO郑俊在2026凤凰湾区财经论坛上表示，根据斯坦福最新报告，中国AI模型整体水平仅落后美国2.7%，已无限接近国际先进水平。自今年2月以来，中国模型的调用量持续超过美国模型，主要因为国内开源模型能力大幅提升，逼近美国闭源模型水平，且依托中国基础设施和算力、电力优势，国产模型更具价格经济性。此外，我国正加快AI立法，推动国产大模型适配国产算力芯片，截至4月30日已有868款生成式AI服务完成备案。2025年AI推理数据量首次超过训练数据量，达101.34EB。

行业中美AI竞争华为模型调用量开源模型国产算力

推荐理由：中美AI竞争格局正在改写——中国模型在调用量上已反超，且差距缩小到2.7%，做AI应用选型或关注国产替代的团队值得关注这一趋势。

原文

10:52

Pandaily@contact@pandaily.com (Pandaily)

精选

美团发布LongCat-Video-Avatar 1.5版本，这是一个开源的数字人视频生成框架。该框架在口型同步精度上达到最先进水平，只需8步推理即可生成逼真视频。

AI模型 LongCat-Video-Avatar Meituan 数字人视频生成开源模型

推荐理由：8步推理生成逼真数字人

原文

5月25日

10:16

Pandaily@contact@pandaily.com (Pandaily)

精选

字节跳动开源了原生多模态模型Lance，可在40GB显存上本地运行。该模型发布一天内登上了Hugging Face趋势榜。Lance支持图像、文本等多种模态的联合理解与生成。

AI模型 Lance ByteDance 多模态开源模型本地部署

推荐理由：字节开源40GB可跑的多模态模型

原文

5月22日

13:06

13:06IT之家（博客/媒体）

DeepSeek 正进行 700 亿元人民币融资谈判，估值约 450 亿美元，腾讯、IDG 资本等接近参投。创始人梁文锋在投资者会议上承诺，公司将继续开发开源 AI 模型，而非追求短期商业化，主要目标是推动技术升级和实现通用人工智能。若融资落地，将创中国科技初创公司首轮融资纪录，国家队参与凸显政府重视。梁文锋个人可能注资约 200 亿元，公司正扩展至 AI 智能体领域。

行业 DeepSeek 开源模型融资通用人工智能 AI 智能体

推荐理由：DeepSeek 用 700 亿融资证明开源路线在中国 AI 赛道依然能拿到顶级支持，关注开源模型生态的开发者可以看看这家公司如何平衡技术理想与资本压力。

原文

5月21日

15:14

marktechpost@Asif Razzaq

精选

字节跳动智能创作实验室推出Lance，一个原生统一多模态模型，仅用3B激活参数即可处理图像与视频的理解、生成和编辑。Lance在图像理解基准MSCOCO上达到44.8的BLEU-4，在视频生成测试集UCF-101上取得FVD 159.3。该模型支持文本到图像、文本到视频、图像编辑、视频编辑等多种任务。Lance以Apache 2.0许可证开源，代码和权重已在GitHub发布。

AI模型 Lance ByteDance 多模态视频生成开源模型

推荐理由：3B参数打通图视频理解生成

原文

5月20日

01:45

Pandaily@contact@pandaily.com (Pandaily)

精选

地平线机器人开源HoloMotion-1，这是一个4B参数的机器人小脑模型，专为全身类人机器人控制设计。该模型在边缘设备上实现300FPS的实时推理，显著提升了响应速度。HoloMotion-1通过开源发布，旨在推动机器人领域研究与应用。

AI模型 Horizon Robotics HoloMotion-1 机器人控制开源模型边缘计算

推荐理由：地平线开源4B参数机器人小脑模型，300FPS跑在设备上

原文

5月17日

01:46

Nathan Lambert: Interconnects@Florian Brand

76°

过去一个月内，多个重磅开源模型密集发布，包括 Google 的 Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5 和 GLM-5.1 等。这些模型在性能、架构和开源策略上各有突破，标志着开源 AI 生态进入新一轮竞争。CAISI 的 V4 评估报告对这些模型进行了横向对比，揭示了不同模型在推理、多模态和效率上的优劣。对于关注开源模型选型和趋势的开发者与研究者，这是重要的参考节点。

AI模型开源模型 Gemma 4 DeepSeek V4 Kimi K2.6 模型评估

推荐理由：开源模型一个月内连发五款旗舰，做模型选型或研究的团队可以直接参考 CAISI 的 V4 评估对比，省去自己跑 benchmark 的时间。

原文