全部 AI 动态 · AI 热点

5月22日

16:09

pandaily@contact@pandaily.com (Pandaily)

精选

HiDream AI 推出了其原生统一多模态模型 HiDream-O1-Image-Pro，该模型拥有超过 2000 亿参数，能够处理图像、文本等多种模态信息。同时，公司宣布完成新一轮亿元级融资，资金将用于模型研发和商业化落地。这一进展标志着多模态大模型在参数规模和统一架构上迈出了重要一步，有望推动更复杂的跨模态应用场景。

AI模型多模态模型 HiDream AI HiDream-O1-Image-Pro 参数规模融资

推荐理由：200B+ 参数的统一多模态模型意味着更强的跨模态理解和生成能力，做多模态 AI 应用或研究的团队值得关注其技术细节和后续开源动态。

原文

16:08

pandaily@contact@pandaily.com (Pandaily)

76°

字节跳动开源了Lance，一个仅3B激活参数的原生统一多模态AI模型。Lance能在一个系统中同时处理图像理解、图像生成和视频任务，无需多个模型拼接。该模型采用原生多模态架构，而非传统的视觉编码器+语言模型组合，实现了更高效的跨模态交互。Lance的开源发布为多模态AI研究提供了轻量级基线，尤其适合资源受限场景下的部署。

AI模型多模态模型开源/仓库字节跳动 Lance 轻量级模型

推荐理由：Lance用3B参数实现了图像理解+生成+视频的统一处理，做多模态应用或边缘部署的团队可以直接拿来用，省去多模型集成的麻烦。

原文

14:37

14:37IT之家（博客/媒体）

76°

美团技术团队正式开源了数字人视频生成模型 LongCat-Video-Avatar 1.5，该版本在唇形同步、物理合理性、长视频稳定性、多人互动及推理效率方面全面升级。模型采用 DMD 蒸馏技术，将生成步数从 50 步压缩至 8 步，推理效率提升约 15 倍，生成 10 秒视频仅需约 1 分钟。在用户偏好对比中，该模型相比 Kling Avatar 2.0 胜率为 65.9%，相比 OmniHuman-1.5 胜率为 61.1%，相比 HeyGen 胜率为 54.3%。美团表示，数字人视频生成正从展示效果走向真实使用，希望开源能成为可验证、可改进、可共建的技术基座。

AI模型数字人视频生成开源/仓库美团 LongCat-Video-Avatar

推荐理由：数字人视频生成终于从演示走向了可商用——10 秒视频 1 分钟生成，效率提升 15 倍，做虚拟主播、在线教育、客服视频的团队可以直接拿来用，省去大量渲染时间。

原文

13:58

13:58IT之家（博客/媒体）

精选83°

字节跳动开源了名为Lance的多模态AI模型，激活参数量仅3B，却能原生统一处理图像理解、视频理解、图像生成、视频生成和跨模态编辑等任务。与常见将理解与生成拆分为多个模块的方案不同，Lance从训练起就采用共享上下文与能力解耦的双流专家架构，兼顾高层语义特征与低层连续表示。在多项基准测试中，Lance在图像生成、视频生成、图像编辑和视频理解上均取得领先成绩，例如GenEval总分0.90、VBench总分85.11。模型采用Apache 2.0许可开源，权重已在Hugging Face提供，推理需至少40GB显存。

AI模型多模态模型开源/仓库字节跳动 Lance 统一模型

推荐理由：Lance用3B参数实现了多模态理解与生成的统一，解决了传统方案模块拼接效率低、能力割裂的问题。做多模态AI研究或应用开发的团队可以直接下载权重试试，尤其适合资源有限但想探索统一模型的场景。

原文

10:08

10:08IT之家（博客/媒体）

83°

智谱今日面向部分企业客户推出 GLM-5.1 高速版 API，输出速度达到 400 tokens/s，刷新全球大模型 API 速度上限。该模型首次在国产大模型中实现旗舰级能力与低延迟的结合，打破了高速模型通常为轻量级模型的行业惯例。GLM-5.1 高速版由智谱 GLM 团队与 TileRT 团队联合打造，在推理引擎、调度系统和基础设施三个层面进行系统级优化，确保 400 TPS 是稳定可用的生产级能力。该模型适用于 AI 编程、实时交互、商业决策、实时语音等对响应延迟要求高的场景，现已面向部分企业客户开放服务。

AI模型智谱 GLM-5.1 高速推理 API 国产大模型

推荐理由：智谱把旗舰模型的推理速度拉到 400 tokens/s，做实时交互、AI 编程的团队可以直接用，延迟敏感场景终于有了国产高性能选项，建议点开看技术细节。

原文

09:28

09:28IT之家（博客/媒体）

83°

加州大学圣地亚哥分校的研究首次提供实证，证明现代 AI 能通过经典图灵测试。在实验中，GPT-4.5 有 73% 被裁判判定为人类，频率甚至高于真实人类。LLaMa-3.1-405B 也有 56% 被判定为人类，与真人无显著差异。研究强调，模型通过模仿人类的语气、幽默和易错性而非展示知识来获胜，但需要精心设计的提示词才能伪装成功。该发现对网络信任构成挑战，提示人们应降低对线上陌生人身份的确定性。

AI模型 GPT-4.5 图灵测试 LLaMa-3.1 AI 安全大语言模型

推荐理由：这项研究首次用实证数据证明 AI 能通过图灵测试，对关注 AI 社会影响和网络安全的人意义重大——做 AI 伦理或在线身份验证的团队值得仔细看，它会让你重新思考“像人”意味着什么。

原文

08:05

08:05IT之家（博客/媒体）

83°

OpenAI 宣布其全新推理模型成功推翻了一个由数学家埃尔德什于 1946 年提出的几何猜想，这是 AI 首次自主攻克数学核心领域的重大未解难题。该模型并非为数学问题定制，而是通用推理系统，能梳理复杂逻辑链条并跨学科关联知识。OpenAI 附上了多位数学家的佐证，避免了此前 GPT-5 声称攻克难题却实为现成解法的尴尬。这一突破被认为将对生物学、物理学、工程学和医学产生深远影响。

AI模型推理模型数学证明 OpenAI 几何猜想科研突破

推荐理由：AI 首次自主攻克数学核心难题，对数学、物理等领域的科研人员是重大信号——AI 已能发现人类未曾想到的解法，做基础研究的团队值得关注。

原文

07:57

07:57SuperTechFans（博客/媒体）

精选

OpenAI 内部模型构造出单位距离对数为 n^(1+δ) 的点集，推翻长期认为方格构造最优的假设。该证明经外部数学家验证并发表伴随论文，是 AI 首次自主完成复杂数学证明的里程碑。菲尔兹奖得主蒂姆·高斯等数学家高度评价此成果，认为 AI 已具备原创性和执行力。

AI模型 OpenAI 单位距离问题数学证明推理模型

推荐理由：AI 首次独立证明数学猜想

原文

5月21日

17:31

17:31IT之家（博客/媒体）

腾讯混元发布新一代多语言翻译模型 Hy-MT2 并正式开源，包含 1.8B、7B、30B-A3B 三种尺寸，支持 33 种语言互译及 5 种民族语言/方言互译。轻量级 1.8B 模型通过极端量化仅需 440MB 存储空间，可在苹果、高通、联发科等手机芯片上本地部署，推理速度比上一代提升 1.5 倍，且性能超越微软等主流商业 API。同步推出的腾讯 Hy 翻译小程序支持语音输入、自定义翻译风格和离线翻译，解决了弱网络场景下的翻译需求。IFMTBench 翻译指令遵循测试集也一并开源，用于评估模型对翻译风格、术语指定等指令的遵循能力。

AI模型翻译模型开源/仓库腾讯混元端侧部署多语言

推荐理由：手机端就能跑的高质量翻译模型来了，做本地化应用、离线翻译工具或移动端 AI 产品的开发者可以直接下载试用，440MB 的轻量版值得关注。

原文

15:14

marktechpost@Asif Razzaq

精选

字节跳动智能创作实验室推出Lance，一个原生统一多模态模型，仅用3B激活参数即可处理图像与视频的理解、生成和编辑。Lance在图像理解基准MSCOCO上达到44.8的BLEU-4，在视频生成测试集UCF-101上取得FVD 159.3。该模型支持文本到图像、文本到视频、图像编辑、视频编辑等多种任务。Lance以Apache 2.0许可证开源，代码和权重已在GitHub发布。

AI模型 Lance ByteDance 多模态视频生成开源模型

推荐理由：3B参数打通图视频理解生成

原文

09:35

09:35SuperTechFans（博客/媒体）

83°

谷歌发布了 Gemini 3.5 系列模型，其中 3.5 Flash 版本在多项基准测试中表现优异，输出速度是其他前沿模型的 4 倍，特别适合大规模多步骤代理任务。该模型已通过 Gemini 应用、Google 搜索等渠道上线，开发者可通过 Antigravity 平台和 API 使用。推测其采用混合精度（FP4/FP8）和较少活跃参数，在保持高性能的同时降低成本。这一发布标志着智能代理技术的新突破，有望推动 AI 在复杂场景中的广泛应用。

AI模型 Gemini 3.5 Flash 推理模型低延迟代理任务谷歌

推荐理由：Gemini 3.5 Flash 解决了高智能与低延迟的矛盾，做多步骤代理和编码的开发者可以直接用上，成本还更低，值得一试。

原文

08:00

08:00IT之家（博客/媒体）

83°

谷歌在 2026 I/O 开发者大会上宣布，Gemini 3.5 Pro 模型将于下月正式发布。目前该模型已在谷歌内部使用，官方称其进步非常强，但未透露具体细节。这一消息表明谷歌在 AI 模型迭代上持续加速，Gemini 3.5 Pro 有望在性能、多模态或推理能力上带来显著提升，值得开发者和 AI 从业者关注。

AI模型 Gemini 3.5 Pro 谷歌推理模型多模态 AI 模型发布

推荐理由：谷歌 Gemini 系列模型迭代节奏加快，3.5 Pro 内部使用已获「进步超强」评价，做多模态或推理应用的开发者值得提前关注，下月发布后可直接上手体验。

原文

07:54

OpenAI@OpenAI (@OpenAI)

OpenAI在一条推文中指出，AI系统正变得能够进行长而困难的推理链，连接不同领域的想法，并发现研究者可能未探索的路径。他们认为这些能力将很快加速生物学、物理学、工程学和医学领域的工作。同时强调，人类的判断力仍然至关重要，专业知识将变得更有价值，AI负责搜索、建议和验证，而人类选择重要问题、解释结果并决定下一步方向。

AI模型推理模型科研加速 OpenAI 人机协作 AI能力

推荐理由：科研人员和工程师将看到AI从工具变为协作伙伴——长链推理能力让AI能跨领域连接想法，做科研的团队值得关注这一趋势，思考如何将AI融入工作流。

原文

07:51

OpenAI@OpenAI (@OpenAI)

精选76°

OpenAI 宣布其通用推理模型成功证明了一个数学难题，该模型并非专门为数学问题设计，而是具备广泛推理能力。这一成果被视为数学和 AI 社区的重要里程碑，展示了通用 AI 在复杂推理任务上的潜力。该证明由通用模型完成，而非针对特定问题优化的系统，凸显了 AI 推理能力的泛化性。

AI模型推理模型数学证明 OpenAI 通用AI 里程碑

推荐理由：通用推理模型攻克数学难题，证明了 AI 在数学推理上的泛化能力，数学研究者和 AI 开发者值得关注这一突破。

原文

5月20日

16:14

16:14IT之家（博客/媒体）

阿里通义千问团队发布Qwen3.5-LiveTranslate-Flash实时语音翻译模型，解决了跨境直播、跨国会议等场景中的延迟、语种覆盖和音色保留三大痛点。该模型支持60种语言输入和29种语言输出，端到端字均延迟仅2.8秒，并具备实时音色克隆功能，能保留说话人原声特征。内置热词引擎可自定义1000个词条，提升专有名词和行业术语的翻译准确性。在FLEURS和CoVoST2基准上，翻译准确率优于主流语音大模型，相比前代Qwen3-LiveTranslate-Flash在延迟和语言覆盖上均有显著提升。

AI模型实时翻译语音模型同声传译音色克隆阿里通义千问

推荐理由：跨境直播、跨国会议和出海团队终于有了低延迟、高语种覆盖的实时同传方案，还能保留说话人原声，做内容出海或智能硬件的开发者可以直接试。

原文

13:40

13:40IT之家（博客/媒体）

88°

阿里千问今日正式发布 Qwen3.7-Max，定位为面向智能体时代的旗舰模型，即将通过阿里云百炼 API 提供服务。该模型在编程、办公自动化、长周期自主执行等智能体任务上表现突出，例如在长达 35 小时、超 1000 次工具调用的内核优化实验中保持连贯推理。在多项基准测试中，Qwen3.7-Max 在编程智能体（如 SWE-Pro 60.6）、通用智能体（如 MCP-Mark 60.8）和推理（如 GPQA Diamond 92.4）上均取得领先或与顶尖模型相当的成绩。此外，它支持跨框架部署，兼容 Claude Code、OpenClaw 等，并具备多语言理解与翻译能力。

AI模型智能体编程助手 MCP/工具推理模型 Qwen3.7-Max

推荐理由：Qwen3.7-Max 在长周期自主执行和跨框架兼容性上展现出实用价值，做自动化办公或复杂编程的开发者可以直接通过 API 体验，值得关注。

原文

11:53

pandaily@contact@pandaily.com (Pandaily)

72°

字节跳动（TikTok母公司）即将推出其AI视频生成模型Seedance 2.1版本，据称质量提升20%。该模型在视频生成领域进一步优化，旨在提升生成视频的逼真度和流畅性。此次更新可能加强字节跳动在AI视频生成赛道的竞争力，与OpenAI的Sora等产品展开竞争。Seedance 2.1的发布预计将吸引内容创作者和视频制作团队的关注。

AI模型视频生成 Seedance 字节跳动 AI模型内容创作

推荐理由：视频生成质量提升20%意味着更逼真的AI视频，做短视频或内容创作的团队可以直接关注，看看能否替代现有工具。

原文

09:36

09:36SuperTechFans（博客/媒体）

88°

Andrej Karpathy 宣布加入 Anthropic 预训练团队，计划将 AutoResearch 理念扩展为递归训练项目，以提升 Claude 核心能力。社区对此褒贬不一，有人认为这是自动化研究的好方向，也有人质疑其创新性。Karpathy 表示仍会继续从事教育事业。此举可能加速 Anthropic 在预训练技术上的突破。

AI模型 Anthropic Karpathy 预训练递归训练 Claude

推荐理由：Karpathy 的加入可能改变 Claude 的预训练范式，关注大模型训练的开发者值得了解递归训练的具体思路。

原文

07:02

07:02Simon Willison’s Weblog（博客/媒体）

83°

谷歌在 I/O 大会上正式发布 Gemini 3.5 Flash，跳过预览版直接进入通用可用阶段。该模型支持 104 万输入 token 和 6.5 万输出 token，知识截止于 2025 年 1 月。价格显著上涨：输入每百万 token 1.5 美元，输出 9 美元，是前代 3 Flash Preview 的 3 倍、3.1 Flash-Lite 的 6 倍，接近 3.1 Pro 水平。尽管如此，谷歌仍将其部署到 Gemini 应用、AI 搜索模式、Antigravity 平台、AI Studio 等全线产品。同时推出新的 Interactions API（测试版），类似 OpenAI 的服务器端历史管理。这反映出三大 AI 实验室都在试探 API 客户的价格承受力。

AI模型 Gemini 3.5 Flash 谷歌 I/O 模型定价 API Interactions API

推荐理由：Gemini 3.5 Flash 价格翻倍但谷歌全线铺开，做 AI 应用开发的团队需要评估成本变化，建议点开看看定价对比和 API 新特性。

原文

01:46

01:46IT之家（博客/媒体）

76°

在 2026 年谷歌 I/O 大会上，谷歌宣布推出 Gemini 3.5 Flash 模型，该模型在多项基准测试中超越前代 3.1 Pro。其输出速度达到每秒 289 tokens，是 Claude Opus 4.7 和 GPT-5.5 xhigh 的 4 倍。谷歌内部还展示了 Antigravity 工具，用 93 个子智能体在 12 小时内从零构建了一个可运行的操作系统核心，生成了 26 亿个 tokens。这一发布标志着谷歌在 AI 模型速度和效率上的重大突破，尤其适合需要高吞吐量的应用场景。

AI模型 Gemini 3.5 Flash 谷歌推理模型输出速度智能体

推荐理由：速度翻倍意味着更低的延迟和更高的吞吐量，做实时 AI 应用或大规模推理的开发者值得关注，可以直接用起来提升效率。

原文

01:45

Pandaily@contact@pandaily.com (Pandaily)

精选

地平线机器人开源HoloMotion-1，这是一个4B参数的机器人小脑模型，专为全身类人机器人控制设计。该模型在边缘设备上实现300FPS的实时推理，显著提升了响应速度。HoloMotion-1通过开源发布，旨在推动机器人领域研究与应用。

AI模型 Horizon Robotics HoloMotion-1 机器人控制开源模型边缘计算

推荐理由：地平线开源4B参数机器人小脑模型，300FPS跑在设备上

原文

01:35

Pandaily@contact@pandaily.com (Pandaily)

精选

阿里巴巴的Qwen 3.7 Max预览版已出现在LM Arena排行榜上。同时，Qwen 3 Ultra预览版也在活跃迭代。这两款模型均为72B参数的旗舰模型。此举表明阿里巴巴正同时推进两个大型模型的开发，为全面公开发布做准备。

AI模型 Qwen 3.7 Max Qwen 3 Ultra Alibaba LM Arena 模型迭代

推荐理由：阿里双72B模型齐发

原文

5月19日

16:24

16:24IT之家（博客/媒体）

76°

地平线正式开源HoloMotion-1，这是一个4亿参数级的机器人小脑大模型，专为人形机器人全身控制设计。相比以往百万、千万级模型，HoloMotion-1将规模提升到新量级，并能在端侧实现约300FPS实时推理，远超常见50Hz控制频率。该模型结合MoE稀疏激活与KV-cache机制，降低推理开销，并使用互联网视频、光学动捕、VR遥操作等多来源数据训练。在真实机器人实验中，HoloMotion-1展示了零样本迁移能力，可完成高动态舞蹈、爬行、健身、搬箱子等复杂动作。代码、模型、技术报告均已开源。

AI模型地平线 HoloMotion-1 人形机器人开源全身控制

推荐理由：人形机器人开发者终于有了一个4亿参数级别的开源控制模型，零样本就能迁移舞蹈、搬箱子等复杂动作，做全身控制的团队可以直接拿来用。

原文

15:45

15:45IT之家（博客/媒体）

比利时研究机构 Imec 于 5 月 12 日发布了一种 3D CCD 内存架构，旨在结合 DRAM 的高速度与 NAND 闪存的存储密度，以解决 AI 推理中的“内存墙”瓶颈。该架构通过垂直堆叠内存芯片缩短数据传输路径，实验室条件下电荷传输速度超过 4GHz。采用 IGZO 材料降低漏电并支持高密度集成，但该技术仍处于概念验证阶段，离大规模量产还有距离，短期内不太可能用于数据中心。

AI模型内存架构 AI 推理 3D CCD Imec IGZO

推荐理由：Imec 的 3D CCD 方案直击 AI 推理的“内存墙”痛点，做 AI 硬件或内存架构的开发者值得关注，虽然离量产尚远，但技术方向有启发。

原文

13:49

13:49IT之家（博客/媒体）

阿里云峰会将于5月20日举行，千问大模型官方发布预热海报，暗示将推出“重量级新朋友”。海报关键词包括“更全能、更强大、有深度、有广度”，并出现Qwen吉祥物水豚。最新模型Qwen 3.7-Max-Preview和Qwen 3.7-Plus-Preview已上线测试平台，预计将在峰会正式发布。这标志着阿里在AI大模型领域的又一重要进展，值得关注。

AI模型 Qwen 3.7 阿里云峰会大模型 Qwen AI模型发布

推荐理由：Qwen 3.7 系列模型即将正式发布，关注国产大模型进展的开发者可以直接蹲峰会直播，看看新模型在推理和广度上到底提升了多少。

原文

08:33

08:33IT之家（博客/媒体）

72°

AI模型千问 Qwen3.7 Arena AI 多模态推理模型

推荐理由：千问新模型在数学和编程榜单上冲进前十，做技术选型或对比评测的开发者值得关注，可以直接去 Arena AI 体验。

原文

5月17日

01:46

Nathan Lambert: Interconnects@Florian Brand

76°

过去一个月内，多个重磅开源模型密集发布，包括 Google 的 Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5 和 GLM-5.1 等。这些模型在性能、架构和开源策略上各有突破，标志着开源 AI 生态进入新一轮竞争。CAISI 的 V4 评估报告对这些模型进行了横向对比，揭示了不同模型在推理、多模态和效率上的优劣。对于关注开源模型选型和趋势的开发者与研究者，这是重要的参考节点。

AI模型开源模型 Gemma 4 DeepSeek V4 Kimi K2.6 模型评估

推荐理由：开源模型一个月内连发五款旗舰，做模型选型或研究的团队可以直接参考 CAISI 的 V4 评估对比，省去自己跑 benchmark 的时间。

原文

00:54

00:54IT之家（博客/媒体）

精选73°

蚂蚁集团旗下百灵大模型正式开源 Ring-2.6-1T，这是一款面向真实复杂任务场景的万亿级旗舰思考模型。该模型引入了可调节的 Reasoning Effort 机制，支持 high 与 xhigh 两种推理强度，开发者可根据任务复杂度灵活控制模型思考深度。high 模式适合高频 Agent 工作流，具备更低 Token 开销与更快多步执行能力；xhigh 模式面向数学、科研、复杂逻辑分析等高难任务。开源链接已在 Hugging Face 和 ModelScope 上提供，方便开发者、研究者与企业进行验证、适配和二次开发。

AI模型开源/仓库推理模型智能体蚂蚁集团 Ring-2.6-1T

推荐理由：万亿级思考模型开源，可调节推理强度让开发者按需平衡效果与成本，做 Agent 工作流或复杂推理的团队可以直接上手试。

原文

5月14日

15:15

15:15IT之家（博客/媒体）

精选

联华电子（UMC）推出14nm eHV FinFET技术平台，面向手机DDIC等显示驱动应用。该平台较其22nm eHV制程功耗降低40%，芯片面积节省35%。它采用3D晶体管结构，支持高阶与折叠式OLED智能手机显示应用，并优化I/O元件设计提升驱动速度。该技术是联电首次将FinFET导入显示驱动领域，支持高分辨率高刷新率需求。

AI模型联电(UMC)14nm eHV FinFET 显示驱动IC OLED

推荐理由：联电新工艺省电四成

原文

11:23

11:23IT之家（博客/媒体）

小米发布并开源了 Xiaomi OneVL，一个一步式潜空间语言视觉推理框架。雷军称，该模型在业内率先通过潜空间推理将 VLA（视觉语言动作模型）和世界模型统一到同一框架中。在推理和规划等主流基准上，Xiaomi OneVL 全面刷新了潜在推理方法的性能上限。该模型在精度上超越显式 CoT，速度上对齐“仅答案”预测的潜空间 CoT 方案。小米已将模型权重和训练、推理代码全面开源，邀请全球开发者探索自动驾驶大模型的可能性。

AI模型自动驾驶 Xiaomi OneVL VLA 世界模型潜空间推理

推荐理由：小米把 VLA 和世界模型统一到一套框架，解决了自动驾驶多模型协同的痛点，做自动驾驶或具身智能的开发者可以直接用开源代码试试，性能还刷新了基准。

原文

01:10

01:10IT之家（博客/媒体）

95°

中国科学技术大学潘建伟团队成功研制出“九章四号”量子计算原型机，拥有1024个量子压缩态输入和8176个模式，首次操纵3050个光子的量子态，求解高斯玻色取样问题比全球最快超级计算机快10的54次方倍。该成果发表在《自然》期刊，解决了光量子计算中光子损耗的瓶颈，通过高效光源和时空混合编码技术实现连接度立方级扩展。这标志着光量子计算在规模和复杂度上的重大飞跃，巩固了中国在光量子计算领域的领先地位。

AI模型九章四号量子计算光量子中国科学技术大学自然期刊

推荐理由：量子计算研究者或关注前沿科技的读者，这是光量子计算里程碑式突破——九章四号将算力提升到超经典计算机10^54倍，直接刷新世界纪录，值得深入了解其技术细节。

原文

5月13日

17:17

17:17IT之家（博客/媒体）

精选70°

小米技术发布并开源了 Xiaomi OneVL 一步式潜空间语言视觉推理框架，首次将 VLA（视觉语言动作）与世界模型统一到同一框架中。该模型在多个自动驾驶基准上刷新了潜在推理方法的性能上限，同时提供语言和视觉双维度的可解释性。相比传统方法，OneVL 在精度上超越显式 CoT，在速度上对齐“仅答案”预测。小米已将模型权重、训练和推理代码全面开源。

AI模型自动驾驶 VLA 世界模型开源/仓库小米

推荐理由：自动驾驶研究者终于有了一个统一 VLA 与世界模型的开源方案——OneVL 在精度和速度上均优于现有方法，做端到端驾驶或世界模型开发的团队可以直接拿来用。

原文

13:05

13:05IT之家（博客/媒体）

精选70°

面壁智能联合清华大学及 OpenBMB 开源社区发布 MiniCPM-V 4.6，参数规模 1.3B，仅需约 6GB 内存即可在端侧流畅运行。该模型在 Artificial Analysis 评测中以 13 分超越 Ministral 3 3B，整体能力接近 Qwen3.5-2B 级别。效率方面，基于 vLLM 框架的 Token 吞吐量是 Qwen3.5-0.8B 的 1.5 倍，计算 Token 消耗仅为后者的 2.5%。技术创新包括 LLaMA-UHD v4 架构，将图像编码计算量降低 55.8%，处理 3132×3132 高清图首字延迟仅 75.7 毫秒。模型已全面开源，支持 iOS、Android 和 HarmonyOS 等系统。

AI模型大模型多模态开源/仓库 MiniCPM-V 面壁智能

推荐理由：1.3B模型6G内存就能跑

原文

00:33

00:33Google Developers Blog（博客/媒体）

Google在Orbax和MaxText中引入了持续检查点功能，旨在平衡模型训练的可靠性与性能。传统固定频率检查点要么牺牲可靠性，要么成为性能瓶颈。持续检查点通过异步方式，仅在上一次保存成功后启动新保存操作，最大化I/O带宽并降低故障风险。基准测试显示，该方法显著减少检查点间隔，在大规模训练中（平均故障间隔短）能大幅节约资源。

AI模型模型训练可靠性检查点 Orbax MaxText

推荐理由：对于大规模训练任务，持续检查点能有效提升资源利用率和系统稳定性，是应对硬件故障、优化训练吞吐量的实用方案。

原文

00:33

00:33Google Developers Blog（博客/媒体）

Google DeepMind推出Gemma 4系列开源模型，专为在设备端实现多步规划和自主智能体工作流而设计。该系列包含Google AI Edge Gallery供开发者实验“Agent Skills”，以及LiteRT-LM库，提供显著的速度提升和结构化输出。Gemma 4采用Apache 2.0许可，支持140多种语言，兼容移动设备、桌面电脑和Raspberry Pi等IoT平台。

AI模型智能体 Gemma 4 边缘计算开源/仓库多模态

推荐理由：此发布将前沿的智能体能力带入低功耗设备，为边缘AI应用（如本地化助手和离线自动化）提供了新的可能性，对开发者社区和物联网领域具有实际参考价值。

原文

00:33

00:33Google Developers Blog（博客/媒体）

70°

Google 宣布 Gemini Embedding 2 正式可用，该模型能将文本、图像、视频、音频和文档映射到统一的语义空间，支持在单一请求中处理交错的多模态输入。它显著提升了智能体 RAG、视觉搜索和内容审核等任务的性能，支持超过 100 种语言，并提供任务特定前缀和 Matryoshka 维度缩减等功能。这使得构建复杂 AI 代理更加高效和精准。

AI模型 Gemini Embedding 2 多模态智能体向量嵌入 RAG

推荐理由：对需要跨模态语义搜索和智能体构建的开发者而言，Gemini Embedding 2 的统一嵌入能力可简化架构并提升检索质量，值得关注其在实际部署中的表现。

原文

00:33

00:33Google Developers Blog（博客/媒体）

加州大学圣地亚哥分校研究者将DFlash（一种块扩散推测解码方法）成功部署到Google TPU上，通过单次前向传播“绘制”整个候选词块，绕过传统自回归逐步预测的顺序瓶颈。该系统在TPU上实现了平均3.13倍的加速，峰值性能接近现有EAGLE-3方法的两倍。该开源方案已集成至vLLM生态，利用TPU的免费并行验证和高品质草稿预测，显著提升复杂推理任务的效率。

AI模型推理加速推测解码 TPU 开源/仓库 vLLM

推荐理由：这一工作展示了扩散式推测解码在TPU上的实际落地价值，突破传统推测解码的顺序瓶颈，尤其利好大规模LLM推理场景。开源集成至vLLM有助于行业快速采用。

原文

5月11日

00:23

00:23OpenAI Blog（博客/媒体）

70°

OpenAI 开发了一个仅通过预测亚马逊评论中下一个字符进行训练的无监督系统，却能学习到高质量的情感表示。这一发现表明，简单自监督任务可隐式捕获高级语义特征。

AI模型 unsupervised-learning sentiment-analysis language-modeling openai

推荐理由：为无监督学习在情感分析等任务中提供了新路径，降低了对标注数据的依赖。

原文

00:23

00:23OpenAI Blog（博客/媒体）

精选85°

OpenAI推出Proximal Policy Optimization（PPO）强化学习算法，相比现有最优方法性能相当或更优，且更易于实现和调参。PPO因其易用性和出色表现，已成为OpenAI默认的强化学习算法。

AI模型 reinforcement-learning ppo openai algorithm

推荐理由：PPO简化了强化学习训练流程，降低了调参成本，是当前强化学习实践中的首选算法。

原文

00:22

00:22OpenAI Blog（博客/媒体）

精选85°

OpenAI 发布 GPT-4o 系统卡，详细介绍了模型的能力提升、安全评估及多模态性能。该模型在文本、图像、音频等多模态任务上表现优异，同时引入了更严格的安全机制。对于 AI 从业者，这提供了最新的多模态大模型基准及安全实践参考。

AI模型 multimodal safety gpt-4o system-card

推荐理由：了解 OpenAI 在安全与多模态融合方面的最新工程实践，对模型部署和风险评估至关重要。

原文