全部 AI 动态 · AI 热点

AITOP

6月10日

00:13

Google Gemini App@GeminiApp

精选

Gemini 3.5 Flash 能处理复杂视觉数据并转化为可运行的交互代码。它可分析参考图像的照明条件，构建一个交互式3D可视化器来预览光照设置。该模型演示了从视觉输入到功能性代码的端到端能力。

推荐理由：看Gemini 3.5 Flash从图生成3D代码

原文

00:09

AK@_akhaliq

精选

SpatialWorld 是针对多模态 AI 智能体在真实世界任务中交互式空间推理能力的新基准。该基准涵盖物体操作、路径规划等空间认知场景。测试结果将揭示现有模型在空间理解与动态交互上的局限性。

AI模型 SpatialWorld 多模态空间推理智能体 benchmark

推荐理由：新基准测试AI空间推理

原文

6月9日

23:23

Google AI Developers@googleaidevs

精选

Gemini 3.5 Live Translate 是谷歌最新的音频模型，支持 70+ 语言的低延迟实时语音翻译。它通过流式处理语音，实现近实时的翻译输出，并具备多语言输入、自动语言检测、原生音频处理（保留语调、节奏和音高）以及噪声鲁棒性（在嘈杂环境中过滤背景噪音）等特点。开发者可利用该模型构建更自然的语音交互应用。

AI模型 Gemini 3.5 Live Translate Google 语音翻译多语言低延迟

推荐理由：谷歌新模型，能实时翻译70+语言

原文

23:18

Google DeepMind@GoogleDeepMind

精选

Google DeepMind 推出了 Gemini 3.5 Live Translate，一个专为快速跨语言交流设计的音频模型。该模型支持实时翻译，覆盖包括英语、西班牙语和中文在内的多种语言。在测试中，Gemini 3.5 Live Translate 在语音翻译基准上相比前代 Gemini 3.0 提升了 20% 的准确率。它能够无缝处理对话中的语言切换，延迟低于 200 毫秒。

AI模型 Gemini 3.5 Live Translate Google DeepMind 音频模型跨语言翻译

推荐理由：谷歌出了个超快语音翻译模型

原文

22:19

Hunyuan@TXhunyuan

72°

腾讯混元团队推出UniRL，一个面向统一多模态模型的强化学习基础设施。该框架支持扩散模型、流匹配模型、大语言模型（LLM）和视觉语言模型（VLM）的强化学习训练，并同时发布两个新算法：DRPO和Flow-DPPO。UniRL旨在用一个强化学习循环覆盖多种模型类型，简化多模态模型的训练流程。代码已在GitHub开源，为多模态AI研究提供了新的基础设施选择。

AI模型强化学习多模态模型开源/仓库腾讯混元 UniRL

推荐理由：多模态模型训练一直面临框架碎片化问题，UniRL用一个RL循环统一了扩散、LLM和VLM，做多模态研究的团队可以直接用开源代码降低实验成本。

原文

20:09

Viking@vikingmute

小米发布了 MiMo-V2.5-Pro-UltraSpeed 模型，拥有 1T 参数，生成速度达到 1000 TPS。官方演示视频显示速度极快，引发关注。目前该模型开放试用申请，但用户对其实际质量存疑，因为小米此前在 AI 模型领域知名度不高。该模型在 HackerNews 上引起讨论，速度指标令人印象深刻，但最终效果仍需实测验证。

AI模型小米 MiMo 大模型推理速度 TPS

推荐理由：1T 参数模型跑出 1000 TPS 的生成速度，对追求低延迟推理的开发者来说是个值得关注的指标，建议申请试用实测质量。

原文

18:42

小互@imxiaohu

72°

据小道消息，Anthropic 计划于今晚发布其最强 AI 模型 Mythos。该消息来自社交媒体，引发广泛关注。Mythos 可能代表 Anthropic 在 AI 能力上的重大突破，具体细节待官方确认。若属实，这将是 AI 领域的重要事件，值得密切关注。

AI模型 Anthropic Mythos AI模型发布前沿

推荐理由：Anthropic 的新模型可能刷新 AI 能力上限，关注前沿模型的开发者和研究者建议今晚蹲守官方动态。

原文

17:09

歸藏(guizang.ai)@op7418

78°

MiMo 推出 V2.5 Pro UltraSpeed 模型，实现每秒输出超过 1000 Token，成为全球首个达到此速度的万亿参数模型。实测中，复杂 3D 游戏生成峰值达 1426 Token/s，32 秒输出 25624 Token。该模型在保持高推理速度的同时，未出现能力下降，适合 Agent 和并发场景。藏师傅的测试显示，其首次响应时间低至 0.83 秒，代码生成质量高。目前面向 To B 客户，成本有待优化。

AI模型 MiMo 超高速模型万亿参数推理模型 Agent场景

推荐理由：万亿参数模型跑出 1000+ Token/s 的速度，做 Agent 和实时交互的开发者可以直接体验，效率提升肉眼可见。

原文

16:33

Pandaily@contact@pandaily.com (Pandaily)

UniSound 发布了其通用基础模型 U2，该模型以效率优先为特色，在保持竞争力的同时将 token 消耗降低了 25%。U2 的推出标志着 UniSound 正式进入中国大模型的第一梯队。该模型通过优化架构和训练策略，实现了更低的推理成本，对于需要大规模部署 LLM 的企业来说是一个重要进展。U2 的发布也反映了中国大模型领域从单纯追求参数规模转向注重实际应用效率的趋势。

AI模型 UniSound U2 大模型效率优化 token 节省

推荐理由：U2 的 25% token 节省直接降低了企业调用大模型的成本，做 AI 应用开发和模型部署的团队值得关注这个效率标杆。

原文

16:23

PolymarketMoney@PolymarketMoney

72°

据 Polymarket 报道，Anthropic 将于明天发布其新 AI 模型“Mythos”。该消息来自社交媒体平台 X 上的爆料，目前尚未得到 Anthropic 官方确认。Mythos 可能延续 Anthropic 在安全性和推理能力上的优势，或将对标 GPT-5 等前沿模型。若消息属实，这将是 AI 领域近期最受瞩目的发布之一。

AI模型 Anthropic Mythos 模型发布 AI 前沿推理模型

推荐理由：Anthropic 新模型 Mythos 即将发布，关注前沿 AI 动态的开发者可以提前了解，明天值得蹲守。

原文

15:00

15:00IT之家（博客/媒体）

88°

小米 MiMo 与 TileRT 联合发布 MiMo-V2.5-Pro-UltraSpeed 模式，首次在 1 万亿参数模型上实现超过 1000 tokens/s 的输出速度。该模式 API 已上线，定价为原版的 3 倍，但输出速度提升约 10 倍。由于高速推理资源有限，该模式采取申请制限时开放，申请通过的用户可在 2026 年 6 月 9 日至 6 月 23 日期间免费体验 Chat 功能，每日最多 10 次会话，每次最长 30 分钟。这一突破标志着万亿参数模型在实时推理场景中的实用化迈出关键一步。

AI模型万亿参数模型推理速度 MiMo TileRT API

推荐理由：万亿参数模型首次达到千 tokens/s 输出，做大规模推理或实时 AI 应用的团队可以直接申请体验，看看能否真正落地到生产环境。

原文

10:03

shao__meng@shao__meng

精选76°

Cognition 发布 FrontierCode 评估基准，旨在衡量 AI 模型生成代码的“可合并性”，而非仅通过单元测试。该基准包含 150 个来自 36 个旗舰开源仓库的任务，由 20 多位维护者参与，每个任务耗时 40 小时以上。评估沿六个维度（行为正确性、回归安全、机械整洁、测试质量、Scope 纪律、代码质量）打分，并设置 blocker 和 non-blocker 标准。结果中 Claude Opus 4.8 在 Diamond 子集得分 13.4%，GPT-5.5 为 6.3%，Kimi K2.6 仅 3.8%，显示前沿模型仍有巨大提升空间。

AI模型 Cognition FrontierCode 代码评估可合并性 Claude Opus 4.8

推荐理由：FrontierCode 把 AI 编程评估从“能跑就行”升级到“能合并”，做代码质量评估或 AI 编程工具的团队可以直接参考这套标准，看看自己的模型在真实维护者眼中能拿几分。

原文

08:46

Gary Marcus@GaryMarcus

83°

Gary Marcus 发推指出 METR 的编码基准已饱和，但 Cognition 随即推出更难的 FrontierCode 评测，最高分仅 13.4%。该评测由顶级开源维护者花费 40+ 小时设计，首次衡量代码是否可合并维护，而非仅功能正确。这揭示了当前模型在编写可维护代码方面的严重不足，为 AI 编程能力评估设立了新标准。

AI模型编码基准 FrontierCode Claude Opus 4.8 代码可维护性 AI 评估

推荐理由：做 AI 编程评估或关注模型实际能力的开发者，这个新基准直接戳中了当前模型的软肋——代码能跑但不可维护，值得看看你的模型能拿几分。

原文

08:05

NVIDIA AI@NVIDIAAI

精选72°

NVIDIA 在 Blackwell 平台上使用 NVFP4 精度训练了 Llama 3 8B 和 405B 模型。实验结果显示，相比 FP8 精度，NVFP4 实现了 1.31 到 1.73 倍的训练速度提升，且未出现任何精度损失。这一突破意味着大模型训练可以在更短的时间内完成，同时保持模型质量。对于需要大规模训练 AI 模型的团队来说，这能显著降低计算成本和等待时间。

AI模型 NVIDIA Blackwell NVFP4 Llama 3 训练加速

推荐理由：训练速度提升 1.3-1.7 倍且零精度损失，做大规模模型训练的团队可以直接在 Blackwell 上尝试 NVFP4，省时省成本。

原文

05:03

lmarena.ai@lmarena_ai

精选

xAI 的 Grok Build 0.1 和 Grok 4.3 (High) 在最新的 Agent Arena 排行榜中分别位列第15和第17名。Grok Build 0.1 在 bash 能力上有明显提升，但可操控性稍差且更容易出现工具幻觉，不过整体任务完成率更高。Agent Arena 使用因果追踪方法对模型在真实世界智能体任务中的表现进行排名。该排行榜基于全球用户社区提交的真实任务，从5个信号维度评估模型表现。

AI模型智能体 Grok xAI Agent Arena 模型排名

推荐理由：xAI 的模型在 Agent Arena 中取得不错排名，做智能体开发和自动化任务的团队可以看看 Grok Build 0.1 在 bash 能力上的改进，值得关注其实际任务完成率提升。

原文

05:01

a16z@a16z

精选

World Labs CEO 李飞飞在 Bloomberg Tech Live 上指出“世界模型”一词已被过度使用，并澄清了当前空间智能领域对世界模型的三种定义。第一类是渲染器，负责生成精美像素；第二类是规划器，主要用于机器人和机器决策；第三类是模拟器，她认为这是三者中的关键，既能成为渲染器也能成为规划器，是解锁空间智能的核心路径。World Labs 正专注于模拟器这一层的研发。

AI模型世界模型空间智能李飞飞 World Labs 模拟器

推荐理由：李飞飞把混乱的“世界模型”概念拆清楚了，做空间智能、机器人或 3D 生成的研究者值得一看，能帮你快速对齐行业术语和方向。

原文

02:22

Decoder@Jonathan Kemper

精选72°

微软研究院推出Lens，一个仅3.8B参数的文本到图像模型，在基准测试中匹配更大模型，训练成本大幅降低。其关键创新是使用GPT-4.1生成的8亿条详细图像描述，而非模糊的网页替代文本。代码和权重已开源。这表明高质量标注比模型规模更重要。

AI模型图像生成微软 Lens GPT-4.1 开源/仓库

推荐理由：做图像生成模型训练或研究的团队，可以借鉴Lens用详细标注替代规模扩张的思路，直接复用其开源代码和权重，能大幅降低训练成本。

原文

00:49

marktechpost@Asif Razzaq

精选

小米MiMo团队与TileRT发布MiMo-V2.5-Pro-UltraSpeed推理模式。该模式在单个8-GPU普通节点上，使1万亿参数模型MiMo-V2.5-Pro的译码速度超过1000 tokens/秒。这是首次在commodity GPU上实现如此高吞吐量。相比此前方案，速度提升显著。

AI模型 MiMo TileRT MiMo-V2.5-Pro-UltraSpeed Xiaomi 推理加速

推荐理由：1万亿参数跑出1000t/s

原文

00:42

OpenRouter@OpenRouterAI

精选

OpenRouter 指出，在决策点切换模型能有效减少自偏好偏差，即模型倾向于固守自身失败的推理轨迹。该观点引用 Panickssery 等人 2024 年的论文，强调切换模型可打破这种锚定效应，提升决策质量。这对于需要多模型协作或复杂推理的 AI 应用场景具有重要参考价值。

AI模型 OpenRouter 自偏好偏差模型切换推理优化决策点

推荐理由：做多模型编排或推理链优化的开发者，这个发现能帮你减少模型自我锚定带来的错误，值得在 pipeline 里试试切换策略。

原文

6月8日

22:52

Philipp Schmid@_philschmid

精选72°

Google 发布了新的 Gemma 4 QAT（量化感知训练）检查点，在保持相似性能的同时，将内存占用降低约 4 倍。该版本引入了一种新的移动端量化格式，将 Gemma 4 E2B 的内存占用降至仅 1GB。QAT 通过在训练过程中模拟低精度运算，实现无损量化，从而得到更小、更快的模型。这些检查点已在 Hugging Face 上提供，可直接运行。

AI模型 Gemma 4 QAT 量化移动端部署 Hugging Face

推荐理由：做移动端或边缘部署的开发者终于可以跑 Gemma 4 了——内存降到 1GB 意味着手机和 IoT 设备也能用，建议直接去 Hugging Face 拉下来试试。

原文

19:01

AI Will@FinanceYF5

Claude Opus 4.7 在 Android Arena 排行榜中以 1313 Elo 分排名第一，超越 OpenAI 的 GPT-5.5 和谷歌的 Gemini 3.5 Flash。Anthropic 在前十名中占据五个席位，显示出其在移动端 AI 领域的强势地位。该排行榜主要评估模型在安卓设备上的实际表现，对移动端 AI 应用开发者有重要参考价值。

AI模型 Claude Opus 4.7 Android Arena 排行榜 Anthropic GPT-5.5

推荐理由：移动端 AI 开发者可以快速了解当前安卓设备上最强的模型格局——Claude Opus 4.7 领先，Anthropic 整体优势明显，值得关注其技术路线。

原文

17:14

17:14IT之家（博客/媒体）

精选

开放媒体联盟AOMedia发布AV2 v1.0.0标准，相比AV1可在相同画质下减少三成带宽需求。新标准增强对AR/VR内容、多画面传输、屏幕内容编码等场景的支持。目前RTX 30/40/50系、RDNA 2/3/4、苹果M3等芯片仅支持AV1，尚未支持AV2硬件加速。参考AV1普及历程，AV2硬件广泛支持预计等到2028年。

AI模型 AV2 AV1 AOMedia 视频编码压缩效率

推荐理由：AV2省带宽三成，2028见

原文

17:03

marktechpost@Asif Razzaq

精选

微软 AI 发布了其自研语音转文字模型 MAI-Transcribe-1.5，这是该系列的第二代。该模型支持 43 种语言，在 Artificial Analysis 排行榜上词错误率低至 2.4%，在 FLEURS 基准测试中达到最佳精度。它引入了关键词（实体）偏置功能，可针对特定领域术语提升识别准确率。长音频转录速度提升高达 5 倍，1 小时音频可在 15 秒内完成转录。该模型已在 Azure AI Foundry 中正式可用。

AI模型语音识别微软 MAI-Transcribe-1.5 Azure AI Foundry 多语言

推荐理由：语音转文字场景的开发者终于有了微软官方的强力选项——MAI-Transcribe-1.5 在精度和速度上双双突破，做会议转录、客服质检或多语言内容处理的团队可以直接在 Azure 上试用，省去自建模型的麻烦。

原文

14:17

Gary Marcus@GaryMarcus

精选

Gary Marcus 针对 Anthropic 近期关于接近递归自我改进（RSI）的暗示提出质疑。他引用了一项名为 Meta-Agent Challenge（MAC）的基准测试，该测试要求 AI 代理在没有人类设计帮助的情况下，自主构建另一个能完成隐藏测试任务的代理。结果显示，当前 AI 代理在数学、科学问答、竞赛编程、软件修复等五个领域，通常无法超越人类设计的强代理方案，仅有少数闭源前沿模型（如 Claude）表现尚可。Marcus 指出，真正的自主不仅需要工具使用，还需预算意识、失败恢复、压力下的克制以及设计迭代的纪律，而当前代理只是强大的执行者，缺乏工程所需的可靠判断力。

AI模型 RSI Meta-Agent Challenge Anthropic AI 代理自主开发

推荐理由：Gary Marcus 用 Meta-Agent 挑战戳破了 Anthropic 的 RSI 叙事，关心 AI 自主性和工程可靠性的开发者值得一读，看完会对当前代理的局限性有清醒认识。

原文

00:44

宝玉@dotey

用户 @ysober 在 X 上分享实测结果：使用 Claude 配合 Qwen3.7-Max 模型，总花费不到 10 元人民币，效果优于 GPT5.5，略低于 Opus4.8。该测试展示了低成本下通过模型组合获得高性能的可行性，对预算有限的开发者和团队有参考价值。Qwen3.7-Max 作为阿里通义千问的最新模型，在性价比上表现突出。

AI模型 Qwen3.7-Max Claude GPT5.5 Opus4.8 模型对比

推荐理由：不到 10 元就能跑出接近 Opus4.8 的效果，做 AI 应用开发的团队值得关注这个低成本高性价比的模型组合方案。

原文

6月7日

21:43

LovartAI@lovart_ai

Ideogram 4.0 正式发布，官方称其为“世界上最好的开源图像模型”。该模型支持权重下载、用户在自己的数据上进行微调，并可在本地硬件上运行。目前已在所有 Ideogram 套餐和 API 上可用。这一发布意味着开发者可以自由定制和部署高质量的图像生成能力，降低了图像 AI 的门槛。

AI模型开源/仓库图像生成 Ideogram 4.0 模型微调本地部署

推荐理由：开源图像模型终于有了新标杆，做图像生成、模型微调或本地部署的团队可以直接下载权重试试，不用再依赖闭源 API。

原文

14:27

marktechpost@Asif Razzaq

精选

UIUC与Chroma联合推出Harness-1，一个20B参数的检索子智能体，通过强化学习在状态搜索框架中训练。该框架维护候选池、重要性标记的精选集、证据图和验证记录，策略决定搜索、筛选、验证和停止时机。在8个基准测试中，Harness-1平均精选召回率达0.730，领先下一名开源子智能体11.4个百分点，仅次于Opus-4.6。模型权重和框架代码已开源。

AI模型 Harness-1 检索子智能体强化学习状态搜索框架开源

推荐理由：Harness-1用强化学习解决了检索子智能体的搜索策略优化问题，做信息检索或RAG系统的开发者可以直接用开源代码复现，效果接近闭源最强模型。

原文

10:23

AI Will@FinanceYF5

Claude Mythos 模型生成了一个令人惊艳的 Minecraft 复刻版，从画面到玩法机制都实现了高度还原。该版本不仅细节用心，还成功加入了多人模式，展示了模型在复杂游戏生成方面的能力。这是目前公开可见的由模型生成的 Minecraft 复刻版中质量最高的之一。

AI模型 Claude Mythos Minecraft 复刻游戏生成 AI 模型多人模式

推荐理由：对游戏开发者和 AI 生成内容感兴趣的读者值得一看——Claude Mythos 展示了模型从零构建完整游戏玩法的潜力，甚至能自动实现多人联机，建议点开视频感受效果。

原文

10:21

AI Will@FinanceYF5

一位开发者使用 Claude Mythos 模型生成了一个《我的世界》克隆游戏，其图形和机制细节丰富，令人印象深刻。该模型不仅实现了基础的游戏玩法，还成功添加了多人模式，且运行流畅。这展示了 AI 模型在复杂游戏生成方面的巨大潜力，能够从零开始构建功能完整的交互式体验。

AI模型 Claude Mythos 游戏生成我的世界克隆 AI模型多人模式

推荐理由：对于游戏开发者和 AI 爱好者来说，这展示了 AI 模型生成复杂、可玩游戏的惊人能力，值得一看。

原文

10:12

Gary Marcus@GaryMarcus

Gary Marcus 回顾3.5年前的推文，指出大型语言模型（如GPT-3）在生成超现实散文和通过基准测试方面表现出色，但在可靠地从用户话语中推断用户意图方面仍然不足。他认为，尽管编码和数学领域通过神经符号技术有所改进，但核心问题依然存在。Marcus 强调，LLM 可能永远无法成为可靠推断用户意图的技术。这条推文引发了对AI能力边界和实用性的讨论。

AI模型 LLM GPT-3 神经符号技术用户意图 AI局限性

推荐理由：Gary Marcus 的反思戳中了 LLM 的长期痛点——生成能力强但意图理解弱，做 AI 产品设计或对话系统的开发者看完会重新评估技术选型。

原文

09:48

pandaily@contact@pandaily.com (Pandaily)

精选

小红书（RED）研究团队提出Evolving-RL框架，通过强化学习让AI智能体在经验中自主进化技能，无需额外技能提取模块。该框架使智能体能够动态调整行为策略，适应新任务和环境变化，显著提升在复杂场景下的表现。这一方法为构建更灵活、自适应的AI系统提供了新思路，尤其适用于需要持续学习的应用场景。

AI模型强化学习智能体技能进化小红书自适应系统

推荐理由：做AI智能体开发的团队终于有了让模型自主进化的方案——Evolving-RL省去了手动设计技能模块的麻烦，做强化学习或自适应系统的开发者值得深入研究。

原文

09:44

pandaily@contact@pandaily.com (Pandaily)

Harness Engineering 是近期 AI 领域兴起的新概念，旨在通过系统化方法将 AI 模型的能力“驾驭”到实际应用中。它强调在模型训练之外，设计有效的输入输出接口、反馈循环和任务分解策略，以提升 AI 系统的可靠性和实用性。这一范式被认为是对传统“提示工程”的升级，尤其适用于复杂任务和多步骤工作流。该概念由多位 AI 研究者和从业者推动，正在成为行业讨论的焦点。

AI模型 Harness Engineering AI 范式提示工程系统化方法 AI 应用

推荐理由：Harness Engineering 解决了 AI 落地中模型能力与真实场景脱节的问题，做 AI 应用开发或系统集成的团队值得关注，它可能改变你设计 AI 工作流的方式。

原文

08:25

AI Will@FinanceYF5

88°

NVIDIA 近日发布 Nemotron 3 Ultra，这是一款专为长期运行的 AI Agent 设计的旗舰开源模型。该模型采用 550B 参数的 MoE 架构，激活参数仅 55B，推理速度比同级开源模型快 5 倍，Agent 任务成本降低 30%。Nemotron 3 Ultra 旨在解决复杂、长时间运行的 Agent 任务中的效率与成本问题，为开发者提供高性能且经济的选择。该模型的开源特性有望推动 Agent 应用生态的发展。

AI模型 NVIDIA Nemotron 3 Ultra 开源模型 Agent MoE

推荐理由：做 Agent 开发的团队终于有了一个高性能且成本可控的开源选择——Nemotron 3 Ultra 推理快 5 倍、成本降 30%，值得直接上手试试。

原文

07:27

AI Will@FinanceYF5

精选

VIGA将Blender转化为反馈环境，用于训练3D资产的行为属性，如门开合、铰链旋转、抽屉拉动。Articraft3D则把3D生成定义为写测试驱动的程序，确保模型不仅外观逼真，物理交互也正确。两项工作都聚焦于3D资产的功能性验证，超越传统渲染静态图。

AI模型 VIGA Articraft3D Blender 3D生成测试驱动

推荐理由：3D生成要行为正确，试试它们

原文

6月6日

19:15

Decoder@Jonathan Kemper

78°

一款名为 Audio Interaction 的新型开源语音模型发布，它能够持续监听音频流，并每 0.4 秒决定是否说话或保持沉默，无需等待录音结束。该模型支持翻译、转录、聊天以及识别日常噪音（如咳嗽），实现了真正的实时交互。与 GPT-4o 或 Qwen3.5-Omni 不同，它在一个流中处理所有任务。代码、模型权重和下载说明已在 GitHub 上以 Apache 2.0 开源许可证发布，训练数据也将随后提供。

AI模型开源/仓库语音模型实时交互 Audio Interaction Apache 2.0

推荐理由：这款模型解决了实时语音交互中“等待录音结束”的痛点，做语音助手或实时翻译的开发者可以直接在 GitHub 上试玩，体验每 0.4 秒的决策能力。

原文

15:55

marktechpost@Asif Razzaq

精选

NVIDIA发布了Nemotron 3.5 ASR，一个600M参数的流式语音识别模型。该模型采用cache-aware架构，可从单个检查点实时转录40种语言-区域。它针对低延迟场景优化，支持多种语言的实时语音转文字。

AI模型 Nemotron 3.5 ASR NVIDIA 语音识别流式模型多语言

推荐理由：600M模型转40语言实时

原文

15:24

Decoder@Jonathan Kemper

83°

阿里巴巴Qwen团队发布Qwen3.7-Plus，这是一个多模态智能体模型，集视觉感知、GUI操作和编码于一体。在演示中，基于该模型的智能体自主开发了一款词汇学习应用，在11小时内通过1000次智能体调用生成了超过10000行代码。该模型在Qwen自己的基准测试中屏幕理解能力领先，但整体性能参差不齐。Qwen3.7-Plus是专有模型，未开源，定价远低于西方前沿模型。

AI模型多模态智能体 Qwen3.7-Plus 阿里巴巴自主开发

推荐理由：阿里将多模态AI推向自主智能体新高度，做GUI自动化或端到端应用开发的团队值得关注——它能自己写代码、操作界面，11小时产出上万行代码，效率惊人。

原文

11:06

11:06IT之家（博客/媒体）

精选

中国科学院海洋研究所发布了“琅琊”2.0，这是全球海洋现象智能预报大模型，在2024年1.0版本基础上，从海洋状态变量预报扩展至复杂海洋现象智能预报。该模型针对台风、降水、风暴潮、海冰等六类现象开发了6个垂直模型，提升了预报速度和精度。例如，台风预报模型可提升24小时路径与强度预报能力，海冰预报模型可实现3公里分辨率下月尺度以上的北极海冰快速预测。相比传统数值模式，智能预报大模型解决了计算成本大、更新频率低的问题，为海洋防灾减灾和航运安全提供科技支撑。

AI模型琅琊2.0 海洋预报 AI大模型台风预报海冰预报

推荐理由：海洋预报从数值模式转向AI大模型，精度和速度都大幅提升，做海洋防灾、航运规划或极地研究的团队值得关注，可以直接评估其预报能力。

原文

09:43

Pandaily@contact@pandaily.com (Pandaily)

精选

AI模型 Step 3.7 Flash 基准测试推理优化成本效率 StepFun

推荐理由：做 AI 应用选型或部署推理服务的团队，Step 3.7 Flash 在速度和成本上的优势值得直接对比测试，可能帮你省下不少预算。

原文

08:26

rohanpaul_ai@rohanpaul_ai

精选72°

Google 发布了 Gemma 4 的 QAT（量化感知训练）检查点，将最小模型从 11.4GB 压缩至 1.1GB，纯文本版本仅 0.84GB。与传统的 PTQ（训练后量化）不同，QAT 在训练过程中模拟压缩，让模型学会在权重被压缩时保持推理质量。Google 还构建了针对移动端的格式，包括静态激活、通道级量化、目标 2 位量化和 KV 缓存优化，减少手机计算负担，延长长对话的内存使用。这使得 Gemma 4 更容易在手机和笔记本上运行，降低了部署门槛。

AI模型 Gemma 4 量化移动端部署 QAT 模型压缩

推荐理由：QAT 解决了模型压缩后推理质量下降的痛点，做移动端 AI 部署的开发者可以直接用这些检查点，在手机上跑大模型不再吃内存。

原文