全部 AI 动态 · AI 热点

6月10日

01:24

marktechpost@Asif Razzaq

精选

Google 发布 Gemini 3.5 Live Translate，一个支持流式语音到语音翻译的音频模型，覆盖 70 多种语言。该模型通过 Gemini Live API 提供给开发者，并集成到 Google Meet 和翻译应用中。它能够连续生成音频，延迟仅为几秒。

推荐理由：70+语言实时语音翻译

原文

6月9日

16:33

Pandaily@contact@pandaily.com (Pandaily)

UniSound 发布了其通用基础模型 U2，该模型以效率优先为特色，在保持竞争力的同时将 token 消耗降低了 25%。U2 的推出标志着 UniSound 正式进入中国大模型的第一梯队。该模型通过优化架构和训练策略，实现了更低的推理成本，对于需要大规模部署 LLM 的企业来说是一个重要进展。U2 的发布也反映了中国大模型领域从单纯追求参数规模转向注重实际应用效率的趋势。

AI模型 UniSound U2 大模型效率优化 token 节省

推荐理由：U2 的 25% token 节省直接降低了企业调用大模型的成本，做 AI 应用开发和模型部署的团队值得关注这个效率标杆。

原文

15:00

15:00IT之家（博客/媒体）

88°

小米 MiMo 与 TileRT 联合发布 MiMo-V2.5-Pro-UltraSpeed 模式，首次在 1 万亿参数模型上实现超过 1000 tokens/s 的输出速度。该模式 API 已上线，定价为原版的 3 倍，但输出速度提升约 10 倍。由于高速推理资源有限，该模式采取申请制限时开放，申请通过的用户可在 2026 年 6 月 9 日至 6 月 23 日期间免费体验 Chat 功能，每日最多 10 次会话，每次最长 30 分钟。这一突破标志着万亿参数模型在实时推理场景中的实用化迈出关键一步。

AI模型万亿参数模型推理速度 MiMo TileRT API

推荐理由：万亿参数模型首次达到千 tokens/s 输出，做大规模推理或实时 AI 应用的团队可以直接申请体验，看看能否真正落地到生产环境。

原文

02:22

Decoder@Jonathan Kemper

精选72°

微软研究院推出Lens，一个仅3.8B参数的文本到图像模型，在基准测试中匹配更大模型，训练成本大幅降低。其关键创新是使用GPT-4.1生成的8亿条详细图像描述，而非模糊的网页替代文本。代码和权重已开源。这表明高质量标注比模型规模更重要。

AI模型图像生成微软 Lens GPT-4.1 开源/仓库

推荐理由：做图像生成模型训练或研究的团队，可以借鉴Lens用详细标注替代规模扩张的思路，直接复用其开源代码和权重，能大幅降低训练成本。

原文

00:49

marktechpost@Asif Razzaq

精选

小米MiMo团队与TileRT发布MiMo-V2.5-Pro-UltraSpeed推理模式。该模式在单个8-GPU普通节点上，使1万亿参数模型MiMo-V2.5-Pro的译码速度超过1000 tokens/秒。这是首次在commodity GPU上实现如此高吞吐量。相比此前方案，速度提升显著。

AI模型 MiMo TileRT MiMo-V2.5-Pro-UltraSpeed Xiaomi 推理加速

推荐理由：1万亿参数跑出1000t/s

原文

6月8日

17:14

17:14IT之家（博客/媒体）

精选

开放媒体联盟AOMedia发布AV2 v1.0.0标准，相比AV1可在相同画质下减少三成带宽需求。新标准增强对AR/VR内容、多画面传输、屏幕内容编码等场景的支持。目前RTX 30/40/50系、RDNA 2/3/4、苹果M3等芯片仅支持AV1，尚未支持AV2硬件加速。参考AV1普及历程，AV2硬件广泛支持预计等到2028年。

AI模型 AV2 AV1 AOMedia 视频编码压缩效率

推荐理由：AV2省带宽三成，2028见

原文

17:03

marktechpost@Asif Razzaq

精选

微软 AI 发布了其自研语音转文字模型 MAI-Transcribe-1.5，这是该系列的第二代。该模型支持 43 种语言，在 Artificial Analysis 排行榜上词错误率低至 2.4%，在 FLEURS 基准测试中达到最佳精度。它引入了关键词（实体）偏置功能，可针对特定领域术语提升识别准确率。长音频转录速度提升高达 5 倍，1 小时音频可在 15 秒内完成转录。该模型已在 Azure AI Foundry 中正式可用。

AI模型语音识别微软 MAI-Transcribe-1.5 Azure AI Foundry 多语言

推荐理由：语音转文字场景的开发者终于有了微软官方的强力选项——MAI-Transcribe-1.5 在精度和速度上双双突破，做会议转录、客服质检或多语言内容处理的团队可以直接在 Azure 上试用，省去自建模型的麻烦。

原文

6月7日

14:27

marktechpost@Asif Razzaq

精选

UIUC与Chroma联合推出Harness-1，一个20B参数的检索子智能体，通过强化学习在状态搜索框架中训练。该框架维护候选池、重要性标记的精选集、证据图和验证记录，策略决定搜索、筛选、验证和停止时机。在8个基准测试中，Harness-1平均精选召回率达0.730，领先下一名开源子智能体11.4个百分点，仅次于Opus-4.6。模型权重和框架代码已开源。

AI模型 Harness-1 检索子智能体强化学习状态搜索框架开源

推荐理由：Harness-1用强化学习解决了检索子智能体的搜索策略优化问题，做信息检索或RAG系统的开发者可以直接用开源代码复现，效果接近闭源最强模型。

原文

09:48

pandaily@contact@pandaily.com (Pandaily)

精选

小红书（RED）研究团队提出Evolving-RL框架，通过强化学习让AI智能体在经验中自主进化技能，无需额外技能提取模块。该框架使智能体能够动态调整行为策略，适应新任务和环境变化，显著提升在复杂场景下的表现。这一方法为构建更灵活、自适应的AI系统提供了新思路，尤其适用于需要持续学习的应用场景。

AI模型强化学习智能体技能进化小红书自适应系统

推荐理由：做AI智能体开发的团队终于有了让模型自主进化的方案——Evolving-RL省去了手动设计技能模块的麻烦，做强化学习或自适应系统的开发者值得深入研究。

原文

09:44

pandaily@contact@pandaily.com (Pandaily)

Harness Engineering 是近期 AI 领域兴起的新概念，旨在通过系统化方法将 AI 模型的能力“驾驭”到实际应用中。它强调在模型训练之外，设计有效的输入输出接口、反馈循环和任务分解策略，以提升 AI 系统的可靠性和实用性。这一范式被认为是对传统“提示工程”的升级，尤其适用于复杂任务和多步骤工作流。该概念由多位 AI 研究者和从业者推动，正在成为行业讨论的焦点。

AI模型 Harness Engineering AI 范式提示工程系统化方法 AI 应用

推荐理由：Harness Engineering 解决了 AI 落地中模型能力与真实场景脱节的问题，做 AI 应用开发或系统集成的团队值得关注，它可能改变你设计 AI 工作流的方式。

原文

6月6日

19:15

Decoder@Jonathan Kemper

78°

一款名为 Audio Interaction 的新型开源语音模型发布，它能够持续监听音频流，并每 0.4 秒决定是否说话或保持沉默，无需等待录音结束。该模型支持翻译、转录、聊天以及识别日常噪音（如咳嗽），实现了真正的实时交互。与 GPT-4o 或 Qwen3.5-Omni 不同，它在一个流中处理所有任务。代码、模型权重和下载说明已在 GitHub 上以 Apache 2.0 开源许可证发布，训练数据也将随后提供。

AI模型开源/仓库语音模型实时交互 Audio Interaction Apache 2.0

推荐理由：这款模型解决了实时语音交互中“等待录音结束”的痛点，做语音助手或实时翻译的开发者可以直接在 GitHub 上试玩，体验每 0.4 秒的决策能力。

原文

15:55

marktechpost@Asif Razzaq

精选

NVIDIA发布了Nemotron 3.5 ASR，一个600M参数的流式语音识别模型。该模型采用cache-aware架构，可从单个检查点实时转录40种语言-区域。它针对低延迟场景优化，支持多种语言的实时语音转文字。

AI模型 Nemotron 3.5 ASR NVIDIA 语音识别流式模型多语言

推荐理由：600M模型转40语言实时

原文

15:24

Decoder@Jonathan Kemper

83°

阿里巴巴Qwen团队发布Qwen3.7-Plus，这是一个多模态智能体模型，集视觉感知、GUI操作和编码于一体。在演示中，基于该模型的智能体自主开发了一款词汇学习应用，在11小时内通过1000次智能体调用生成了超过10000行代码。该模型在Qwen自己的基准测试中屏幕理解能力领先，但整体性能参差不齐。Qwen3.7-Plus是专有模型，未开源，定价远低于西方前沿模型。

AI模型多模态智能体 Qwen3.7-Plus 阿里巴巴自主开发

推荐理由：阿里将多模态AI推向自主智能体新高度，做GUI自动化或端到端应用开发的团队值得关注——它能自己写代码、操作界面，11小时产出上万行代码，效率惊人。

原文

11:06

11:06IT之家（博客/媒体）

精选

中国科学院海洋研究所发布了“琅琊”2.0，这是全球海洋现象智能预报大模型，在2024年1.0版本基础上，从海洋状态变量预报扩展至复杂海洋现象智能预报。该模型针对台风、降水、风暴潮、海冰等六类现象开发了6个垂直模型，提升了预报速度和精度。例如，台风预报模型可提升24小时路径与强度预报能力，海冰预报模型可实现3公里分辨率下月尺度以上的北极海冰快速预测。相比传统数值模式，智能预报大模型解决了计算成本大、更新频率低的问题，为海洋防灾减灾和航运安全提供科技支撑。

AI模型琅琊2.0 海洋预报 AI大模型台风预报海冰预报

推荐理由：海洋预报从数值模式转向AI大模型，精度和速度都大幅提升，做海洋防灾、航运规划或极地研究的团队值得关注，可以直接评估其预报能力。

原文

09:43

Pandaily@contact@pandaily.com (Pandaily)

精选

AI模型 Step 3.7 Flash 基准测试推理优化成本效率 StepFun

推荐理由：做 AI 应用选型或部署推理服务的团队，Step 3.7 Flash 在速度和成本上的优势值得直接对比测试，可能帮你省下不少预算。

原文

02:59

marktechpost@Asif Razzaq

精选

Google DeepMind 推出 Gemma 4 的 QAT（量化感知训练）检查点，包含 Q4_0 格式（4-bit 量化）和新开发的移动格式。与 BF16 版本相比，Q4_0 可将模型内存占用降低约 75%，而移动格式进一步优化至适合手机等设备。这些检查点面向边缘计算场景，平衡了精度和推理速度。

AI模型 Gemma 4 Google DeepMind QAT 量化模型移动端

推荐理由：Gemma 4 量化版来了，内存省 75%

原文

6月5日

15:42

Pandaily@contact@pandaily.com (Pandaily)

精选

北京大学研究团队推出EvoPhys-World，号称全球首个以人为中心、场景级、全可控的5D世界模型。该模型基于摩尔线程的国产算力基础设施构建，支持物理交互与动态场景生成。在多个仿真场景中，EvoPhys-World实现了物体物理属性与空间关系的实时推理。其自进化机制可基于交互反馈持续优化模型行为，无需人工标注。

AI模型 EvoPhys-World 北京大学 5D世界模型国产算力世界模型

推荐理由：北大开源5D世界模型，物理交互自进化

原文

12:52

12:52IT之家（博客/媒体）

72°

马斯克旗下 xAI 通过 API 开放预览版图像转视频模型 grok-imagine-video-1.5-preview，能将单张静态图片扩展为流畅、带电影感的视频片段。用户提供起始图片并用自然语言描述运动方式，即可控制镜头移动、画面节奏、环境氛围与物理效果。该模型最高支持 720p 视频生成，适合概念验证、分镜测试和短内容生产。xAI 还强调其适合制作多镜头序列，用户可先设计画面再逐段动画化并串联成更长的场景。

AI模型 xAI grok-imagine-video-1.5-preview 图像转视频 720p 电影感

推荐理由：做短视频、概念设计或分镜测试的创作者，现在可以用一张图生成电影感视频，省去逐帧手绘的麻烦，值得通过 API 试玩。

原文

10:45

10:45IT之家（博客/媒体）

精选76°

深圳河套学院联合哈工大、华为等团队，依托华为昇腾910C国产AI算力集群，成功完成1.6万亿参数大模型DeepSeek-V4-Pro的全参数后训练。这是全球第三方机构首次在国产算力平台上完成如此规模的模型训练，模型算力利用率超过30%，关键训练算子效率提升14%，达到工业级运行标准。该成果证明国产AI芯片已能支撑世界级超大参数模型训练，为国产算力生态积累了重要经验。

AI模型华为昇腾910C 国产算力万亿参数大模型 DeepSeek-V4-Pro 模型训练

推荐理由：国产芯片终于能跑万亿参数大模型了，做AI基础设施和模型训练的团队值得关注——这证明昇腾910C已具备工业级训练能力，后续国产替代路径更清晰。

原文

09:56

Pandaily@contact@pandaily.com (Pandaily)

精选

浙江大学与康奈尔大学、新加坡国立大学、西安电子科技大学合作开发视觉推理系统VisualThink-VLA。该系统让机器人直接通过视觉信息推理，无需语言内省，相比文本方法提速22.8倍，同时精度更高。在多个视觉-语言任务上，VisualThink-VLA达到SOTA。

AI模型 VisualThink-VLA Zhejiang University 视觉推理机器人多模态

推荐理由：机器人用眼睛思考，快22倍

原文

05:48

marktechpost@Asif Razzaq

83°

NVIDIA 发布了 Nemotron 3 Ultra，一个 550B 总参数（55B 激活）的开放混合专家模型，采用 Mamba-Transformer 混合架构。该模型支持 100 万 token 的上下文窗口，推理吞吐量比同等精度的开放 LLM 高约 6 倍。NVIDIA 同时开源了模型权重、训练数据和配方，遵循 OpenMDW-1.1 许可。这一发布旨在解决长时运行智能体在推理效率和上下文长度上的瓶颈，为 AI 代理和复杂任务自动化提供了更高效的基础模型。

AI模型 NVIDIA Nemotron 3 Ultra 混合专家模型长上下文智能体

推荐理由：长时智能体开发者终于有了一个兼顾超长上下文和高推理效率的开放模型——Nemotron 3 Ultra 的 6 倍吞吐量提升能显著降低部署成本，做 Agent 或 RAG 系统的团队值得直接试。

原文

05:27

OpenAI@OpenAI (@OpenAI)

OpenAI的研究人员Alex Wei、Hongxun Wu和Wujie Ma在OpenAI播客中分享了一个案例：他们训练的模型发现了一个存在80年的Erdős猜想的反例。这一发现展示了AI模型在数学研究中的潜力，能够协助数学家发现新规律或反例。该事件强调了人机协作在科学探索中的价值，尤其是模型可以处理大量数据并识别人类可能忽略的模式。播客中详细讲述了模型如何通过推理和搜索找到反例，以及数学家如何验证这一结果。

AI模型 OpenAI Erdős猜想数学发现人机协作推理模型

推荐理由：数学家和AI研究者会感兴趣——模型不仅验证了猜想，还主动发现了反例，展示了AI在数学发现中的实际应用。建议点开了解人机协作如何突破传统研究边界。

原文

04:32

04:32Hugging Face: Blog（博客/媒体）

NVIDIA 推出 Nemotron 3.5 Content Safety，这是一款面向全球企业 AI 的可定制多模态安全模型。它支持文本和图像输入，能够检测有害内容（如仇恨言论、暴力、色情等），并允许企业根据自身政策进行微调。该模型基于 Llama 3.1 架构，提供 8B 和 70B 两种规模，在多个安全基准上表现优异。Nemotron 3.5 旨在帮助企业安全部署生成式 AI，满足不同地区的合规要求。

AI模型 NVIDIA Nemotron 3.5 内容安全多模态企业AI

推荐理由：企业部署 AI 最头疼的就是内容安全合规，NVIDIA 这个模型直接让企业按自己的政策微调安全过滤规则，做 AI 应用落地的团队值得关注。

原文

6月4日

22:32

22:32Hugging Face: Blog（博客/媒体）

NVIDIA 发布了 Nemotron 3.5 ASR 模型的微调指南，帮助开发者将通用语音识别模型适配到特定语言、专业领域或口音。该模型基于 Whisper 架构优化，支持低资源语言和噪声环境。指南提供了从数据准备、训练配置到部署的完整流程，并强调使用 LoRA 等高效微调方法降低计算成本。这对于需要高精度语音识别的垂直场景（如医疗、金融、客服）尤其有价值。

AI模型语音识别 ASR Nemotron 微调 NVIDIA

推荐理由：NVIDIA 把 ASR 微调的门槛降下来了，做语音应用的团队（尤其是非英语场景或专业领域）可以直接参考这套流程，省去大量试错成本。

原文

16:15

marktechpost@Asif Razzaq

精选

Miso Labs 发布了 MisoTTS，一个 8B 参数的开源文本转语音模型，专注于情感表达。它采用残差向量量化（RVQ）技术，在不增加参数的情况下扩展声音范围，并能根据文本和音频上下文调整说话人语调。模型架构由 7.7B 主骨干和 300M 深度解码器组成。MisoTTS 的开放权重让开发者和研究者可以自由使用和定制，推动了情感语音合成领域的开源进展。

AI模型文本转语音情感合成开源模型 MisoTTS 残差向量量化

推荐理由：MisoTTS 解决了 TTS 模型情感表达不足的痛点，做语音合成、虚拟助手或内容创作的团队可以直接下载权重试用，感受 8B 模型带来的细腻语调变化。

原文

16:04

16:04IT之家（博客/媒体）

精选

安全研究员Kasra Rahjerdi搭建了一个故意留有漏洞的图书评论APK，测试多款AI大语言模型的安全推理能力。模型需解包APK并识别暴露的Firebase凭据以绕过API访问数据库。每个模型预算10美元，限时2小时，总花费1500美元。结果显示，GPT-5.5在10次运行中成功7次，每次成功成本9.46美元；DeepSeek V4 Pro成功3次，但每次成功成本仅0.62美元，约为GPT-5.5的十五分之一。Gemini多次在任务早期拒绝继续，而Claude Sonnet 4.6和Opus 4.8各成功2次。该测试揭示了不同模型在安全漏洞利用任务中的性能与成本差异，对批量运行安全工具的团队具有现实意义。

AI模型安全测试 GPT-5.5 DeepSeek V4 Pro 漏洞利用成本对比

推荐理由：安全团队和AI开发者可以直观看到不同模型在真实漏洞利用任务中的性价比——GPT-5.5最可靠但贵，DeepSeek V4 Pro成本极低但成功率有限，做自动化安全测试的团队值得参考这个对比。

原文

15:24

15:24IT之家（博客/媒体）

Meta 公司原计划于 4 月发布其闭源 AI 模型 Muse Spark 并同步推出 API，但至今仍未兑现。该模型由 Meta 超级智能实验室开发，内部评测称其可与 OpenAI、Anthropi 竞争，并领先 xAI 的 Grok。然而，由于测试中暴露的漏洞和基础设施扩建需求，发布时间从 4 月推迟至 5 月，再至 6 月。这标志着 Meta 从开源转向闭源路线的关键产品遭遇“难产”，开发者仍无法验证其能力。

AI模型 Meta Muse Spark 闭源模型 API AI 模型延迟

推荐理由：Meta 闭源转型的关键模型一再跳票，关注 AI 模型竞争格局的开发者值得了解背后的技术挑战和延期原因。

原文

14:03

14:03IT之家（博客/媒体）

76°

Ideogram 发布 4.0 开放权重文生图模型，9.3B 参数，采用单流 DiT 架构，文本与图像 tokens 共享注意力序列。该模型在文字绘制上表现突出，能准确呈现长文本，适合海报、商品图等场景。通过边界框和结构化 JSON 训练，用户可精确控制版式和元素位置。在 DesignArena 人类评价榜单中排名全球第 4，超越 Nano Banana Pro，成为最强开源生图模型。

AI模型 Ideogram 4.0 开源/仓库文生图扩散 Transformer 文字绘制

推荐理由：做设计、营销或内容创作的团队终于有了开源可部署的高质量生图模型——Ideogram 4.0 的文字绘制和布局控制能力直接对标商用产品，建议下载权重试试。

原文

04:27

Decoder@Matthias Bastian

78°

Google DeepMind 发布了 Gemma 4 12B 开源模型，原生支持文本、图像和音频处理，仅需 16GB 内存即可在笔记本上运行。该模型在基准测试中几乎与两倍大小的 26B 模型持平，并采用 Apache 2.0 许可证，允许商业使用。这标志着多模态 AI 在消费级硬件上的重大突破，降低了开发者和企业的使用门槛。

AI模型多模态开源/仓库 Gemma 4 Google DeepMind 本地推理

推荐理由：多模态模型终于能跑在普通笔记本上了，做本地 AI 应用或边缘计算的开发者可以直接下载试试，性能还接近两倍大的模型。

原文

03:00

Decoder@Matthias Bastian

78°

Ideogram 发布了其文本到图像模型 4.0 版本，作为开源权重模型，支持原生 2K 分辨率、边界框控制和改进的文本渲染。在 DesignArena 排行榜上，它在所有开源模型中排名第一，仅落后于 OpenAI 和 Google 的闭源系统。商业使用需要付费许可。

AI模型 Ideogram 文本到图像开源模型 2K分辨率文本渲染

推荐理由：对于需要高质量图像生成且注重文本准确性的创作者和开发者，Ideogram 4.0 的开源权重版本提供了顶级性能，值得尝试。

原文

02:51

marktechpost@Asif Razzaq

88°

Google DeepMind 发布了 Gemma 4 12B，一款无编码器的多模态模型，直接将视觉和音频输入送入 LLM 主干，无需传统视觉或音频编码器。该模型原生支持音频理解，可在 16GB 内存的笔记本电脑上本地运行，并采用 Apache 2.0 开源许可。这降低了多模态 AI 的硬件门槛，让开发者能在消费级设备上部署视觉和音频处理能力。Gemma 4 12B 的发布标志着多模态模型向轻量化和本地化迈出重要一步。

AI模型多模态模型开源/仓库 Gemma 4 12B 本地部署无编码器

推荐理由：多模态模型终于能跑在普通笔记本上了，做本地 AI 应用或边缘计算的开发者可以直接下载试用，16GB 内存就能跑视觉+音频推理，开源许可也友好。

原文

6月3日

16:41

marktechpost@Asif Razzaq

83°

NVIDIA 发布了 Cosmos 3，这是一款开源的“全模态世界模型”，采用双塔混合 Transformer 架构，将自回归 VLM 推理器与扩散生成器结合。该模型能够统一物理推理、世界生成和动作生成，为物理 AI 提供基础能力。Cosmos 3 旨在让机器人、自动驾驶等系统更好地理解物理世界并生成合理动作。其开源特性有望加速物理 AI 领域的研究与应用开发。

AI模型 NVIDIA Cosmos 3 物理 AI 世界模型开源/仓库

推荐理由：NVIDIA 把物理推理和世界生成塞进一个开源模型，做机器人或自动驾驶的团队可以直接拿来用，省去从头训练物理世界模型的成本。

原文

14:48

Pandaily@contact@pandaily.com (Pandaily)

精选

中国开源世界模型 Boundless 在全球排行榜上超越 Google、NVIDIA 等巨头的产品，成为第一名。世界模型是能理解和模拟物理现实的 AI 系统，对机器人、自动驾驶等领域至关重要。Boundless 的开源特性降低了研究门槛，让更多团队能参与开发。这一突破显示中国在 AI 基础模型领域的竞争力正在增强。

AI模型世界模型开源/仓库物理模拟中国AI Boundless

推荐理由：世界模型是 AI 的下一个前沿，做机器人或自动驾驶的团队可以直接用 Boundless 开源代码加速研发，值得关注。

原文

12:21

12:21IT之家（博客/媒体）

精选

智元机器人开源了行业首个聚焦物理交互的具身数据集 AGIBOT WORLD 2026 第二期“多样交互”。该数据集系统记录了机器人与真实物理世界之间的复杂、高密度、非理想交互过程，旨在补齐当前世界模型训练中缺失的真实物理交互数据。它将具身智能的数据范式从“学习成功动作”推进到“理解完整的物理分布”，对世界模型、神经仿真器、物理感知等研究至关重要。目前数据集已在 Hugging Face 开放下载。

AI模型具身智能开源/仓库数据集物理交互智元

推荐理由：做具身智能或世界模型研究的团队终于有了真实物理交互数据，不再是模拟器里的完美动作——补齐了训练的关键短板，搞机器人的建议直接去 Hugging Face 下载。

原文

06:32

06:32Simon Willison’s Weblog（博客/媒体）

76°

微软今日发布两款新文本 LLM：MAI-Thinking-1（35B 参数，推理模型，面向早期合作伙伴）和 MAI-Code-1-Flash（5B 参数，专为 GitHub Copilot 和 VS Code 设计，已向个人用户推出）。MAI-Thinking-1 在盲测中优于 Sonnet 4.6，且参数规模较小，运行成本更低。两款模型均使用清洁、商业授权数据从头训练，未蒸馏第三方模型，也未使用未授权的网络数据。这标志着微软在低成本、合规数据训练的高效模型上迈出重要一步。

AI模型微软 MAI-Thinking-1 MAI-Code-1-Flash 推理模型编程助手

推荐理由：微软用 35B 参数模型挑战 Sonnet 4.6，证明小模型也能出奇迹——做推理应用或 Copilot 开发的团队值得关注，尤其是对数据合规有要求的项目。

原文

02:26

02:26IT之家（博客/媒体）

83°

微软在 Build 2026 大会上发布自研 AI 模型系列，包括首款高级推理模型 MAI-Thinking-1。该模型为中等规模，在软件工程基准测试中达到业界领先水平，并承诺完全自研、未使用第三方蒸馏数据。同时发布的还有图像生成模型 MAI-Image 2.5、语音转写模型 MAI-Transcribe-1.5（速度达竞品五倍）、语音合成模型 MAI-Voice-2 及编程辅助模型 MAI-Code-1。MAI-Code-1 已集成到 GitHub Copilot 和 VS Code 中。这标志着微软在推理、图像、语音和编程等 AI 领域全面布局自研模型。

AI模型推理模型微软 MAI-Thinking-1 编程助手语音合成

推荐理由：微软终于拿出了自己的推理模型，而且强调纯自研、不蒸馏，这对关注模型自主可控的开发者是个信号。做软件工程或编程的团队可以关注 MAI-Code-1 在 Copilot 中的实际表现，值得一试。

原文

6月2日

22:33

22:33Hugging Face: Blog（博客/媒体）

Holo3.1 是一个专注于本地化计算机操作的 AI 智能体模型，能够在用户设备上快速执行任务，如文件管理、应用操作等。它强调低延迟和隐私保护，无需依赖云端服务。该模型在多项基准测试中表现出色，尤其适合需要即时响应的场景。Holo3.1 的发布为本地 AI 智能体领域提供了新的选择，降低了使用门槛。

AI模型智能体本地化隐私保护 Holo3.1 计算机操作

推荐理由：对于注重隐私和响应速度的开发者，Holo3.1 提供了本地化计算机操作的实用方案，可以直接在设备上运行，建议尝试集成到自动化工作流中。

原文

17:15

marktechpost@Michal Sutter

83°

阿里Qwen团队在百炼平台推出Qwen3.7-Plus，这是一个多模态智能体模型。它不仅能理解图像和视频，还新增了自主编程、工具调用和深度推理能力。该模型支持视觉理解、复杂推理和自动化迭代，可应用于更广泛的AI任务场景。这标志着阿里在构建全能型AI智能体方面迈出重要一步。

AI模型 Qwen3.7-Plus 多模态智能体工具调用百炼平台

推荐理由：Qwen3.7-Plus把视觉、推理和工具调用整合到一个模型里，做多模态应用的开发者可以直接在百炼平台体验，省去拼接多个模型的麻烦。

原文

16:05

marktechpost@Asif Razzaq

精选

JetBrains 发布了 Mellum2，一个 12B 参数的混合专家（MoE）模型，基于 Apache 2.0 开源协议。该模型在 10.6 万亿 token 上训练，专为多模型 AI 流水线中的快速专用任务优化，如代码补全、重构建议等。Mellum2 旨在平衡性能与效率，适合集成到开发工具中，提升开发者体验。其 MoE 架构使其在保持较小激活参数的同时，实现高精度输出。

AI模型 JetBrains Mellum2 MoE 代码补全开源/仓库

推荐理由：JetBrains 把 MoE 模型塞进开发者工具链，做 IDE 插件或代码分析工具的团队可以直接用 Mellum2 替换通用模型，提升响应速度且不牺牲质量。

原文

13:44

13:44IT之家（博客/媒体）

精选72°

JetBrains 于 6 月 1 日开源了 Mellum2 模型，这是其面向软件工程系统的新一代机器学习模型。相比原版 Mellum，Mellum2 从代码补全模型升级为完整的编码助手，上下文窗口从 8192 Token 扩展到 131072 Token。该模型总参数为 12B，采用稀疏混合专家框架，激活时参数量为 2.5B，在标准硬件上仍能保持较快计算。Mellum2 支持代码生成与编辑、外部工具调用、多步骤智能体工作流和长对话维持，定位在 AI 工作负载路由、低延迟 RAG 管线、复杂工作流中的子智能体以及私有本地 AI 部署。JetBrains 已开源基础版、指令版和思考版，开发者可在 Apache 2.0 许可证下使用。

AI模型 JetBrains Mellum2 开源/仓库编程助手智能体

推荐理由：JetBrains 把自家 IDE 的 AI 能力下放给社区了——做 JetBrains 插件开发或自建 AI 编程管线的团队，可以直接用 Mellum2 跑本地智能体工作流，省去自己训练和调优的麻烦。

原文