全部 AI 动态 · AI 热点

5月23日

17:52

marktechpost@Asif Razzaq

精选76°

微软研究院发布了 Fara1.5 系列浏览器计算机使用智能体，包含 4B、9B 和 27B 三个参数规模。其中 Fara1.5-27B 在 Online-Mind2Web 基准测试上达到 72% 的准确率，超越了 OpenAI Operator、Gemini 2.5 Computer Use 和 Yutori Navigator n1。该系列还配套推出了 FaraGen1.5 合成数据流水线，用于训练智能体执行门控操作。这一进展表明，开源级别的浏览器自动化智能体正在快速追赶并超越闭源竞品。

AI模型浏览器智能体微软 Fara1.5 开源/仓库自动化

推荐理由：做浏览器自动化或 RPA 的开发者终于有了一个开源且性能领先的选择——Fara1.5 直接对标 OpenAI Operator，27B 模型在关键基准上胜出，值得立即上手测试。

原文

17:51

marktechpost@Asif Razzaq

精选

阿里巴巴 Qwen 团队在 2026 年阿里云峰会上推出 Qwen3.7-Max，这是其最先进的智能体模型。该模型拥有 100 万 token 的上下文窗口和扩展思考模式，专为长周期任务设计，包括编程、调试和多步骤工作流自动化。在 Artificial Analysis Intelligence Index 上得分为 56.6，在专有模型中排名第五。

AI模型 Qwen3.7-Max 推理模型智能体百万上下文编程助手

推荐理由：百万 token 上下文窗口让长代码库分析和复杂工作流自动化成为可能，做 AI 智能体或编程工具的开发者值得关注，可以直接用于长周期任务。

原文

17:50

marktechpost@Michal Sutter

78°

Cohere 发布了 Command A+，一个 218B 参数的稀疏混合专家（MoE）模型，整合了此前四个 Command A 变体。该模型在 W4A4 量化下仅需两张 H100 GPU 即可运行，支持 48 种语言，是 Cohere 首个多模态推理模型，专为智能体工作流设计。其开源特性降低了部署门槛，适合需要高效多模态推理和智能体任务的团队。

AI模型 Cohere Command A+稀疏 MoE 多模态推理智能体工作流

推荐理由：Cohere 把 218B 模型压到两张 H100 就能跑，做智能体工作流的团队终于有了高性价比的开源选择——多模态推理和 48 语言支持直接可用，建议试试。

原文

16:21

@atomic_chat_hq@atomic_chat_hq

在游戏开发竞赛中，Deepseek V4 Pro 与 GPT-5.5 被要求制作卡丁车游戏。GPT-5.5 以 0.33 美元成本、25 tok/s 速度生成 10,580 tokens，耗时 7 分钟，最终游戏质量、视觉效果和创意方向明显更优。Deepseek V4 Pro 成本仅 0.07656 美元，便宜 4.3 倍，生成 18,869 tokens（近 2 倍），但游戏在图形、视觉打磨和创意执行上较弱。结论是尽管 Deepseek 定位为强编码模型，在游戏开发测试中仍远落后于 GPT-5.5。

AI模型 Deepseek V4 Pro GPT-5.5 游戏开发模型对比成本效率

推荐理由：想用 AI 做游戏开发的团队，这个对比直接告诉你：省钱不一定省心——Deepseek 便宜但质量差一截，GPT-5.5 贵但成品更靠谱，建议根据预算和品质要求选模型。

原文

16:19

@atomic_chat_hq@atomic_chat_hq

精选72°

Atomic Chat 团队通过 Multi-Token Prediction (MTP) 技术，在 2 块 RTX 5090 上对 Qwen 模型实现了最高 2.5 倍的推理加速。其中，Qwen3.6 27B 密集模型从 51 tps 提升至 117 tps（+137%），而 MoE 模型 35B-A3B 从 218 tps 提升至 267 tps（+25%）。MTP 通过一次前向传播验证多个预测 token，显著减少了内存带宽瓶颈，密集模型受益更大。该技术保持零精度损失，仅需额外约 1 GB 显存，且代码已开源。

AI模型推理加速 MTP/多token预测 Qwen MoE/密集模型开源/仓库

推荐理由：MTP 技术让本地大模型推理速度翻倍，尤其适合在消费级显卡上跑密集模型的开发者——2 块 RTX 5090 就能让 27B 模型达到 117 tps，值得直接试开源代码。

原文

16:19

@atomic_chat_hq@atomic_chat_hq

精选76°

在编写自训练俄罗斯方块机器人的真实智能体任务中，Qwen 3.7-Max 以 56% 的改进幅度、仅 1.32 美元的训练成本，全面超越 Claude Opus 4.7（+28%，12.15 美元）和 GPT-5.5（+7%，2.85 美元）。测试中每个模型可读取自身代码、运行基准测试并迭代重写 10 轮。Qwen 3.7-Max 在性能提升和成本效率上均占优，成本仅为 Claude 的 1/9、GPT 的 1/2。这表明 Qwen Max 在长智能体循环任务中具有显著优势。

AI模型 Qwen 3.7-Max 智能体模型对比成本效率自迭代

推荐理由：做智能体开发或自动化任务的团队，Qwen 3.7-Max 在成本与性能上碾压对手，值得在类似场景中直接替换测试。

原文

15:00

15:00IT之家（博客/媒体）

精选

智元发布新一代二阶段Motion-Between运控基座模型BFM-2，旨在让机器人具备类似“肌肉记忆”的自主运动能力。该模型能在任意状态（静态、预设动作或随机输入）下，让机器人自主进行高稳定性的动作插值和动态任务闭环。演示视频显示，搭载BFM-2的机器人被打倒在地后能快速站起并自我平衡。这为具身智能提供了更可靠的运动底座，提升了机器人在复杂环境中的适应性和鲁棒性。

AI模型机器人运动控制基座模型具身智能智元

推荐理由：做机器人运动控制的团队终于有了更可靠的基座模型——BFM-2解决了机器人在任意状态下自主恢复和动态平衡的痛点，做具身智能或机器人开发的值得关注。

原文

14:42

Greg Brockman@gdb

DHH 在 X 上发帖称 GPT-5.5 在复杂智能体任务上表现惊人，相比 GPT-5.2 有显著进步，甚至让 Opus 4.7 显得像倒退。他认为这是 OpenAI 的强力回归，体现了模型竞争的激烈程度。该评价来自知名开发者，对关注 AI 模型迭代和智能体能力的读者有参考价值。

AI模型 GPT-5.5 智能体模型评测 OpenAI DHH

推荐理由：DHH 作为 Ruby on Rails 创始人，他的实战评测对做复杂智能体开发的团队很有参考价值——GPT-5.5 的进步值得亲自试一下。

原文

10:42

10:42IT之家（博客/媒体）

78°

微软研究院推出 Fara1.5 系列浏览器 AI 智能体模型，包含 4B、9B 和 27B 三个参数版本。该模型通过读取浏览器截图并输出鼠标键盘操作来完成网页任务，采用“观察—思考—行动”循环。在 Online-Mind2Web 基准测试中，Fara1.5-27B 以 72% 的任务成功率超越 OpenAI Operator（58.3%）和 Gemini 2.5 Computer Use（57.3%）。模型基于 Qwen3.5 微调，使用约 200 万条样本训练，并在安全方面设计了主动询问机制。配套的 MagenticLite 沙盒浏览器提供了安全边界。

AI模型微软 Fara1.5 浏览器智能体 Qwen3.5 任务成功率

推荐理由：做浏览器自动化或网页智能体的开发者终于有了一个开源可用的强基线——Fara1.5 在多项基准上碾压 OpenAI Operator，且附带安全机制，建议直接下载试试。

原文

09:53

09:53Hugging Face: Blog（博客/媒体）

精选

NVIDIA 发布了 Nemotron-Labs 扩散语言模型，该模型采用扩散机制替代传统的自回归生成方式，大幅提升文本生成速度，接近光速。与 GPT-4 等模型相比，Nemotron-Labs 在保持生成质量的同时，推理速度提升了一个数量级。该模型在多个基准测试中表现出色，尤其适合需要低延迟的实时应用场景。这一突破可能改变大语言模型的部署范式，让文本生成更接近实时交互。

AI模型扩散模型文本生成 NVIDIA 推理加速 Nemotron-Labs

推荐理由：NVIDIA 的扩散语言模型将文本生成速度推向新高度，做实时对话或低延迟应用的开发者可以直接关注，它可能改变你对大模型推理速度的认知。

原文

09:26

rohanpaul_ai@rohanpaul_ai

72°

DeepMind 创始人 Demis Hassabis 指出当前 AI 的局限：语言可以描述世界，但无法包含世界。语言模型从文本中意外学到了大量现实结构，但文本只是经验的压缩残渣，而非经验本身。世界由需要亲身经历、触摸、预测、违反和修复的约束构成，而非仅由可命名的事实组成。Hassabis 认为世界模型旨在学习物理现实的隐藏语法——物体如何持续、力如何展开、空间如何变化、行动如何产生反馈。他强调，智能不仅是回答得好，更是知道如果你移动、伸手、推、闻、滑倒或失败，接下来会发生什么。

AI模型世界模型语言模型 Demis Hassabis DeepMind AGI

推荐理由：Hassabis 点出了当前大语言模型的核心天花板——文本无法替代真实体验，做 AI 研究或关注 AGI 路径的人值得细读，看完会对世界模型的价值有更深理解。

原文

05:18

NVIDIA AI@NVIDIAAI

72°

NVIDIA Research 推出 LongLive-2.0，一个端到端的 NVFP4 训练与推理系统，专门解决长视频生成问题。该系统将 NVFP4 感知训练、蒸馏和 W4A4 推理对齐，弥补了低精度部署中训练与运行之间的差距。在保持基准质量的同时，显著提升了速度和内存效率。这标志着长视频生成从模型问题转向系统问题，为实际部署提供了更高效的方案。

AI模型 NVIDIA 长视频生成 NVFP4 训练推理系统低精度部署

推荐理由：长视频生成一直受限于计算和内存瓶颈，NVIDIA 这次从系统层面给出了端到端方案。做视频生成模型训练或部署的团队，可以直接参考这套 NVFP4 对齐方法，提升效率。

原文

04:21

NVIDIA AI@NVIDIAAI

精选

NVIDIA 推出 LongLive-2.0，支持生成 720p 分辨率的长视频。该模型在多镜头序列中保持主体和背景一致性，并能在视频分块边界处切换提示词。相比前代，LongLive-2.0 在长视频连贯性和用户控制性上有所提升。

AI模型 LongLive-2.0 NVIDIA 视频生成长视频

推荐理由：NVIDIA 新模型能生成长视频还保持一致性

原文

03:38

Anthropic@AnthropicAI

精选

Anthropic 在 Project Glasswing 的初始更新中报告，Claude Mythos Preview 模型能够发现大量软件漏洞。该模型的能力可能对软件行业的安全流程产生显著影响。Anthropic 提示行业需适应这种新型漏洞发现方式的规模。

AI模型 Claude Mythos Preview Anthropic Project Glasswing AI安全软件漏洞

推荐理由：Anthropic 展示了 Claude 发现漏洞的新能力

原文

02:16

Logan Kilpatrick@OfficialLoganK

精选

Gemini 3.5 Flash 在 Roboflow 视觉评估中多项指标超越 3.1 Pro。其平均推理速度快约6倍，大幅降低延迟。该模型在多模态理解上展示出更强能力，尤其适合视觉密集型任务。

AI模型 Gemini 3.5 Flash Gemini 3.1 Pro Google 多模态视觉理解

推荐理由：谷歌新 Flash 视觉又快又准

原文

5月22日

23:03

rohanpaul_ai@rohanpaul_ai

精选76°

由 ModelBest、清华大学和 OpenBMB 社区联合开发的 BitCPM-CANN 成为全球首个完全基于中文 AI 基础设施（华为昇腾 910B NPU）训练的开源 1.58-bit 三元大语言模型。该模型采用三元权重（仅三种状态），大幅降低部署内存需求，适合手机、PC、汽车等本地设备。其训练系统在昇腾 910B 上实现了量化感知训练（QAT）、直通估计器（STE）等全套流程，并开源了可复现的训练脚本。这一成果展示了在硬件成本上升背景下，模型能否在真实约束下训练、复现、部署和优化比单纯追求榜单分数更重要。

AI模型三元模型 1.58-bit 华为昇腾开源/仓库低资源部署

推荐理由：对于关注国产 AI 基础设施和低资源部署的开发者，BitCPM-CANN 展示了在昇腾 NPU 上训练三元模型的完整路径，可以直接参考其开源训练脚本做本地化部署或模型优化。

原文

22:38

Paul Couvert@itsPaulAi

精选76°

Qwen-3.7-max 在真实智能体任务（编写自训练俄罗斯方块机器人）中，以 1.32 美元成本实现 56% 的改进，远超 Claude Opus 4.7（12.15 美元，28% 改进）和 GPT-5.5（2.85 美元，7% 改进）。该模型在长智能体循环中表现突出，成本仅为 Opus 4.7 的 1/9、GPT-5.5 的 1/2。这一结果出乎意料，展示了开源模型在复杂自主任务上的潜力。

AI模型 Qwen-3.7-max 智能体成本对比开源模型 GPT-5.5

推荐理由：做智能体开发或自动化任务的团队，可以拿 Qwen-3.7-max 替代高价闭源模型，成本直降 9 倍效果反而更好，值得立刻跑个 benchmark 验证。

原文

22:26

阿里通义 Qwen@Alibaba_Qwen

83°

atomic.chat 团队测试了三个前沿模型在真实智能体任务中的表现：编写一个能自我训练并玩俄罗斯方块的机器人。每个模型可以读取自己的代码、运行基准测试并在10次迭代中自我重写。最终 Qwen 3.7-Max 以训练成本仅1.32美元、机器人性能提升56%的成绩全面领先，而 Claude Opus 4.7 成本12.15美元提升28%，GPT-5.5 成本2.85美元提升仅7%。Qwen 在成本效益和性能提升上均胜出，尤其在长智能体循环场景中表现出色。

AI模型 Qwen 3.7-Max 智能体 Claude Opus 4.7 GPT-5.5 成本对比

推荐理由：Qwen 3.7-Max 在智能体任务中成本仅为 Claude 的1/9、GPT 的1/2，性能提升却翻倍，做 AI 智能体开发的团队值得关注这个性价比之选。

原文

22:25

阿里通义 Qwen@Alibaba_Qwen

76°

阿里通义千问团队发布旗舰模型Qwen3.7-Max，已在OpenRouter平台上线。该模型是Qwen3.7系列的最强版本，专为智能体场景设计，涵盖编程、办公和生产力任务，以及长周期自主执行。相比Qwen3.6，在编程和智能体基准测试上有大幅提升，并支持显式提示缓存以处理重复上下文。这标志着阿里在智能体AI领域的重要进展。

AI模型 Qwen3.7-Max 阿里通义千问智能体编程助手 OpenRouter

推荐理由：做智能体开发或自动化任务的团队，可以直接在OpenRouter上试用Qwen3.7-Max，编程和长任务执行能力提升明显，值得关注。

原文

22:16

Gary Marcus@GaryMarcus

GaryMarcus 在 X 上转发了一条消息，称标准 GPT-5.5 已经成功复现了某个数学证明，并质疑这是否意味着所谓的“阶跃变化”只是问题本身更简单。该推文引用了 ChatGPT 的分享链接，显示模型在推理任务上的表现。这一讨论反映了 AI 社区对模型能力提升本质的持续争论：是模型真的变强了，还是任务难度被高估了。

AI模型 GPT-5.5 推理模型阶跃变化 AI 能力评估数学证明

推荐理由：AI 研究者和大模型用户值得关注——GPT-5.5 的推理表现引发了对“阶跃变化”定义的反思，看完会重新审视模型能力的评估标准。

原文

22:11

Gary Marcus@GaryMarcus

AI 研究者 Gary Marcus 在 X 上公开承认此前对 OpenAI 新模型 Erdos 的批评有误。他根据新信息表示，即使 OpenAI 在 Erdos 上使用了新模型，但 GPT-5.5 也能实现类似效果，Ethan Mollick 的估算基本适用。这一反转表明，当前 GPT 系列的能力可能被低估，且新模型与现有模型的差距可能没有想象中大。对于关注 AI 模型进展和评估的研究者与开发者，这是一个值得注意的修正。

AI模型 GPT-5.5 Erdos Gary Marcus 模型评估 AI 研究

推荐理由：Gary Marcus 公开认错，说明 AI 模型评估比想象中复杂——做模型对比的团队值得关注这个反转，避免自己踩坑。

原文

19:05

岚叔@lufzzliz

83°

阿里通义千问发布 Qwen3.7-Max，在第三方 Arena 全球大模型盲测总榜中超越 Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1，位列国产第一，与 GPT、Claude、Gemini 最强模型接近。在编程智能体方面，SWE-Pro、SWE-Multilingual 等测评领先，Terminal Bench 2.0 得分 69.7。通用智能体能力显著提升，在 MCP-Atlas、MCP-Mark 等现实测试中创国产新高。新增 preserve_thinking 参数，保留前序思维内容以增强 Agent 决策一致性，减少重复推理 Token 消耗，默认关闭。实测在 Claude Code 下跨框架泛化能力不错，但需要更精准的提示词和多轮迭代。

AI模型 Qwen3.7-Max 国产模型编程智能体 Agent MCP/工具

推荐理由：Qwen3.7-Max 在多项基准上追平国际顶尖模型，做 Agent 和编程自动化的开发者可以直接拿来替代闭源方案，尤其是 preserve_thinking 参数对长周期任务很有用，值得一试。

原文

17:49

17:49IT之家（博客/媒体）

精选

网易有道宣布将“子曰”大模型 4.0 的核心双引擎——多模态模型（27B 参数）和语音合成（TTS）模型面向全球全量开源。多模态模型在视觉数理问题上达到行业顶尖水平，纯文本中文数理难题准确率达 81.4%，并通过思维链重构将输出长度压缩 43.2%，降低推理成本。TTS 模型支持跨语种音色情感迁移克隆，3 秒内完成零样本原声复制，准确度超 97%，覆盖 14 种语言。开发者可免费下载、部署并二次开发，适合教育场景和语音应用。

AI模型开源/仓库多模态模型语音合成教育场景网易有道

推荐理由：教育场景的开发者终于有了可商用的开源多模态模型——27B 参数在数理问题上达到 SOTA，且推理成本更低；TTS 模型 3 秒克隆音色并跨语种带情感，做语音助手或教育产品的团队可以直接下载试试。

原文

16:09

pandaily@contact@pandaily.com (Pandaily)

精选

HiDream AI 推出了其原生统一多模态模型 HiDream-O1-Image-Pro，该模型拥有超过 2000 亿参数，能够处理图像、文本等多种模态信息。同时，公司宣布完成新一轮亿元级融资，资金将用于模型研发和商业化落地。这一进展标志着多模态大模型在参数规模和统一架构上迈出了重要一步，有望推动更复杂的跨模态应用场景。

AI模型多模态模型 HiDream AI HiDream-O1-Image-Pro 参数规模融资

推荐理由：200B+ 参数的统一多模态模型意味着更强的跨模态理解和生成能力，做多模态 AI 应用或研究的团队值得关注其技术细节和后续开源动态。

原文

16:08

pandaily@contact@pandaily.com (Pandaily)

76°

字节跳动开源了Lance，一个仅3B激活参数的原生统一多模态AI模型。Lance能在一个系统中同时处理图像理解、图像生成和视频任务，无需多个模型拼接。该模型采用原生多模态架构，而非传统的视觉编码器+语言模型组合，实现了更高效的跨模态交互。Lance的开源发布为多模态AI研究提供了轻量级基线，尤其适合资源受限场景下的部署。

AI模型多模态模型开源/仓库字节跳动 Lance 轻量级模型

推荐理由：Lance用3B参数实现了图像理解+生成+视频的统一处理，做多模态应用或边缘部署的团队可以直接拿来用，省去多模型集成的麻烦。

原文

15:16

小互@imxiaohu

精选

网易有道今日开源 Confucius4 双模型，分别专注于数学视觉推理和语音克隆任务。不同于其他公司追求参数规模，有道更注重工程精度和落地成本。开源直接提供完整权重，而非仅开放 API，降低了开发者使用门槛。数学视觉推理模型可处理几何、图表等复杂视觉数学问题，语音克隆模型则能实现高保真声音复制。此举有望推动多模态和语音技术在教育和内容创作领域的实际应用。

AI模型开源/仓库多模态语音克隆数学推理 Confucius4

推荐理由：做教育 AI 或语音应用的开发者可以直接拿到完整权重，省去从零训练的成本，建议试试这两个模型的实际效果。

原文

14:56

Cohere@cohere

精选

Cohere 发布了新模型 Command A+，该模型针对 NVIDIA Blackwell 架构进行了优化，并使用了 NVIDIA CUDA-X 库进行训练。NVIDIA AI 基础设施团队公开祝贺，强调了双方在 AI 基础设施上的紧密合作。这一合作意味着 Command A+ 将充分利用 NVIDIA 最新硬件的性能，为企业和开发者提供更高效的 AI 推理能力。

AI模型 Cohere Command A+NVIDIA Blackwell AI 基础设施模型优化

推荐理由：Cohere 与 NVIDIA 的深度合作让 Command A+ 在 Blackwell 上跑出最佳性能，做企业级 AI 部署的团队值得关注这个新选择。

原文

14:37

14:37IT之家（博客/媒体）

76°

美团技术团队正式开源了数字人视频生成模型 LongCat-Video-Avatar 1.5，该版本在唇形同步、物理合理性、长视频稳定性、多人互动及推理效率方面全面升级。模型采用 DMD 蒸馏技术，将生成步数从 50 步压缩至 8 步，推理效率提升约 15 倍，生成 10 秒视频仅需约 1 分钟。在用户偏好对比中，该模型相比 Kling Avatar 2.0 胜率为 65.9%，相比 OmniHuman-1.5 胜率为 61.1%，相比 HeyGen 胜率为 54.3%。美团表示，数字人视频生成正从展示效果走向真实使用，希望开源能成为可验证、可改进、可共建的技术基座。

AI模型数字人视频生成开源/仓库美团 LongCat-Video-Avatar

推荐理由：数字人视频生成终于从演示走向了可商用——10 秒视频 1 分钟生成，效率提升 15 倍，做虚拟主播、在线教育、客服视频的团队可以直接拿来用，省去大量渲染时间。

原文

14:00

OpenRouter@OpenRouterAI

精选

DeepSeek V4 Flash 在 OpenRouter 每周排行榜中登顶，获得 1196 次浏览和 38 个点赞。该模型是 DeepSeek V4 的轻量版本，表现出色。OpenRouter 排行榜基于用户使用量和反馈，V4 Flash 的领先显示了其在开发者中的受欢迎程度。

AI模型 DeepSeek V4 Flash DeepSeek OpenRouter 推理模型

推荐理由：DeepSeek新模型登顶社区排行榜

原文

13:58

13:58IT之家（博客/媒体）

精选83°

字节跳动开源了名为Lance的多模态AI模型，激活参数量仅3B，却能原生统一处理图像理解、视频理解、图像生成、视频生成和跨模态编辑等任务。与常见将理解与生成拆分为多个模块的方案不同，Lance从训练起就采用共享上下文与能力解耦的双流专家架构，兼顾高层语义特征与低层连续表示。在多项基准测试中，Lance在图像生成、视频生成、图像编辑和视频理解上均取得领先成绩，例如GenEval总分0.90、VBench总分85.11。模型采用Apache 2.0许可开源，权重已在Hugging Face提供，推理需至少40GB显存。

AI模型多模态模型开源/仓库字节跳动 Lance 统一模型

推荐理由：Lance用3B参数实现了多模态理解与生成的统一，解决了传统方案模块拼接效率低、能力割裂的问题。做多模态AI研究或应用开发的团队可以直接下载权重试试，尤其适合资源有限但想探索统一模型的场景。

原文

13:55

Cohere@cohere

精选

Cohere 发布了其最强开源大模型 Command A+，并已在 Hugging Face 上提供 W4A4 量化版本。该量化技术能在几乎不损失性能的情况下大幅降低模型部署的硬件需求，显著减少服务占用空间。开发者可以直接下载使用，适合资源受限的部署场景。

AI模型 Cohere Command A+W4A4量化开源/仓库模型部署

推荐理由：Cohere 把最强模型做到 W4A4 量化还开源了，做推理部署的团队可以直接拿来降成本，值得一试。

原文

13:25

Logan Kilpatrick@OfficialLoganK

88°

Google 的 Gemini 3.5 Flash 模型在 GDPval 基准测试中相比 3.1 Pro 取得了显著进步，性能已接近前沿水平。这表明后训练（post-training）技术仍在持续提升模型能力。该消息由开发者 Logan Kilpatrick 在 X 上分享，引发社区关注。Gemini 3.5 Flash 作为轻量级模型，其竞争力提升对开发者选择高效模型具有参考价值。

AI模型 Gemini 3.5 Flash GDPval 后训练基准测试模型进步

推荐理由：轻量模型逼近前沿，做推理或成本敏感应用的开发者值得关注——Flash 系列可能成为性价比新选择。

原文

10:45

arXiv: DeepSeek@Mao Zheng, Zheng Li, Tao Chen, Bo Lv, Mingrui Sun, Mingyang Song, Jinlong Song, Hong Huang, Decheng Wu, Hai Wang, Yifan Song, Yanfeng Chen, Guanwei Zhang, Guanghua Yu, Yi Su, Hong Liu, Jinxiang Ou, Keyao Wang, Weile Chen, Haozhao Kuang, Kai Wang, Nuo Chen, Zihao Zheng, Chenhao Wang, Bin Xing, Chengcheng Xu, Tinghao Yu, Binghong Wu, Long Xu, Jiacheng Shi, Yunhao Wang, Baifang Chen, Lei Zhang, Qi Yang, Zhao Wu, Jiacheng Li, Lan Jiang, Lanrui Wang, Kai Zhang, Shuaipeng Li, Zhongzhi Chen, Weixuan Sun, Jiaqi Zhu, An Wang, Wei Li, Jun Xia, Weidong Han, Wutian Yang, Litong Hui, Luoguo Jia, Jiajia Wu, Xinpeng Zhou, Tianxiang Fei

精选

Hy-MT2 是一系列面向复杂真实场景的快速多语言翻译模型，包含 1.8B、7B 和 30B-A3B（MoE）三个尺寸，支持 33 种语言间的翻译。通过 AngelSlim 1.25-bit 极端量化，1.8B 模型仅需 440MB 存储，推理速度提升 1.5 倍，适合端侧部署。在通用、商业、领域和指令跟随翻译任务中，7B 和 30B 模型在快速思考模式下超越 DeepSeek-V4-Pro 和 Kimi K2.6 等开源模型，1.8B 模型整体也优于微软和豆包等主流商业 API。该工作为多语言翻译提供了高效且强大的新选择。

AI模型多语言翻译 Hy-MT2 端侧部署量化开源模型

推荐理由：做多语言翻译或端侧部署的团队终于有了一个又快又准的选择——1.8B 量化后 440MB 就能跑，性能还超过微软豆包 API，值得直接上手试。

原文

10:27