全部 AI 动态 · AI 热点

5月27日

15:30

marktechpost@Michal Sutter

72°

EAGLE 团队联合 vLLM 和 TorchSpec 发布了 EAGLE 3.1，旨在解决生产环境中推测解码的不稳定性。该算法通过修复注意力漂移问题，提升了 LLM 推理的效率和可靠性。EAGLE 3.1 针对大规模部署场景优化，减少了推理延迟和资源消耗。这一更新对于需要高性能 LLM 推理的团队具有重要意义。

AI模型 EAGLE 3.1 推测解码注意力漂移 LLM 推理 vLLM

推荐理由：EAGLE 3.1 解决了生产环境中推测解码的稳定性痛点，做 LLM 推理优化的团队可以直接用上，减少注意力漂移带来的性能损失。

原文

15:23

15:23IT之家（博客/媒体）

72°

MiniMax 在 X 平台预告即将推出 M3 系列 AI 模型，并转发了一篇关于 M2 系列的 arxiv 论文。M2 系列总参数 229.9B，但每个词元仅激活 9.8B 参数，主打低激活高智能，配备 192K 上下文窗口。论文重点介绍了 M2.7 的自我进化雏形：模型能自主排查训练失败、阅读日志、修改代码，并在内部任务上完成 100 轮自主迭代，吸收团队 30%-50% 的日常迭代工作量。此外，MiniMax 还提出了面向智能体的强化学习系统 Forge，支持白盒与黑盒智能体统一接入，降低长轨迹训练成本。这些进展表明 MiniMax 在高效模型架构和模型自主迭代方面取得重要突破。

AI模型 MiniMax M3系列 M2系列低激活高智能自我进化

推荐理由：MiniMax 的 M2 论文展示了模型开始参与自身开发闭环，做 AI 训练和模型优化的团队值得关注——自我进化能力可能改变模型迭代方式。

原文

14:14

14:14IT之家（博客/媒体）

微软研究院发布 MAI-Image-2.5，这是其 MAI-Image 系列最强图像生成模型，在 Arena 文生图榜单升至第三。该模型重点增强了文字渲染能力，可胜任信息图、海报、包装等需要准确呈现文字的任务，同时在风格化插画、商业图像和视觉推理方面表现更稳定。用户已可在 Arena 体验，未来两周内将上线 MAI Playground 与 Foundry。

AI模型微软 MAI-Image-2.5 图像生成文字渲染 Arena

推荐理由：做设计、营销或内容创作的团队终于有了更靠谱的商用级生图工具——文字渲染和视觉推理的提升让海报、包装这类需求不再翻车，建议直接去 Arena 试效果。

原文

14:05

14:05IT之家（博客/媒体）

PrismML 发布 Bonsai Image 4B 系列图像生成模型，包含 1-bit 和 Ternary 两个版本，专为本地设备优化。该模型基于 LUX.2 Klein 4B 构建，通过二值/三值权重大幅压缩体积，1-bit 版 Transformer 仅 0.93GB，内存占用降至 1.5GB。在 iPhone 17 Pro Max 上生成 512×512 图像仅需 9.4 秒，Mac M4 Pro 上约 6 秒，速度比全精度模型快 5.6 倍。质量方面，Ternary 版在 1.21GB 体积下保留约 95% 的准确性，1-bit 版在不足 1GB 下保留约 88%。这标志着高质量图像生成模型首次在手机上实现实时可用。

AI模型图像生成模型压缩本地部署 Bonsai Image 4B iPhone

推荐理由：手机端终于能跑正经的图像生成模型了，做移动端 AI 应用或创意工具的开发者可以直接在 iPhone 上体验，9.4 秒出图的速度已经可用。

原文

13:50

13:50IT之家（博客/媒体）

精选72°

英伟达团队发布 PiD（像素扩散解码器）图像生成技术，将潜在解码与上采样合并为一个生成模块，在消费级 RTX 5090 上仅需 13GB 显存、不到 1 秒即可将 512×512 潜变量解码放大至 2048×2048 像素。PiD 基于 PixelDiT 构建，加入轻量级 ControlNet 适配器，并通过 DMD2 蒸馏将推理步数压缩至 4 步，配合早停机制兼顾速度与质量。相比级联式扩散超分方案，端到端延迟最多快 5.9 倍，视觉保真度更优。该技术兼容传统 VAE 和语义潜变量（如 SigLIP、DINOv2），具备较强通用性。

AI模型英伟达 PiD 图像生成像素扩散解码器高分辨率解码

推荐理由：英伟达 PiD 解决了高分辨率图像生成中解码器速度慢、显存占用高的痛点，做 AI 图像生成或超分应用的开发者可以直接在消费级显卡上跑通，值得关注。

原文

10:52

Pandaily@contact@pandaily.com (Pandaily)

精选

美团发布LongCat-Video-Avatar 1.5版本，这是一个开源的数字人视频生成框架。该框架在口型同步精度上达到最先进水平，只需8步推理即可生成逼真视频。

AI模型 LongCat-Video-Avatar Meituan 数字人视频生成开源模型

推荐理由：8步推理生成逼真数字人

原文

08:24

08:24IT之家（博客/媒体）

精选

SiPearl 宣布其基于 Arm Neoverse V1 内核的 80 核 CPU Rhea1 成功点亮。该芯片采用台积电 6nm 工艺，集成超 610 亿晶体管，配备 64GB HBM + 四通道 DDR5 混合内存和 104 条 PCIe Gen5 通道。初步测试结果积极，后续将进行 12 周功能启动验证。目标今年底装配至欧洲首台 E 级超算 JUPITER 服役。

AI模型 Rhea1 SiPearl Arm 超算 CPU芯片

推荐理由：欧洲自研最强CPU点亮了

原文

07:14

marktechpost@Sana Hassan

本文教程介绍了如何使用 ZeroEntropy 的 Zerank-2 重排序器（基于 Qwen3 的 4B 交叉编码器）来提升检索质量。教程从设置运行环境、加载模型开始，逐步讲解如何对查询-文档对进行评分。接着，从简单的成对评分过渡到实用的两阶段检索-重排序管道：先用快速的双编码器检索候选文档，再用 Zerank-2 进行精排。该方案能显著提高检索精度，适合需要高准确率的信息检索场景。

AI模型检索增强生成重排序交叉编码器 Qwen3 ZeroEntropy

推荐理由：做 RAG 或搜索系统的开发者，这个教程直接教你用 Zerank-2 搭建两阶段管道，从环境配置到实战代码都有，值得跟着跑一遍。

原文

06:32

marktechpost@Asif Razzaq

76°

Stability AI 发布了 Stable Audio 3，一个用于乐器音乐和音效生成的潜在扩散模型家族。该版本包含小型和中等变体的开源权重。小型模型可在 MacBook Pro M4 CPU 上运行，中等模型适配 8GB VRAM 的消费级 GPU。两者均通过三阶段训练流程（流匹配、蒸馏预热、对抗后训练）生成 44.1 kHz 立体声音频。在 BBC 音效基准测试中，SA3 中等模型在 5 秒片段上取得 FAD 0.369 的分数，低于论文中评估的所有开源基线。

AI模型 Stable Audio 3 音频生成潜在扩散模型开源权重 Stability AI

推荐理由：Stable Audio 3 让音频生成门槛大幅降低——小型模型在普通笔记本上就能跑，做游戏音效、短视频配乐的创作者可以直接上手试试。

原文

02:50

Decoder@Matthias Bastian

76°

继 OpenAI 推翻 Erdős 单位距离猜想后，Anthropic 的 Claude Mythos 模型在周末独立解决了同一问题。工程师 Sholto Douglas 称 Mythos 给出了一个“可爱、简单的证明”，这被视为 AI 驱动数学发现中“严重悬而未决”的迹象。该问题源于 1946 年的 Erdős 猜想，此前被认为极具挑战性。这一事件凸显了 AI 在数学推理领域的快速进步，以及不同模型间能力的重叠。

AI模型 Claude Mythos 数学推理 Erdős 问题 AI 证明 Anthropic

推荐理由：数学和 AI 研究者值得关注——Claude Mythos 用简洁证明攻克了经典难题，说明 AI 在数学发现上的潜力远超预期，建议点开看看这个“可爱”的证明细节。

原文

5月26日

23:52

23:52IT之家（博客/媒体）

精选

华为发布以逻辑折叠技术为核心的'韬定律'，将芯片设计从2D平面转向标准单元堆叠的3D重构。北京大学团队随后官宣面向该设计的'真3D'EDA工具原型，覆盖布局规划和布局阶段，支持GPU加速和千万级实例规模。相比当前赝3D流程，该工具实现平均约30%线长缩减、约6%WNS改善与约12%TNS改善，峰值温度下降3%以上。验证实例规模从约100万到约2470万。

AI模型华为韬定律北京大学真3D EDA 芯片设计

推荐理由：华为3D芯片新思，北大EDA实测线长缩30%

原文

15:51

15:51IT之家（博客/媒体）

精选

AMD CEO 苏姿丰已开始为 Zen 7 平台布局供应链，代号 Grimlock。核心芯片组采用台积电 A14 工艺制程，搭配新一代 3D V-Cache 技术，产品力争 2028 年问世。台积电台中 Fab 25 P1 厂区预计 2027 年试产、2028 年量产。AMD 正评估力成 FOPLP 封装方案，旗舰 CCD 将采用 16 核心设计，单颗 CCD 的 L3 缓存最高可达 224MB。谱瑞为 AMD 打造下一代 ASIC-Like 产品，采用 6nm 与 12nm 制程，已开始试产。

AI模型 Zen 7 AMD 台积电 FOPLP 3D V-Cache

推荐理由：AMD 开始布局下一代 CPU，工艺和封装都有新动作

原文

13:43

13:43IT之家（博客/媒体）

精选

阿里旗舰模型 Qwen3.7-Max 在权威编程榜单 Code Arena 上以 1541 分排名全球第二，仅次于 Claude 系列，超越了 Claude Opus 4.6、GLM-5.1 和 Kimi K2.6。Code Arena 采用用户随机盲测，防止刷榜，评估真实代码生成、调试和重构能力。此外，该模型在 Design Arena 榜单也位列第十。这标志着国产大模型在硬核编程能力上首次进入全球第一梯队。

AI模型 Qwen3.7-Max 阿里千问 Code Arena 编程能力国产大模型

推荐理由：国产模型首次在权威编程盲测中超越 Claude Opus 4.6，做 AI 编程工具选型或关注国产大模型进展的开发者值得关注，建议直接去 Code Arena 看榜单。

原文

13:34

13:34IT之家（博客/媒体）

精选

华为在ISCAS 2026上提出半导体新演进路径“韬定律”，核心指标从晶体管尺寸转向时间常数τ。基于该定律，华为6年量产381款芯片，并通过“τ缩微”和“逻辑折叠”技术在垂直方向堆叠电路。华为预计2031年高端芯片晶体管密度可达1.4纳米制程同等水平。上海交通大学教授周健军称该定律重构了沿用50余年的摩尔定律范式，为产业开辟全新发展指引。

AI模型韬定律华为逻辑折叠 1.4纳米芯片设计

推荐理由：华为用时间换性能，芯片不用只拼制程了

原文

13:15

13:15IT之家（博客/媒体）

83°

面壁智能联合清华大学、OpenBMB 开源社区发布了 MiniCPM5-1B 端侧文本基座大模型。该模型仅 1B 参数，在 AA-Index 榜单上超越了所有 2B 参数以下模型，性能优于 3 个月前发布的 Qwen3.5-2B 且参数量减半。INT4 量化后权重仅 0.5GB，可直接在手机和浏览器上运行。模型权重、训练数据集与部署方案已全面开源，基于面壁智能自研的 ForgeTrain 框架预训练。

AI模型端侧模型开源/仓库 MiniCPM5-1B 面壁智能 AA-Index

推荐理由：端侧部署大模型终于有了小参数高性能的选择——做移动端 AI 应用或边缘计算的开发者，可以直接在手机或浏览器里跑这个模型，建议试试它的量化版本。

原文

13:13

13:13IT之家（博客/媒体）

精选

昆仑万维天工 AI 推出 SkyClaw-v1.0 及轻量版 SkyClaw-v1.0-lite，支持百万 token 上下文，专为真实智能体工作流设计。模型在复杂工具调用、多轮任务、代码生成等场景表现优异，全面超越 Minimax 2.7、DeepSeek V4 Flash 等开源模型，性能接近更大规模顶级模型。定价低于同类一半，已接入天工 Skywork 平台，即日起开放 2-4 周免费试用。

AI模型 Agent 模型百万上下文开源/仓库工具调用昆仑万维

推荐理由：做 Agent 开发或自动化工作流的团队终于有了性价比之选——SkyClaw 百万上下文且定价低于同类一半，建议直接免费试用看看能否替代现有方案。

原文

12:58

12:58IT之家（博客/媒体）

83°

谷歌 DeepMind 推出 AlphaProof Nexus，结合大语言模型与 Lean 形式化验证，在 353 个开放的 Erdős 问题中自主解决 9 个，包括 2 个悬而未决 56 年的问题。该系统由 4 个复杂度递增的 AI 智能体组成，每个问题推理成本仅数百美元。研究还发现，最简单的 Agent A 也能证明这些难题，反映出底层模型能力提升和编译器反馈的锚定作用。这标志着 AI 在数学研究领域取得重大突破，能自主发现并证明长期未解猜想。

AI模型谷歌 DeepMind AlphaProof Nexus 数学证明形式化验证 Erdős 问题

推荐理由：数学研究者和 AI 爱好者会兴奋——AlphaProof Nexus 用数百美元成本就解决了人类 56 年未解的难题，证明 AI 已能自主推进数学前沿，值得点开看看具体怎么做到的。

原文

12:57

pandaily@contact@pandaily.com (Pandaily)

精选72°

Model Best 开源了 BitCPM-CANN 训练框架，首次在国产 AI 加速器上实现 1.58-bit 模型训练。该框架相比全精度训练，推理内存需求降低高达 6 倍，大幅降低硬件门槛。这一突破使得国产算力也能高效运行低比特模型，对依赖国产芯片的 AI 团队意义重大。开源框架已发布，开发者可直接使用。

AI模型开源/仓库训练框架低比特量化国产芯片 Model Best

推荐理由：国产芯片终于能跑 1.58-bit 训练了，内存需求直降 6 倍，用国产算力的 AI 团队可以直接上手试试。

原文

10:57

10:57IT之家（博客/媒体）

精选

科技媒体报道，谷歌针对Antigravity用户抱怨简单任务消耗过多Token，推出Gemini 3.5 Flash (Low)版本。该版本通过调整推理投入强度，比Medium版本节省约45% Token，且在软件工程任务上优于更早的Gemini 3 Flash。谷歌同时重置了所有免费和付费Gemini计划的配额，保证用户本周有足够额度。

AI模型 Antigravity Gemini 3.5 Flash 谷歌推理模型

推荐理由：谷歌新出省Token版Gemini，比Medium省45%

原文

08:41

08:41IT之家（博客/媒体）

88°

Anthropic 的最强模型 Claude Mythos 预览版在 Claude Code 和 Claude Security 中短暂出现后被撤下，暗示即将公开上线。该模型定位为面向计算机安全任务的前沿模型，相比 Opus 4.7 在代码推理和自主执行方面显著提升。Anthropic 此前警告 Mythos 能自动开发专业级网络攻击手段，因此迟迟未全面开放。同时，Anthropic 推进名为 Glasswing 的项目，联合其他公司保护关键软件系统，已使用 Mythos Preview 帮助 50 家组织。这一动态表明 Anthropic 在平衡模型能力与安全风险后，可能准备向更广泛用户开放。

AI模型 Anthropic Claude Mythos 推理模型代码推理安全

推荐理由：Anthropic 最强模型 Mythos 即将公开，做安全研究和代码自动化的开发者值得关注——它既能大幅提升效率，也带来新的安全挑战，建议提前了解其能力边界。

原文

07:04

07:04IT之家（博客/媒体）

88°

多名开发者在 OpenAI Codex 后端日志中发现未官宣模型 GPT-5.6，内部代号 iris-alpha，支持 150 万 tokens 上下文窗口，预计今年 6 月发布。相比当前 GPT-5.5 API 的 105 万 tokens 提升 43%，极端测试显示 90 万 tokens 仍能流畅响应。该模型还展示了强大的前端界面生成能力，能直接生成极简记事应用界面，接近商用水平。此外，Anthropic、Google 和 xAI 的竞品也可能瞄准同期发布。

AI模型 OpenAI GPT-5.6 上下文窗口长文本处理前端生成

推荐理由：150 万 tokens 上下文窗口让处理超长合同、分析大型代码仓库成为可能，做文档密集型工作或复杂编程的开发者值得关注，可以直接用上更强大的长文本能力。

原文

05:31

marktechpost@Asif Razzaq

72°

Together AI 开源了 OSCAR，一种面向长上下文 LLM 推理的 INT2 KV 缓存量化方法。与依赖数据无关的 Hadamard 变换不同，OSCAR 通过离线估计注意力感知的协方差结构，为键和值分别推导旋转矩阵。在 Qwen3-4B-Thinking-2507 和 Qwen3-8B 上，OSCAR 以每 KV 元素 2.28 比特的精度，将 BF16 精度差距分别缩小至 3.78 和 1.42 分。该方法可实现约 8 倍的 KV 内存缩减，并在 100K 上下文长度下带来最高 3 倍的解码加速。

AI模型量化 KV 缓存长上下文 Together AI 推理优化

推荐理由：长上下文 LLM 推理的内存瓶颈终于有了实用解法——OSCAR 在 2-bit 量化下几乎不损失精度，做长文档/多轮对话推理的团队可以直接集成，显著降低硬件成本。

原文

5月25日

19:02

Decoder@Matthias Bastian

83°

Google DeepMind 的 AlphaProof Nexus 系统自主解决了九个开放的 Erdős 问题，其中两个困扰数学家长达56年，每个问题的推理成本仅需数百美元。与 OpenAI 的自然语言方法不同，该系统使用 Lean 编译器自动验证每一步证明，确保结果严谨可靠。不过，整体成功率仅为2.5%，表明 AI 在数学推理领域仍有巨大提升空间。这一成果展示了 AI 在解决高难度数学问题上的潜力，可能加速数学研究进程。

AI模型 AlphaProof Nexus 数学推理 Lean编译器 Erdős问题 DeepMind

推荐理由：数学研究者和 AI 推理方向开发者值得关注——AlphaProof Nexus 用极低成本攻克了人类多年未解的难题，虽然成功率低，但证明了形式化验证路径的可行性，建议点开了解其技术细节。

原文

14:52

14:52IT之家（博客/媒体）

88°

马斯克宣布 Grok V9-Medium 模型（1.5 万亿参数）已完成训练，评估结果不错。该模型在补充训练中加入了大量 Cursor 数据，旨在提升编程任务处理能力。微调和强化学习正在进行中，预计 2 到 3 周后公开发布。相比当前使用的 0.5T V8-Small 版本，V9-Medium 将是一个重大进步，尤其针对困难编程任务。xAI 已被 SpaceX 收购并更名为 SpaceXAI。

AI模型 Grok V9-Medium 1.5T 参数编程助手 Cursor

推荐理由：Grok V9-Medium 加入 Cursor 数据后编程能力有望大幅提升，做 AI 编程或需要强推理模型的开发者可以关注发布进度，值得提前了解。

原文

11:52

11:52IT之家（博客/媒体）

精选76°

面壁智能联合清华大学、OpenBMB开源社区发布BitCPM-CANN，这是中国首个完全基于华为昇腾算力平台实现端到端训练并开源的三值（1.58-bit）大模型。该模型包含0.5B、1B、3B、8B四个尺寸，在推理阶段相比传统BF16精度释放约6倍显存红利，模型能力保留率维持在90%-97.2%。这意味着8B参数模型可轻松运行在当前主流旗舰手机上。面壁智能还基于MindSpeed×Megatron-LM搭建了完整的低比特训练底座，为后续昇腾上的低比特训练提供公共基础设施。全系列模型权重已在HuggingFace和ModelScope开源。

AI模型端侧大模型低比特量化华为昇腾开源/仓库面壁智能

推荐理由：国产算力终于跑通端侧大模型全链路——6倍显存红利让8B模型直接上手机，做端侧AI部署或国产芯片适配的团队值得一试。

原文

11:47

美团技术团队@美团技术团队

美团开源了 LongCat-Video-Avatar 1.5，这是一款从 SOTA 迈向商业级应用的数字人视频模型。它在唇形同步、物理合理性、长视频稳定性、多人互动和高效推理上实现了全面提升，能稳定输出高质量内容。该模型解决了数字人视频在复杂商业场景中不自然、不稳定、成本高的问题，让数字人从实验室走向真实应用。开源版本可供开发者直接使用，推动数字人视频生成技术的普及。

AI模型数字人视频生成开源/仓库唇形同步美团

推荐理由：做数字人视频生成或虚拟主播的团队，终于有了一个能直接商用的开源模型——唇形同步和长视频稳定性提升明显，建议试试 LongCat 1.5 来降低制作成本。

原文

11:12

11:12IT之家（博客/媒体）

精选

华为董事何庭波在 ISCAS 2026 透露麒麟 2026 芯片（暂定名）将于秋季面世，采用逻辑折叠技术。晶体管密度达 238 MTr/mm²，较传统 2D 设计提升 53.5%。P 核能效提升 41%，峰值频率达 3.1GHz，较麒麟 9030 的 2.75GHz 提升 12.7%。华为计划 2031 年实现 400+MTr/mm² 密度和 5.0GHz 主频。

AI模型华为麒麟2026 逻辑折叠芯片架构

推荐理由：麒麟2026性能参数揭秘

原文

11:11

11:11IT之家（博客/媒体）

精选

华为半导体业务部总裁何庭波在ISCAS 2026上表示，2020年后华为与合作伙伴努力使手机芯片重回市场。去年推出的麒麟9030 Pro后，芯片进入性能“饱和区”。华为基于韬（τ）定律以“时间缩微”替代“几何缩微”，通过逻辑折叠等核心技术实现阶跃提升。麒麟2026芯片由单层扩展至双层，晶体管密度等指标大幅提升。何庭波称取得了一系列仅靠先进制程难以取得的进步，这些创新将在2027年及之后量产芯片中落地。

AI模型华为麒麟逻辑折叠手机芯片韬定律

推荐理由：华为芯片找到新路，性能饱和后还能再跃升

原文

10:21

pandaily@contact@pandaily.com (Pandaily)

83°

阿里巴巴的 Qwen 3.7 Max 模型完成了一次长达 35 小时的自主任务运行，期间执行了 1,158 次工具调用。这一表现展示了模型在长时间、多步骤任务中的持续稳定能力，令海外开发者印象深刻。该成果凸显了 Qwen 系列在复杂自动化场景下的潜力，可能推动更多企业探索 AI 驱动的长周期工作流。

AI模型 Qwen 3.7 Max 阿里巴巴自主任务工具调用长任务

推荐理由：Qwen 3.7 Max 证明了 AI 可以稳定执行 35 小时的长任务，做自动化工作流或复杂项目管理的开发者值得关注，这可能是你寻找的可靠长任务模型。

原文

10:20

pandaily@contact@pandaily.com (Pandaily)

精选76°

DeepSeek V4 已全面适配华为昇腾芯片，标志着中国 AI 基础设施在推理负载上减少对海外芯片依赖的重要进展。该适配覆盖了从训练到推理的全流程，使得国内企业可以在国产硬件上运行 DeepSeek V4 模型。这一突破降低了供应链风险，同时提升了国产 AI 生态的自主可控能力。对于依赖 AI 推理的中国企业和开发者来说，这意味着更稳定的算力供应和更低的合规成本。

AI模型 DeepSeek V4 华为昇腾国产 AI 栈推理模型芯片适配

推荐理由：DeepSeek V4 适配华为昇腾解决了中国 AI 推理的芯片依赖问题，做国产化部署的团队可以直接用这套方案，建议关注后续性能评测。

原文

10:16

Pandaily@contact@pandaily.com (Pandaily)

精选

字节跳动开源了原生多模态模型Lance，可在40GB显存上本地运行。该模型发布一天内登上了Hugging Face趋势榜。Lance支持图像、文本等多种模态的联合理解与生成。

AI模型 Lance ByteDance 多模态开源模型本地部署

推荐理由：字节开源40GB可跑的多模态模型

原文

06:55

marktechpost@Michal Sutter

精选

上海 AI 实验室 StepFun 于 2026 年 5 月发布 StepAudio 2.5 Realtime，这是一款端到端的实时语音大模型，支持中英文，通过 WebSocket API 连接。该模型在 2026 年 4 月的五项基准测试中均排名第一，包括 80.41 的人类评估分数和 82.18 的副语言理解分数。其特色在于角色扮演特定的 RLHF 训练和副语言理解能力，允许用户自定义角色风格。这标志着语音 AI 在情感和角色模拟方面取得了重要进展。

AI模型语音模型角色扮演 RLHF 副语言理解 StepFun

推荐理由：做语音交互或角色扮演应用的开发者，终于有了一个能理解语气和情绪的端到端模型，建议直接试 API。

原文

5月24日

17:01

marktechpost@Asif Razzaq

精选70°

微软研究院推出Webwright，一个终端原生的浏览器Agent框架，用可复用的Playwright脚本替代点击追踪式网页自动化。该框架仅用约1000行代码和三个模块的单Agent循环，在长程任务基准Odysseys上达到60.1%，远高于基础GPT-5.4的33.5%。在Online-Mind2Web上得分86.7%，是开源测试方案中AutoEval最高分。

AI模型 Agent MCP/工具开源/仓库大模型 GPT

推荐理由：微软开源了能跑60%的Web Agent框架

原文

15:43

marktechpost@Asif Razzaq

精选70°

NVIDIA 发布 Gated DeltaNet-2，一种线性注意力层，将 Delta 规则中的擦除和写入操作解耦为通道级擦除门 b_t 和写入门 w_t。在 1.3B 参数、100B FineWeb-Edu 令牌训练下，它在语言建模、常识推理和长上下文检索任务上超越 Mamba-2、Gated DeltaNet、KDA 和 Mamba-3。最大提升出现在 RULER S-NIAH 和多键针检索基准上。

AI模型大模型推理模型 Mamba NVIDIA 线性注意力

推荐理由：NVIDIA 新线性注意力，解耦擦写门

原文

10:50

Decoder@Matthias Bastian

Deepseek 宣布将其旗舰模型 V4-Pro 的 75% 折扣永久化，输入价格降至每百万 tokens 0.435 美元，比 GPT-5.5 便宜至少 11.5 倍，输出价格更是低 34 倍以上。这一激进定价策略针对 token 消耗大的智能体系统，可能对西方 AI 提供商造成巨大竞争压力。Deepseek 通过永久降价巩固其性价比优势，吸引更多开发者转向其平台。此举标志着 AI 模型价格战进入新阶段，尤其对依赖大规模推理的自动化应用影响深远。

AI模型 Deepseek V4-Pro 降价 GPT-5.5 智能体

推荐理由：做智能体或高 token 消耗应用的开发者，Deepseek 这个永久降价直接拉低了推理成本，比 GPT-5.5 便宜几十倍，值得立刻评估迁移。

原文

5月23日

18:47

Decoder@Jonathan Kemper

88°

阿里巴巴Qwen团队发布Qwen3.7-Max，这是一款专为长时间自主代理任务设计的专有模型。在基准测试中，它匹配了Claude Opus 4.6，并击败了DeepSeek V4 Pro和Kimi K2.6等中国竞争对手。团队还演示了该模型操控四足机器人。该模型曾自主运行35小时，优化其自有定制芯片的代码，展示了强大的长期任务执行能力。

AI模型 Qwen3.7-Max 自主代理芯片优化基准测试阿里巴巴

推荐理由：Qwen3.7-Max展示了AI在芯片设计等复杂工程任务中的自主长时运行能力，做硬件优化或AI代理开发的团队值得关注其实际表现。

原文

17:52

marktechpost@Asif Razzaq

精选76°

微软研究院发布了 Fara1.5 系列浏览器计算机使用智能体，包含 4B、9B 和 27B 三个参数规模。其中 Fara1.5-27B 在 Online-Mind2Web 基准测试上达到 72% 的准确率，超越了 OpenAI Operator、Gemini 2.5 Computer Use 和 Yutori Navigator n1。该系列还配套推出了 FaraGen1.5 合成数据流水线，用于训练智能体执行门控操作。这一进展表明，开源级别的浏览器自动化智能体正在快速追赶并超越闭源竞品。

AI模型浏览器智能体微软 Fara1.5 开源/仓库自动化

推荐理由：做浏览器自动化或 RPA 的开发者终于有了一个开源且性能领先的选择——Fara1.5 直接对标 OpenAI Operator，27B 模型在关键基准上胜出，值得立即上手测试。

原文

17:51

marktechpost@Asif Razzaq

精选

阿里巴巴 Qwen 团队在 2026 年阿里云峰会上推出 Qwen3.7-Max，这是其最先进的智能体模型。该模型拥有 100 万 token 的上下文窗口和扩展思考模式，专为长周期任务设计，包括编程、调试和多步骤工作流自动化。在 Artificial Analysis Intelligence Index 上得分为 56.6，在专有模型中排名第五。

AI模型 Qwen3.7-Max 推理模型智能体百万上下文编程助手

推荐理由：百万 token 上下文窗口让长代码库分析和复杂工作流自动化成为可能，做 AI 智能体或编程工具的开发者值得关注，可以直接用于长周期任务。

原文

17:50

marktechpost@Michal Sutter

78°

Cohere 发布了 Command A+，一个 218B 参数的稀疏混合专家（MoE）模型，整合了此前四个 Command A 变体。该模型在 W4A4 量化下仅需两张 H100 GPU 即可运行，支持 48 种语言，是 Cohere 首个多模态推理模型，专为智能体工作流设计。其开源特性降低了部署门槛，适合需要高效多模态推理和智能体任务的团队。

AI模型 Cohere Command A+稀疏 MoE 多模态推理智能体工作流

推荐理由：Cohere 把 218B 模型压到两张 H100 就能跑，做智能体工作流的团队终于有了高性价比的开源选择——多模态推理和 48 语言支持直接可用，建议试试。

原文

15:00

15:00IT之家（博客/媒体）

精选

智元发布新一代二阶段Motion-Between运控基座模型BFM-2，旨在让机器人具备类似“肌肉记忆”的自主运动能力。该模型能在任意状态（静态、预设动作或随机输入）下，让机器人自主进行高稳定性的动作插值和动态任务闭环。演示视频显示，搭载BFM-2的机器人被打倒在地后能快速站起并自我平衡。这为具身智能提供了更可靠的运动底座，提升了机器人在复杂环境中的适应性和鲁棒性。

AI模型机器人运动控制基座模型具身智能智元

推荐理由：做机器人运动控制的团队终于有了更可靠的基座模型——BFM-2解决了机器人在任意状态下自主恢复和动态平衡的痛点，做具身智能或机器人开发的值得关注。

原文