全部 AI 动态 · AI 热点

6月2日

09:44

Pandaily@contact@pandaily.com (Pandaily)

精选

Deep Principle 发布了 MPA（Materials Property Axiom），一个用于材料科学的 AI 基础模型。该模型借鉴了大语言模型的训练技术，在 40 项真实工业任务上取得了最先进的结果。MPA 能够预测材料属性，加速新材料发现和设计过程，有望在电池、半导体、合金等领域产生重大影响。这标志着 AI 在材料科学领域的应用迈出了重要一步。

AI模型材料科学基础模型 MPA Deep Principle 工业应用

推荐理由：材料科学家和工业研发团队终于有了一个强大的 AI 工具，MPA 在 40 项工业任务上达到 SOTA，能大幅缩短材料筛选周期，做新材料开发的团队值得关注。

原文

09:44

Pandaily@contact@pandaily.com (Pandaily)

精选

阿里巴巴通义千问团队正式推出Qwen-VLA，这是其首个面向具身智能的视觉-语言-动作模型，标志着阿里进入物理世界AI竞赛。该模型整合了视觉理解、语言推理和动作执行能力，旨在让机器人或智能体在真实环境中完成复杂任务。Qwen-VLA的发布意味着阿里在AI领域的布局从纯数字世界扩展到物理交互，与特斯拉、英伟达等公司形成竞争。此举可能加速具身智能在工业、服务等场景的落地。

AI模型具身智能视觉-语言-动作模型阿里千问 Qwen-VLA 机器人

推荐理由：阿里千问首次将大模型能力延伸到物理世界，做机器人或具身智能的开发者值得关注——Qwen-VLA可能降低机器人编程门槛，让AI直接驱动动作执行。

原文

06:41

06:41IT之家（博客/媒体）

精选

阿里千问大模型推出 Qwen3.7-Plus，定位为多模态交互混合智能体，在保留文本、编码、工具使用等能力基础上，强化了视觉理解、视觉推理和跨模态任务处理。该模型支持图像、视频、屏幕、网页和文本输入，可在 GUI、CLI 和工具环境中完成复杂软件与办公流程。在 Vision Arena 评测中，阿里凭借该模型进入全球前 5、中国第 1，多模态测试在 BabyVision、MathVision 等基准上提升明显。模型已通过阿里云百炼和 Qwen Studio 提供服务。

AI模型 Qwen3.7-Plus 多模态智能体阿里千问视觉理解

推荐理由：Qwen3.7-Plus 把视觉与语言统一到智能体基座，做多模态应用或办公自动化的团队可以直接在百炼上试，能省掉不少模型拼接的麻烦。

原文

04:47

marktechpost@Asif Razzaq

78°

MiniMax 正式发布新一代大模型 MiniMax M3，采用自研的 MiniMax Sparse Attention（MSA）架构，支持高达 100 万 token 的超长上下文窗口。该模型原生支持图像、视频理解以及计算机使用（computer use）能力，并具备智能体编程（agentic coding）功能。MSA 架构通过稀疏注意力机制显著降低长序列计算成本，使得处理百万级 token 成为可能。这标志着国产大模型在长上下文和多模态融合方面迈出了重要一步，为复杂文档分析、视频理解和自动化编程等场景提供了新的基础设施。

AI模型 MiniMax M3 MSA架构长上下文多模态智能体编程

推荐理由：MiniMax M3 的 1M 上下文和原生多模态能力直接解决了长文档分析和视频理解的痛点，做 RAG 应用或自动化编程的团队值得关注其 agentic coding 特性。

原文

01:41

Decoder@Matthias Bastian

76°

图灵奖得主Richard Sutton指出，传统生成式AI的核心缺陷在于无法评估自身结果，因此无法实现真正的科学发现。他认为，没有内置评估循环，AI产生的创新只是昙花一现，无法积累。相比之下，AlphaGo和AlphaProof等系统通过内置评估机制展现了真正的创造力。Sutton的观点挑战了当前大语言模型在科学研究中的主导地位，强调评估能力是AI实现科学突破的关键。

AI模型生成式AI 科学发现评估循环 AlphaGo Richard Sutton

推荐理由：Sutton戳中了生成式AI的致命短板——没有自我评估能力，做科研的团队和AI开发者值得深思：你的模型真的能推动科学发现吗？

原文

00:33

00:33Hugging Face: Blog（博客/媒体）

精选72°

JetBrains 发布了 Mellum2，一个 12B 参数的混合专家（MoE）模型，专为代码生成和软件工程任务优化。该模型在 HumanEval 和 SWE-bench 等基准测试中表现优异，超越了同等规模的模型。Mellum2 基于 JetBrains 的代码数据训练，旨在为开发者提供更高效、更准确的代码补全和生成能力。该模型现已开源，可在 Hugging Face 上获取。

AI模型 JetBrains Mellum2 MoE 代码生成开源/仓库

推荐理由：JetBrains 的 Mellum2 为 IDE 内代码生成带来了更精准的 MoE 方案，用 JetBrains 全家桶的开发者可以直接在 Hugging Face 上体验，看看它能否提升你的编码效率。

原文

6月1日

21:50

Decoder@Jonathan Kemper

78°

中国AI公司MiniMax发布了新模型M3，号称是首个结合顶级编码性能、百万token上下文窗口和原生多模态能力的开源权重模型。该模型在多项基准测试中表现优异，尤其在长上下文任务和代码生成方面，直接挑战GPT-4、Claude等闭源模型。M3的开源特性使得开发者可以自由部署和微调，降低了使用门槛。这一发布标志着开源模型在关键能力上正快速追赶闭源方案。

AI模型 MiniMax M3 开源模型百万token上下文多模态

推荐理由：百万token上下文+开源权重，做长文档处理或代码分析的团队可以直接部署，不用再被闭源API的token计费卡脖子。

原文

21:50

Decoder@Maximilian Schreiner

基准测试平台 Artificial Analysis 显示，Nvidia 的 Nemotron 3 Ultra 是目前美国最强大的开源 AI 模型，在多项指标上超越此前领先的 Llama 3 等模型。然而，该模型在整体性能上仍落后于中国开源模型如 DeepSeek 和 Qwen，表明中国在开源 AI 领域的领先地位依然稳固。这一进展凸显了美国在开源模型竞争中的追赶态势，但中国模型在推理、多模态等关键能力上仍保持优势。

AI模型 Nvidia Nemotron 3 Ultra 开源模型模型对比中国领先

推荐理由：Nvidia 终于拿出了美国最强的开源模型，但中国开源模型依然领先，做模型选型和对比的开发者值得关注这一格局变化。

原文

15:16

pandaily@contact@pandaily.com (Pandaily)

精选83°

MiniMax 发布了其旗舰模型 M3，声称这是国内首个将前沿编码、智能体能力、100 万 token 上下文窗口和原生多模态处理整合在单一架构中的 AI 模型。M3 模型在多项基准测试中表现出色，尤其在长文本理解和复杂任务执行方面。该模型支持同时处理文本、图像、音频等多种输入，并具备强大的代码生成和工具调用能力。MiniMax 表示 M3 旨在为开发者和企业提供更高效、更全面的 AI 解决方案。

AI模型 MiniMax M3 多模态长上下文智能体

推荐理由：MiniMax M3 将 1M 上下文、多模态和智能体能力打包进一个模型，做长文本处理或多模态应用的开发者可以直接用它替代多个模型组合，省心又高效。

原文

14:33

14:33Hugging Face: Blog（博客/媒体）

83°

NVIDIA 发布了 Cosmos 3，这是首个开源的物理 AI 全能模型，能够同时进行推理和行动。该模型基于多模态输入（如视觉、语言）理解物理世界，并生成可执行的动作序列。Cosmos 3 在机器人、自动驾驶等需要物理交互的领域具有重大意义，因为它将感知、推理和行动整合在一个模型中。NVIDIA 在 Hugging Face 上开源了该模型，开发者可以直接使用或微调。

AI模型物理 AI 开源/仓库 NVIDIA 机器人自动驾驶

推荐理由：做机器人或自动驾驶的开发者终于有了一个开源的物理世界理解模型，能直接推理并生成动作，省去多模型拼接的麻烦，值得立即上手试试。

原文

13:59

13:59IT之家（博客/媒体）

88°

英伟达发布全球首款全开源全模态物理AI大模型Cosmos 3，基于混合Transformer架构，融合视觉推理、世界生成与动作预测能力。该模型可原生理解并生成文本、图像、视频、环境音效及动作内容，物理仿真精度业界领先，能将训练与评估周期从数月缩短至数日。英伟达同时发起Cosmos联盟，联合多家机构推动世界模型技术发展。Cosmos 3提供Super、Nano、Edge三个版本，分别面向机器人/自动驾驶训练、快速推理和边缘端实时推理。

AI模型英伟达 Cosmos 3 物理AI 全模态开源

推荐理由：英伟达把物理AI的门槛打下来了——全开源、全模态、训练周期从月缩到天，做机器人、自动驾驶或视觉AI的团队可以直接拿来用，省掉从头造轮子的成本。

原文

13:05

13:05IT之家（博客/媒体）

精选76°

英伟达发布 Alpamayo 2 Super，一款 320 亿参数的视觉-语言-动作（VLA）开源模型，专为 L4 自动驾驶研发设计。该模型具备类人感知、推理与行动能力，支持全车环视感知和元动作输出，可免去企业从零搭建核心基础设施。英伟达同步推出 AlpaGym 闭环强化学习平台、OmniDreams 世界模型等工具，打通从数据采集到车载部署的全流程。模型定位为教师模型，可通过知识蒸馏部署在 DRIVE AGX Thor 芯片上，已获比亚迪、吉利等车企采用。推理代码预计夏季开源。

AI模型英伟达 Alpamayo 2 Super 自动驾驶开源模型 VLA模型

推荐理由：英伟达把自动驾驶模型参数翻了三倍，还开源了全套工具链，做 L4 研发的团队可以直接省掉从零搭建的环节，建议关注夏季开源代码。

原文

12:50

12:50IT之家（博客/媒体）

精选78°

英伟达发布 Nemotron 3 Ultra 开源模型，拥有 5500 亿参数，采用混合专家架构，专为全天候运行的自主智能体设计。该模型在推理速度上较同级别前沿模型最高提升 5 倍，使用成本降低 30%，并已适配 Hermes Agent、LangChain 等主流智能体平台。同时推出安全防护和语音识别模型，增强企业级智能体能力。CrowdStrike 和 Palantir 已将其用于网络安全和业务流程自动化。模型将于 6 月 4 日通过 Hugging Face 等平台以 NIM 微服务形式开放。

AI模型英伟达 Nemotron 3 Ultra 开源模型智能体混合专家模型

推荐理由：英伟达把大模型推理速度和成本同时优化了，做智能体开发或企业自动化的团队可以直接用上，比现有开源方案更高效省钱，值得关注。

原文

12:36

marktechpost@Asif Razzaq

精选

Parallax是一种新型参数化局部线性注意力（LLA）机制，通过学习投影器替换逐查询求解器，将算术强度提升至原来的两倍。在0.6B和1.7B参数规模的语言模型上，Parallax显著降低了困惑度。该方法在保留原始Softmax注意力的同时，引入了一个学习的协方差校正分支，用于建模更丰富的上下文依赖。

AI模型 Parallax LLA Softmax 注意力机制

推荐理由：注意力效率翻倍，困惑度更低

原文

10:02

10:02IT之家（博客/媒体）

78°

MiniMax 稀宇科技发布了旗舰模型 M3，宣称是首个同时具备前沿编码与智能体能力、百万上下文和原生多模态的国产模型。M3 在编码与智能体评测中达到行业顶尖水平，能自主拆解任务、调用工具和多步推理，API 最高支持 1M tokens 上下文窗口。在 BrowseComp 智能体评测中，M3 以 83.5 分超越 Opus 4.7。M3 是原生多模态模型，从预训练阶段就进行多模态训练，使文本和视觉语义高度对齐。MiniMax 还展示了 M3 独立复现 ICLR 论文和自主训练四个 Base 模型的能力。API 已上线，提供标准版和高速版，价格有 7 天限时五折优惠，模型即将开源。

AI模型 MiniMax M3 国产旗舰模型百万上下文原生多模态编码与智能体

推荐理由：MiniMax M3 把编码、智能体、长上下文和多模态全塞进一个模型，做复杂自动化或长视频分析的开发者可以直接试，价格还有限时折扣。

原文

07:39

07:39IT之家（博客/媒体）

精选

英伟达N1x处理器在Geekbench 6预发布跑分中与苹果2023年发布的M3 Max芯片基本持平。N1x采用联发科设计的20核ARM架构CPU，集成RTX 5070级别显卡，基于LPDDR5X统一内存架构。该处理器是GB10系统级芯片的改版，曾用于DGX Spark迷你主机。跑分数据采集于2025年6月，量产版在系统适配后成绩可能提升。对比中M3 Max为14核CPU，N1x为20核，核心数占优下跑分持平，凸显苹果芯片设计优势。

AI模型 N1x M3 Max Geekbench 6 英伟达苹果

推荐理由：N1x跑分追平M3 Max

原文

5月31日

19:45

Decoder@Jonathan Kemper

精选

伦敦初创公司 Kaikaku.AI 推出名为 Epicure 的三个 AI 模型，首次明确区分食材搭配是基于食谱还是化学分子。模型基于 414 万条多语言食谱和 FlavorDB 风味数据库训练，不同变体给出不同推荐。纯化学模型在口味和营养价值分类上甚至优于食谱模型，尽管从未直接接触这些信息。这项研究揭示了 AI 在食品科学中的新应用方向。

AI模型 AI模型食材搭配食谱化学分子 Kaikaku.AI

推荐理由：做食品推荐系统或菜谱应用的开发者，可以看看化学模型如何超越食谱模型——它可能改变你设计食材搭配逻辑的方式。

原文

18:30

18:30IT之家（博客/媒体）

精选

开放媒体联盟（AOMedia）于5月29日发布AV2 v1.0规范，这是AV1的继任者。官方测试显示，AV2在PSNR-YUV指标下码率较AV1降低约28.63%，VMAF指标下降32.59%，画质基本保持不变。AV2增强了对AR/VR应用、分屏多节目传输和屏幕内容编码的支持。不过，参考软件AVM在主流硬件上仅约1帧/秒，距离实际商用尚需时间。

AI模型 AV2 AV1 AOMedia 视频编码压缩效率

推荐理由：新一代编码标准，省码率近30%

原文

17:48

17:48IT之家（博客/媒体）

精选

西北工业大学、西安电子科技大学等团队提出 HG-STR（异构图时空推理）算法，解决通信中断、视野受限下的无人机蜂群自主作战难题。模拟测试中，任务成功率 96%，目标杀伤率 100%，单步决策耗时 6.6 毫秒，较传统规则算法任务完成率提升 37.14%。即使在通信半径极度受限的弱连通条件下，仍能保持 94% 的任务成功率。该算法通过为每架无人机配备记忆模块和分层决策机制，实现了从小场景训练到大场景即时部署。

AI模型 HG-STR 无人机蜂群多智能体国防AI

推荐理由：中国团队发布无人机蜂群算法HG-STR，通信中断下仍能100%消灭目标

原文

10:19

marktechpost@Michal Sutter

精选72°

Trajectory 与 UC Berkeley Sky Lab 和 Anyscale 合作，构建了一个用于持续学习的并发多 LoRA 训练栈。该方案将每个强化学习实验映射到始终热运行的引擎上的专用 LoRA 适配器，相比单租户基线实现了 2.81 倍的端到端实验吞吐量提升，且无奖励回归。代码已在 NovaSky-AI/SkyRL 开源。这一进展解决了持续学习中多实验并行效率低下的问题，对强化学习研究和工程团队有直接价值。

AI模型 LoRA 持续学习强化学习开源/仓库训练栈

推荐理由：做强化学习持续训练的团队终于有了高效的并行方案——2.81 倍吞吐量提升且不损失奖励，直接开源可用，建议试试。

原文

5月30日

23:18

23:18IT之家（博客/媒体）

精选72°

智元机器人自研的世界模型 Genie Envisioner-Sim 2.0（GE 2.0）在具身领域热门榜单 WorldArena Track1 中登顶，该赛道评测世界模型的感知与动作响应能力。GE 2.0 仅用 20 亿参数，就超越了英伟达、微软等团队的超大参数模型，验证了轻量化模型在人形机器人应用中的适配性。该模型首次全面覆盖长时序生成、多视角生成、本体状态生成、近实时推理及奖励判别等核心环节，在长时序推理中能稳定生成 40-50 秒高质量视频，且与真实世界保持强相关性。GE 2.0 还具备奖励模型机制，可自动筛选高质量数据回流给策略模型，助力多项任务性能提升。

AI模型世界模型具身智能智元 GE 2.0 轻量化模型

推荐理由：智元用 2B 参数模型在具身智能世界模型赛道击败英伟达等巨头，做机器人或具身智能的开发者值得关注——轻量化方案可能改写行业路线。

原文

10:33

10:33IT之家（博客/媒体）

精选72°

英伟达联合香港理工大学、南京大学发布 LocateAnything 模型，专为机器人和 AI Agent 设计，实现高速、高精度对象检测。该模型通过并行框解码在单步内预测边界框，提供 Fast、Slow 和 Hybrid 三种模式，兼顾速度和精度。在单张 H100 GPU 上，Hybrid 模式每秒处理 12.7 个框，远超 Qwen3-VL 等模型。训练数据涵盖 12M 图像和 138M 查询，覆盖多种定位场景。该模型在 LVIS 高精度任务和 ScreenSpot-Pro 等基准上表现优异。

AI模型英伟达 LocateAnything 对象检测机器人感知 AI Agent

推荐理由：机器人感知和 GUI 自动化开发者终于有了一个兼顾速度和精度的检测方案——LocateAnything 的并行解码设计让实时交互成为可能，做具身智能或屏幕操作 Agent 的团队值得直接试。

原文

05:27

marktechpost@Asif Razzaq

StepFun 发布了 Step 3.7 Flash，一个 198B 参数的 MoE（混合专家）视觉语言模型，原生支持视觉理解、256k 上下文窗口和 Advisor Mode（顾问模式）。该模型针对编程智能体和搜索工作流进行了优化，能够在复杂任务中提供高效推理和代码生成能力。Step 3.7 Flash 的发布标志着多模态大模型在专业领域应用的重要进展，尤其适合需要长上下文理解和视觉-语言联合推理的场景。

AI模型 Step 3.7 Flash MoE 视觉语言模型编程智能体搜索工作流

推荐理由：做 AI 编程智能体或搜索应用的团队可以直接用上 256k 上下文和视觉能力，Step 3.7 Flash 的 Advisor Mode 能显著提升复杂任务处理效率，值得关注。

原文

5月29日

17:17

17:17IT之家（博客/媒体）

76°

小米大模型应用团队开源了 ControlFoley，一个统一的可控视频音效生成框架，解决了视频配音中“按意图控制声音”的难题。该模型支持三类任务：文本引导视频配音、文本控制视频配音（当文本与画面冲突时优先遵循文本）、以及参考音频控制视频配音（保持音色风格同时同步动作）。ControlFoley 采用时空音视频编码器 CAV-MAE-ST 增强音画同步理解，并通过时间-音色解耦策略避免参考音频干扰节奏。在多个基准测试上，ControlFoley 达到开源 SOTA，甚至在某些指标上超越商业闭源系统 Kling-Foley。代码、模型权重、在线 Demo 均已开放。

AI模型小米 ControlFoley 视频音效生成可控生成开源模型

推荐理由：做视频创作或音效生成的开发者终于有了可控的配音工具——ControlFoley 让声音按文本或参考音频来，而不是被画面牵着走。建议直接试在线 Demo，看看它如何解决“画面是A但想要B声音”的痛点。

原文

16:39

pandaily@contact@pandaily.com (Pandaily)

精选

X-Square Robot 推出了 WALL-WM，这是全球首个事件级预测的具身 AI 世界模型。与传统逐帧预测不同，WALL-WM 转向语义事件理解，让机器人能够理解任务目标而非记忆像素序列。该模型预计于 2026 年 5 月正式发布。这一突破意味着机器人可以更高效地规划动作，减少对大量训练数据的依赖，推动具身智能从感知走向认知。

AI模型具身智能世界模型事件预测 X-Square Robot WALL-WM

推荐理由：做机器人或具身智能的团队终于有了能理解任务目标的模型——WALL-WM 从像素预测升级到事件理解，直接降低训练成本，做自主导航或操作任务的开发者值得关注。

原文

15:35

marktechpost@Asif Razzaq

精选72°

Hexo Labs 开源了 SIA，一个自改进循环系统，采用 MIT 许可证。SIA 通过反馈智能体读取每次运行的轨迹，然后重写脚手架或触发 gpt-oss-120b 的 LoRA 权重更新。结合这两种杠杆，在 LawBench、TriMul GPU 内核和 scRNA-seq 去噪任务上，SIA 的表现优于仅更新脚手架的方法。这为 AI 智能体的持续自我优化提供了新范式，开发者可以直接使用或修改。

AI模型自改进智能体开源/仓库 LoRA 权重更新 Hexo Labs gpt-oss-120b

推荐理由：SIA 解决了智能体无法自主改进代码和模型权重的问题，做 AI 智能体或自动化系统的开发者可以直接用这个开源框架来提升任务性能，值得一试。

原文

11:17

pandaily@contact@pandaily.com (Pandaily)

78°

Stepfun 开源了 Step 3.7 Flash，这是一个 196B 参数的稀疏 MoE 大语言模型，专为智能体工作流优化。该模型推理速度达 400 tokens/s，并原生支持工具调用，能高效执行复杂任务。开源此举旨在推动智能体生态发展，降低开发者构建自主系统的门槛。Step 3.7 Flash 在多项基准测试中表现优异，尤其适合需要快速响应和工具集成的场景。

AI模型 Step 3.7 Flash MoE 智能体工具调用开源

推荐理由：做智能体开发的团队终于有了一个原生支持工具调用且速度极快的开源模型——400 tokens/s 的推理速度能显著提升任务执行效率，建议直接上手测试。

原文

09:07

09:07IT之家（博客/媒体）

精选76°

阶跃星辰今日发布并开源 Step 3.7 Flash，这是一款面向 Agent 生产化阶段的新一代 Flash 模型。该模型采用稀疏 MoE 架构，总参数 196B，激活参数 11B，最高生成速度达 400 Tokens/s，适合高频、多轮、低等待的 Agent 应用。Step 3.7 Flash 具备原生多模态理解与执行、联网与视觉搜索增强、高可靠工具调用与编排等能力，并针对主流 Agent 框架和 MCP 协议进行了兼容优化。开源链接包括 Model Page、GitHub、Huggingface 和 Modelscope，国内海外平台均提供 API 接入。

AI模型阶跃星辰 Step 3.7 Flash 开源/仓库 Agent/智能体多模态

推荐理由：做 Agent 开发的团队终于有了一个原生优化、速度极快的开源模型——Step 3.7 Flash 直接兼容 Claude Code、MCP 等主流框架，接入成本低，值得立刻试跑。

原文

08:38

08:38Simon Willison’s Weblog（博客/媒体）

精选76°

Anthropic 发布了 Claude Opus 4.8，官方描述为“微小但切实的改进”。该模型最大的亮点是诚实性提升，在评估中错误率最低，主要通过不确定时主动弃权而非强行回答来减少幻觉。定价与 Opus 4.7 相同，但新增了“快速模式”且价格大幅降低。技术上新支持对话中插入系统消息，可动态调整指令而不影响缓存，对长对话和智能体循环更友好。提示缓存最低门槛也从 1024 降至 512 token，进一步降低成本。

AI模型 Claude Opus 4.8 Anthropic 诚实性对话系统消息提示缓存

推荐理由：Anthropic 坦诚承认这是小幅升级，但诚实性改进和对话中系统消息功能对做长对话应用或智能体开发的团队很实用，建议关注缓存优化带来的成本节省。

原文

07:36

marktechpost@Asif Razzaq

Liquid AI 发布了 LFM2.5-8B-A1B，一款面向端侧设备的混合专家（MoE）模型。该模型总参数量为 8.3B，但每次推理仅激活 1.5B 参数，大幅降低了计算和内存需求。它支持 128K 上下文长度，具备推理和工具调用能力，可在消费级硬件上运行。这标志着端侧 AI 模型在效率与能力之间取得了重要平衡，为移动设备和边缘计算场景提供了新的选择。

AI模型端侧模型 MoE Liquid AI 推理模型工具调用

推荐理由：端侧部署大模型一直受限于算力和内存，LFM2.5-8B-A1B 用 1.5B 激活参数实现 128K 上下文和工具调用，做移动端 AI 应用或边缘推理的开发者可以直接评估其性能。

原文

06:54

06:54IT之家（博客/媒体）

83°

Anthropic 于 5 月 29 日发布旗舰模型 Claude Opus 4.8，重点提升编程、智能体和知识工作能力。相比 Opus 4.7，新模型在复杂任务中更稳定，能主动提问、识别错误，并减少无依据结论。官方评估显示，其放任代码缺陷的概率降低约 4 倍，同时亲社会行为指标创新高。claude.ai 新增 effort 程度控制，用户可平衡质量与响应速度。定价不变，快速模式速度提升 2.5 倍，成本降至 1/3。

AI模型 Claude Opus 4.8 编程助手智能体推理模型可靠性

推荐理由：做 AI 编程和智能体开发的团队终于有了更可靠的模型——Opus 4.8 减少无依据结论，主动标出不确定性，建议在复杂多步骤任务中直接试用。

原文

05:36

Decoder@Matthias Bastian

88°

Anthropic 推出了 Claude Opus 4.8，该模型在大多数基准测试中超越了 GPT-5.5 和 Gemini 3.1 Pro。相比前代，它发现自身编码错误的频率提高了四倍。同时，Anthropic 还推出了动态工作流功能，可启动数百个并行子智能体来处理代码库迁移等任务。这标志着 Claude 在性能和自动化能力上的显著提升。

AI模型 Claude Opus 4.8 GPT-5.5 Gemini 3.1 Pro 编码错误检测动态工作流

推荐理由：Claude Opus 4.8 在编码错误检测和并行任务处理上大幅进化，做大型代码库迁移或复杂自动化的开发者可以直接体验动态工作流带来的效率提升。

原文

5月28日

17:17

marktechpost@Asif Razzaq

精选72°

Perplexity AI 开源了其重写的 Unigram 分词器，该分词器在 p50 延迟上比 Hugging Face tokenizers crate 低 5 倍，同时将生产环境的 CPU 利用率降低了 5-6 倍。这一改进主要针对重排序器（reranker）的延迟瓶颈，通过优化分词效率来提升整体推理性能。开源版本已在 GitHub 上发布，可供开发者直接使用。对于依赖大规模文本处理的 AI 团队来说，这能显著降低计算成本并加快响应速度。

AI模型分词器开源/仓库 Perplexity AI 延迟优化推理加速

推荐理由：做搜索或 RAG 系统的团队终于有了更快的分词方案——Perplexity 开源的这个 Unigram 分词器直接降低 5 倍延迟和 6 倍 CPU 消耗，建议有高吞吐需求的开发者立刻试一下。

原文

16:10

16:10IT之家（博客/媒体）

联发科官网上线天玑 8550 处理器参数，基于台积电 4nm N4P 工艺。CPU 采用全大核 8 核 Cortex-A725 架构，包括 1 颗 3.4GHz、3 颗 3.2GHz 和 4 颗 2.2GHz 核心。GPU 为 Mali-G720 MC8，配备 NPU 880 并支持 Google Gemini Nano V3。OPPO Reno 16 和荣耀 600 Pro 已分别搭载天玑 8550 SUPER 和 Elite 版本。

AI模型天玑8550 联发科 Cortex-A725 台积电4nm 手机芯片

推荐理由：全大核新旗舰，4nm工艺

原文

15:39

pandaily@contact@pandaily.com (Pandaily)

精选76°

Sphere AI Lab 开源了 Orbit，一个强化学习后训练框架，支持在单个 8×B200 节点上对万亿参数模型（如 DeepSeek-V4）进行微调。该框架通过优化内存和计算效率，大幅降低了大规模模型训练的门槛，使得资源有限的团队也能进行高效的后训练。Orbit 的发布解决了万亿参数模型训练需要大规模集群的痛点，有望推动更多研究者和开发者参与大模型的后训练优化。

AI模型开源/仓库强化学习后训练万亿参数 DeepSeek-V4

推荐理由：Orbit 让万亿参数模型的后训练不再依赖大规模集群，做 RL 微调或大模型优化的团队可以直接在单节点上跑 DeepSeek-V4，建议试试这个开源方案。

原文

15:39

pandaily@contact@pandaily.com (Pandaily)

精选

中国 AI 独角兽 MiniMax 正在准备推出其下一代 M3 大语言模型，该模型采用自研稀疏注意力机制，声称预填充速度提升 9.7 倍。M3 模型旨在解决长上下文场景下的计算效率瓶颈，通过稀疏化注意力计算减少冗余，从而加速推理并降低资源消耗。这一进展对需要处理超长文本的 AI 应用（如文档分析、对话系统）具有重要意义。MiniMax 预计在 2026 年 5 月正式发布 M3 模型。

AI模型 MiniMax M3 稀疏注意力大语言模型推理加速

推荐理由：稀疏注意力是当前大模型效率优化的关键方向，MiniMax 的 9.7 倍提速对做长文本推理的开发者是直接利好，值得关注其技术细节和开源计划。

原文

15:35

Pandaily@contact@pandaily.com (Pandaily)

精选

中国多家研究机构联合推出RoboMemArena基准。该基准专门用于评估机器人记忆能力。它聚焦长时操作任务（long-horizon manipulation tasks）。这是首个全面评估机器人记忆的基准。

AI模型 RoboMemArena 机器人记忆基准测试长时操作

推荐理由：首个机器人记忆基准

原文

14:49

14:49IT之家（博客/媒体）

精选

阿里巴巴达摩院5月28日发布“敏迭”求解器（MindOpt）GPU版本，在近2000个通用算例测试中，稳定求解99%以上的问题类型。该版本新算法缓解了GPU求解器的“长尾效应”，在高精度下求解成功率比主流产品提升14%，速度平均提升2.67倍。它还能稳定求解超过80%的亿级变量线性规划问题，如某数字广告平台3.3亿变量、1600万约束的问题可在1700秒内解到可靠精度。

AI模型敏迭求解器 MindOpt 达摩院 GPU求解器优化求解

推荐理由：达摩院GPU求解器，算亿级变量快准稳

原文

03:09

Decoder@Matthias Bastian

AI模型微软 MAI-Image-2.5 谷歌 Nano Banana 2 文生图文本渲染

推荐理由：做营销素材和电商设计的团队可以关注——MAI-Image-2.5 的文本渲染能力直接对标谷歌，生成带字海报和产品图更靠谱，值得在内部测试中对比一下。

原文

02:42

02:42Hugging Face: Blog（博客/媒体）

IBM与Artificial Analysis联合推出ITBench-AA，这是首个针对企业IT运维场景的智能体基准测试。测试涵盖事件响应、故障排查等真实任务，结果显示包括GPT-4、Claude在内的前沿模型平均得分低于50%。该基准揭示了当前AI智能体在处理复杂企业IT流程时的能力短板，为行业提供了可量化的评估标准。

AI模型智能体企业IT 基准测试 IBM 运维自动化

推荐理由：企业IT团队终于有了衡量AI智能体真实能力的标尺——前沿模型都不到50分，说明自动化运维还有很大提升空间，做IT运维或AI落地的建议点开看看差距在哪。

原文