全部 AI 动态 · AI 热点

6月17日

04:28

elvis@omarsar0

GLM-5.2 在 Design Arena 上跃居第一，Elo 评分达 1360，超越了此前不可用的 Claude Fable 5。该模型相比前代提升了 4 个名次和 27 个 Elo 分，创下 Design Arena 代码类别中最高 Elo 记录之一。模型以开放权重发布，由 @Zai_org 团队推出。

推荐理由：智谱的 GLM-5.2 刚把 Claude Fable 5 挤下 Design Arena 榜首，开放权重还能自己测，设计能力拉满。

原文

04:01

elvis@omarsar0

GLM 5.2 在 FrontierSWE 基准上排名第 3，得分仅次于 Fable 5 和 Opus 4.8，并超越 GPT-5.5。这是首个缩小 Anthropic/OpenAI 与其他提供商之间差距的模型，同时也是目前最强的开源权重模型。该成绩展示了开源模型在编码任务上的竞争力。

AI模型 GLM 5.2 FrontierSWE GPT-5.5 开源模型编码基准

推荐理由：GLM 5.2 在编码基准上干掉了 GPT-5.5，开源里最强，值得关注。

原文

04:01

elvis@omarsar0

72°

Z.ai 宣布推出 GLM-5.2 开源权重模型，MIT 许可发布。其在编码和智能体任务上有显著改进，支持 1M 上下文窗口。提供两种推理等级：GLM-5.2 (max) 和 GLM-5.2 (high)，后者在性能与 token 效率间取得平衡。API 定价与 GLM-5.1 相同，权重已上架 Hugging Face。

AI模型 GLM-5.2 Z.ai 开源模型编码智能体长上下文

推荐理由：Z.ai 发了 GLM-5.2，开源权重、MIT 许可，编码和智能体能力提升明显，还支持 1M 上下文，想玩前沿模型的可以试试。

原文

03:58

lmarena.ai@lmarena_ai

GLM-5.2 (Max) 在 Text Arena 总榜排名第25位，与上一版本 GLM-5.1 水平接近。在 Expert Arena 和 Multi-Turn 子类别中取得较大进步。在生命科学、社会科学、创意写作和医学医疗等职业类别中表现提升。

AI模型 GLM-5.2 GLM-5.1 智谱 Text Arena 多轮对话

推荐理由：智谱新模型 GLM-5.2 整体排名没变，但在专家问答和多轮对话上进步明显，写创意和医学内容更强了。

原文

03:49

ollama@ollama

精选

Z.ai 发布 GLM-5.2，支持 1M token 上下文窗口，专为长程编码和智能体任务设计。提供两种推理模式：GLM-5.2 (max) 和 GLM-5.2 (high)，权重以 MIT 许可开源。现已通过 Ollama 云服务在美国 NVIDIA Blackwell GPU 上可用，API 定价与 GLM-5.1 相同。该模型声称是目前最强开源编码模型。

AI模型 GLM-5.2 Z.ai Ollama 开源模型长上下文

推荐理由：Z.ai 开源了 GLM-5.2，有 1M 上下文窗口，适合写长代码和搭智能体，在 Ollama 上直接就能用，MIT 许可随便玩。

原文

03:46

lmarena.ai@lmarena_ai

76°

GLM-5.2 (Max) 在 Code Arena: Frontend 中排名第二，得分比 Claude Opus 4.7 (Thinking) 高 29 分，仅次于 Fable 5。在 Agent Arena 中排名第 10，是排名最高的开源模型，超越 Kimi-K2.6 和 Minimax-M3。在 Brand & Marketing、Reference-Based Design 等 6 个子类别中均排名第一。价格维持 $1.4/$4.4 per input/output MTokens，上下文窗口 1M。与 5.1 相比，排名从 #13 升至 #10，任务成功率和用户评价提升，但 steerability 下降 6%。

AI模型 GLM-5.2 Zai_org Code Arena Agent Arena 开源模型

推荐理由：GLM-5.2 在编程和智能体任务上超越 Claude Opus 4.7，是开源模型新标杆，编程能力仅次于 Fable 5。

原文

03:40

@koltregaskes@koltregaskes

OpenAI即将推出新语音模型GPT-Bidi-1（代号可能变更）。该模型专为生成更自然的语音交互设计。消息最早由Dev Mode服务器报道，目前无具体发布日期。

AI模型 GPT-Bidi-1 OpenAI 语音模型自然语音

推荐理由：OpenAI要发新语音模型GPT-Bidi-1，听说声音超级自然，比现在的好不少！

原文

03:38

@koltregaskes@koltregaskes

DeepSeek 4.1 版本预计于本周发布。该版本是 DeepSeek 系列的最新迭代，具体性能数据尚未公布。用户可关注官方渠道获取更新信息。

AI模型 DeepSeek DeepSeek 4.1 模型发布开源模型

推荐理由：DeepSeek 要发新版本了，听说这周就上线，看看有什么进步。

原文

03:37

The Rundown AI@therundownai

73°

Z AI发布了GLM-5.2，一款开源权重模型，支持1M token上下文窗口。在long-horizon coding基准上得分为74.4，超过GPT-5.5的72.6。在SWE-bench Pro上得分为62.1，同样领先GPT-5.5。AIME 2026数学测试得分为99.2，高于Opus 4.8和GPT-5.5。该模型在Designarena排名第一，并以MIT许可证发布。

AI模型 GLM-5.2 Z AI Opus 4.8 GPT-5.5 开源模型

推荐理由：Z AI的GLM-5.2开源，百万token上下文，数学和编程全面超过GPT-5.5，值得试玩。

原文

03:35

@koltregaskes@koltregaskes

AI模型 Fable 5 模型排行榜基准测试

推荐理由：Fable 5 在排行榜上把其他模型都压下去了，看看它到底强在哪

原文

03:28

lmarena.ai@lmarena_ai

Agent Arena 是一个智能体性能排行榜，现已在 arena.ai/leaderboard/ag... 上线。用户可通过按开放模型或按实验室（lab）筛选来查看详细数据。该排行榜为不同智能体模型提供了直接的性能对比基准。

AI模型 Agent Arena 智能体排行榜基准测试开放模型

推荐理由：想比对比不同智能体模型？去Agent Arena排行榜，能按开放模型或实验室筛选，帮你找到合适的。

原文

03:05

vLLM@vllm_project

精选

vLLM 发布 0.23.0 版本，为 Zai.org 的 GLM-5.2 模型提供 Day-0 支持。GLM-5.2 拥有 1M token 上下文窗口，专为长周期编码智能体设计，可承载从需求到部署的完整开发流程。该模型针对大规模代码实现、自动化研究和性能优化进行了调优，支持客户端和移动端内调试。用户即日起可通过 vLLM 运行该模型。

AI模型 vLLM GLM-5.2 1M token 编程助手推理模型

推荐理由：vLLM 刚发的 0.23.0 直接支持了 GLM-5.2，这个模型有 100 万 token 上下文，适合一口气写完整个项目代码，还能跨平台部署，写代码的可以试试。

原文

03:05

OpenRouter@OpenRouterAI

精选

智谱AI的GLM-5.2模型已在OpenRouter平台上线。该模型拥有100万token的上下文窗口。它专为长周期、混乱的编码代理任务设计，能保持可靠性。

AI模型 GLM-5.2 Z.ai OpenRouter 超长上下文智能体

推荐理由：GLM-5.2在OpenRouter上架了，百万级上下文处理复杂编码任务，适合做长周期智能体。

原文

03:04

OpenRouter@OpenRouterAI

精选

Z.ai 发布 GLM-5.2 模型，采用 MIT 开源许可。该模型在编码和智能体任务上有显著提升，支持最长 1M 标记的上下文窗口。提供两种推理强度：GLM-5.2 (max) 追求极限性能，GLM-5.2 (high) 平衡性能与 token 效率。API 定价与 GLM-5.1 保持一致。

AI模型 GLM-5.2 Z.ai 开源模型编码助手智能体

推荐理由：Z.ai 新出的 GLM-5.2 模型，编码和智能体能力大幅增强，还有 1M 超大上下文，而且开源！API 价格没涨，值得试试。

原文

03:03

berryxia@berryxia

73°

NVIDIA开源了SOMA-X v0.2，一个使用单一骨架就能适配各种体型的3D人体模型。该模型具备关节扭转自动修正、骨骼自动缩放、高级姿态反转和超轻量数据特性，采用Apache 2.0许可证。它专为机器人和物理AI设计，可用于机器人训练、物理仿真和动作迁移，解决了不同机器人体型不统一导致动作数据难以复用的问题。

AI模型 SOMA-X NVIDIA 3D人体模型机器人物理AI

推荐理由：NVIDIA开源了SOMA-X v0.2，单一骨架就能适配不同体型，机器人动作数据复用门槛降低，训练效率提升。

原文

03:01

lmarena.ai@lmarena_ai

精选72°

GLM-5.2 (Max) 在 Agent Arena 排行榜上排名第10，得分接近 Claude-Opus-4.8（非推理模式）。它成为排名最高的开源模型，较去年发布的 GLM-5.1 从第13位上升3位。该模型在数百万真实长程任务上评测，可调用网页搜索、文件系统和终端工具。GLM-5.2 (Max) 输入/输出定价保持为每百万 token 1.4/4.4 美元，支持1M上下文窗口，权重采用 MIT 许可开源。

AI模型 GLM-5.2 Zai_org Agent Arena 开源模型智能体

推荐理由：Zai_org 发了 GLM-5.2，在 Agent 任务榜单上排第10，碾压所有开源模型，而且价格没变。跑复杂工作流、调工具效果明显进步。

原文

02:17

kimmonismus@kimmonismus

77°

GLM-5.2 以 MIT 许可证开源，权重开放。该模型支持 1M token 上下文窗口。提供 max 和 high 两种推理模式。专门针对大规模部署、自动化研究、性能优化和复杂调试进行训练。API 定价与 GLM-5.1 保持一致。

AI模型 GLM-5.2 智谱开源模型长上下文推理模型

推荐理由：智谱开源了 GLM-5.2，1M 上下文还能选推理模式，做长代码任务更强了。

原文

01:59

lmarena.ai@lmarena_ai

Agent Arena 在其官方博客中介绍了用于智能体评估的因果追踪方法论。该方法可帮助研究人员分析智能体决策背后的因果链路。Agent Arena 平台本身支持多种智能体基准测试。

AI模型 Agent Arena 智能体评估基准因果追踪

推荐理由：Agent Arena 的因果追踪方法能帮你搞懂智能体为什么那么做，比单纯看分数更有用。

原文

01:57

Jim Fan@jimfan

76°

NVIDIA联合CMU和伯克利推出ENPIRE系统，让AI智能体完全自主控制真实机器人循环，包括重置环境、搜索文献、实现想法、训练部署、自我验证等步骤。该系统在整理别针、安装GPU、绑扎带等灵巧任务上达到99%成功率。机器人通过自提出启发式成功信号进行爬坡优化，无需人类介入。

AI模型 ENPIRE NVIDIA 机器人智能体自主循环

推荐理由：NVIDIA搞了个ENPIRE，让AI自己操控机器人反复试错，真实任务成功率干到99%，连GPU都能自己插。

原文

01:31

lmarena.ai@lmarena_ai

精选

MiniMax M3 在全新 Agent Arena 排行榜上位列第18，是排名第5的开源模型。相比 M2.7，M3 从第22名升至第18名，主要改进是任务成功确认和 bash 错误恢复能力。工具幻觉保持低位，与最佳模型并列第一。排行榜基于30万+任务、200万+工具调用和4000万行代码的代理会话评估。

AI模型 MiniMax M3 Agent Arena 开源模型智能体

推荐理由：MiniMax M3 在 Agent Arena 上排名上升了4位，是最强开源模型之一，能写代码、做PPT、查资料，幻觉控制也顶级。

原文

00:59

AK@_akhaliq

JoyAI发布了JoyAI-VL-Interaction模型，这是一个实时视觉语言交互智能系统。该模型支持实时视觉理解与语言生成，能够处理视频帧序列并生成自然语言响应。目前尚未公布具体基准测试成绩或版本号。

AI模型 JoyAI-VL-Interaction JoyAI 多模态实时交互

推荐理由：JoyAI出了个能实时看懂画面并跟你聊天的模型，适合做交互式AI应用。

原文

00:10

Justine Moore@venturetwins

Ideogram 发布了名为 Ideogram 2.0 的开源权重图像模型，宣称在开放权重类别中排名第一。该模型体积足够小，可在消费级 GPU 上运行，但在设计任务上与 Nano Banana 和 GPT Image 竞争。研究团队由 @mo_norouzi 领导，分享了技术细节和观点。

AI模型 Ideogram 开源模型图像生成消费级GPU GPT Image

推荐理由：Ideogram 这个开源权重图像模型能在普通显卡上跑，还能和 GPT Image 掰手腕，适合不想烧钱又想要好效果的人。

原文

6月16日

22:10

阿里云 Alibaba Cloud@alibaba_cloud

76°

阿里云发布Qwen-Robot Suite，包含三个基础模型：Qwen-RobotNav统一5种导航任务（指令跟随、点目标、物目标、目标跟踪、自动驾驶）；Qwen-RobotManip在38,100+小时开源语料上预训练，实现异构机器人统一状态-动作空间；Qwen-RobotWorld支持20+具身化身，通过自然语言接口预测物理世界未来。三个模型可独立使用或组合，构成通用具身智能系统的底层工具包。

AI模型 Qwen Robot 具身智能机器人导航基础模型

推荐理由：阿里云一口气发了三个机器人基础模型：导航、操作、世界模型，每个都能单独用，还能组合。Qwen-RobotManip在3.8万小时数据上预训练，挺实在的。

原文

19:02

kimmonismus@kimmonismus

VibeThinker-3B是仅3B参数的小模型，在AIME26上取得94.3分，在LiveCodeBench v6上Pass@1达80.2，在未见过的LeetCode比赛中正确率96.1%。其训练基于Qwen2.5-Coder，结合课程SFT、多领域RL、离线自蒸馏和最终RL指导阶段。结果表明，部分可验证推理能力可被高效压缩到小密集模型中。

AI模型 VibeThinker-3B Qwen2.5-Coder 推理模型小模型代码生成

推荐理由：3B的小模型在数学和代码推理上快追上大模型了，适合部署在低算力场景，值得关注。

原文

16:34

AI Will@FinanceYF5

83°

NVIDIA 发布了 SANA-Streaming 模型，支持对长达一分钟的视频进行实时编辑。用户可以在视频播放过程中更改服装、背景、风格和场景。该模型无需等待渲染，即可直接看到修改结果。

AI模型 NVIDIA SANA-Streaming 视频生成实时编辑

推荐理由：NVIDIA 出了 SANA-Streaming，放视频时就能实时换衣服换背景，一分钟的长视频也能改

原文

14:22

AlphaSignal@AlphaSignalAI

精选

CUA-Gym是一个端到端流水线，通过三个协调编码智能体自动生成可验证的计算机使用任务。它构建了94个流行应用的模拟版本，包括Slack、Notion、Salesforce和Gmail克隆，并直接读取状态设计奖励函数。生成的训练数据集包含32,112个验证元组，覆盖110个环境。基于该数据训练的模型在OSWorld-Verified基准上达到72.6%，与Claude Sonnet 4.6持平。一个3B参数的小模型以十分之一参数匹配了17B基座模型的性能。

AI模型 CUA-Gym Claude Sonnet OSWorld-Verified 智能体开源模型

推荐理由：CUA-Gym用三个AI智能体自动生成训练数据，省去人工标注。它克隆了94个常用软件，训练出的模型追平了Claude Sonnet 4.6，小模型3B参数达到17B效果，还完全开源。

原文

14:08

AlphaSignal@AlphaSignalAI

研究人员在论文《Training-Free Looped Transformers via Numerical ODE Integration》中提出一种无需重新训练即可提升冻结大模型性能的方法。该方法将每一层视为解常微分方程的一步，用多个小阻尼步骤替换原始大步骤，使模型获得更多推理时间。在MMLU-Pro上取得+2.64分提升，在GPQA上取得+2.01分提升，并在87%的测试组合中保持正向效果。

AI模型 Looped Transformers MMLU-Pro GPQA 推理模型无训练优化

推荐理由：这篇论文教会你一种骚操作：不重新训练，就能让现成模型在推理时多思考几轮，MMLU-Pro和GPQA分数都涨了，值得看看。

原文

14:05

berryxia@berryxia

78°

Unsloth团队用Dynamic 2-bit方案将1万亿参数的Kimi K2.7 Code模型压缩48%，重要层保留更高精度。量化后模型仅需325GB RAM/VRAM即可本地运行，推理速度达40+ tok/s。全精度版本需要610GB显存。该优化并非粗暴量化，而是保留了模型的推理效率，尤其适合长程任务、复杂推理和agent工作流。

AI模型 Kimi K2.7 Code Unsloth 量化本地部署开源模型

推荐理由：Unsloth把1万亿参数的Kimi K2.7 Code压到325GB本地能跑，速度40+ tok/s，长程推理和agent工作流全闭环，开源社区终于能自己跑了。

原文

13:55

@hebbia@hebbia

71°

在Hebbia金融服务业基准测试中，Anthropic的Fable 5模型总分超过所有其他前沿模型。该模型在基于文档的推理任务上提升显著，并在图表与表格解读、问题解决两个子项中取得最高分。测试结果来自Hebbia发布的金融行业专属评测集，涵盖多个复杂金融场景。

AI模型 Fable 5 Anthropic Hebbia 基准测试金融AI

推荐理由：Hebbia测了金融场景，Fable 5在文档推理和图表解读上碾压其他模型，搞金融AI的可以看看具体分数对比。

原文

13:50

@hebbia@hebbia

精选73°

Hebbia CTO 指出 Claude Opus 4.8 在金融工作流中实现了更强的引用准确性。相比前代，它在处理复杂金融文档时 token 效率显著提升。新模型适用于需要高精度引用的财务分析场景。

AI模型 Claude Opus 4.8 Hebbia 金融引用准确率 token效率

推荐理由：Hebbia 的 CTO 亲测说 Claude Opus 4.8 在金融任务上引用更准、省 token，做财报分析的团队可以试试。

原文

12:42

berryxia@berryxia

77°

据社交媒体传闻，OpenAI可能于6月23日发布GPT-5.6。该模型运行成本仅为Fable的三分之一，上下文窗口扩展至150万token，智能体编程工作流将全面升级。目前信息仍属未经证实的泄露阶段。

AI模型 GPT-5.6 OpenAI 上下文窗口智能体编程

推荐理由：传GPT-5.6成本更低、上下文超长，还能提升智能体编程，6月23日可能有动作，值得关注后续。

原文

12:08

shao__meng@shao__meng

精选

Cua与Snorkel AI联合发布Cua-Bench基准，首个公开数据集聚焦KiCad电子设计自动化工具，包含25道专家编写的任务。测试显示最强模型GPT-5.5仅完全通过6道（24%），Claude Sonnet 4.5和Haiku 4.5各通过5道。关键发现：模型在编辑已有原理图方面表现尚可，但16道从零搭建任务全部失败。失败原因包括导航开销大（约84%）、操作粒度过细（约84%）和布线未完成（约72%），同时自我校验不可靠。

AI模型 Cua-Bench KiCad GPT-5.5 Claude Sonnet 4.5 Agent

推荐理由：想看看AI Agent在专业软件上到底行不行？Cua-Bench用KiCad的25道真实任务给模型打分，最强的也只过了6道，从零建电路全挂。看完你就知道瓶颈在哪了。

原文

10:07

Gary Marcus@GaryMarcus

Anthropic 发布的 Claude Fable 5 在 Epoch AI 的 Epoch Capabilities Index 上获得 161 分，以 1 分之差超越 GPT-5.5 Pro 的 160 分。这是 Anthropic 一年多来首次在该基准上领先。该指数综合评估模型能力，当前最高分为 161。尽管成绩创下新高，但专家指出进步幅度仍属渐进。

AI模型 Claude Fable 5 GPT-5.5 Pro Anthropic Epoch Capabilities Index 基准测试

推荐理由：Claude Fable 5 刚在 Epoch 能力指数上以 161 分微弱领先 GPT-5.5 Pro，这是 Anthropic 一年多来首次登顶，你可以看看它具体强在哪。

原文

09:32

lmarena.ai@lmarena_ai

精选

Kimi-K2.7-Code是Kimi新发布的编码模型，在Code Arena: Frontend中排名第3（开源模型），整体第19。相比K2.6，该模型在Kimi Code Bench v2上提升21.8%，Program Bench提升11.0%，MLS Bench Lite提升31.5%。推理效率提升，推理token使用量降低30%。模型已通过Kimi API和Kimi Code开源提供。

AI模型 Kimi-K2.7-Code Kimi Code Arena 开源模型编码模型

推荐理由：Kimi新出的编码模型K2.7-Code，在Code Arena前端排名第三，比上代提升明显，推理更省token，开源可玩。

原文

09:32

lmarena.ai@lmarena_ai

Kimi-K2.7-Code 在 Code Arena: Frontend 基准测试中排名第19位。该基准评估前端代码生成能力。作者提示 Agent Arena 的分数即将发布。

AI模型 Kimi K2.7-Code Code Arena 前端代码智能体

推荐理由：Kimi 的新代码模型在前端任务上排到第19，想看Agent成绩的可以蹲一下。

原文

09:03

berryxia@berryxia

精选

12B参数的Gemma 4 12B Coder GGUF模型基于Google的gemma-4-12B-it微调，专门针对代码生成和复杂推理。训练数据使用了Composer 2.5的真实通过案例，并由Fable 5辅助补全困难case，确保推理步骤导向可运行代码。模型采用GGUF格式，可在12GB显存的显卡甚至CPU上离线运行。下载量已突破6000，社区反馈在本地代码调试、补全、算法生成等场景表现出色。

AI模型 Gemma 4 12B Coder GGUF Fable 5 代码生成本地模型

推荐理由：Gemma 4 12B Coder 把 Fable 5 的推理链蒸馏到本地，12GB 显卡就能跑顶级代码生成，再也不用担心 API 费用和限制

原文

03:16

AlphaSignal@AlphaSignalAI

卡内基梅隆大学构建SusVibes基准，包含200个真实编程任务，每个任务来自历史上人类曾引入漏洞的开源项目。SWE-Agent（Claude 4 Sonnet）通过功能测试61%，但仅10.5%的解决方案安全，超过80%的工作代码含有漏洞。尝试添加安全警告、让代理识别弱点、揭示漏洞类型三种修复，安全改善甚微，功能准确度下降7个百分点。

AI模型 SusVibes SWE-Agent Claude 4 Sonnet 卡内基梅隆大学代码安全

推荐理由：卡内基梅隆的测试发现，编程代理写代码10个里只有1个安全。别信AI代码，一定要做安全审查。

原文

03:07

Harrison Chase@hwchase17

LangChain后训练了一个专用模型，用于检测生产环境中的智能体迹（agent traces）问题。该模型在准确性上达到SOTA，推理成本仅为前沿模型的1/10至1/100。用户可通过Airtable链接直接试用。

AI模型 LangChain 智能体生产环境检测模型低成本

推荐理由：LangChain搞了个专门检测Agent问题的模型，又准又便宜，比用GPT-4省太多钱了，快去试试。

原文

02:16

LMSYS Org (SGLang)@lmsysorg

76°

LMSYS 发布博客介绍 DFlash 和 Spec V2 推测解码技术。在 8 块 B200 上，针对 HumanEval 基准，DFlash + Spec V2 实现超过 4.3 倍基线吞吐量和 1.5 倍原生 MTP 吞吐量。其核心包括块扩散起草器（一次前向传播生成完整 token 块）和 KV 注入（目标模型特征馈入每层 KV 缓存），以及 Spec V2 重叠调度器带来 33% 端到端提升。该方案现已作为 SGLang 的默认推测解码引擎。

AI模型 DFlash Spec V2 SGLang 推测解码推理加速

推荐理由：LMSYS 和 Modal 联手推出了 DFlash，让 Qwen 3.5 的推理速度比原生 MTP 快 1.5 倍，比基线快 4.3 倍，代码已开源，玩起来！

原文

02:02

Jerry Liu@jerryjliu0

Karan Goel 团队发布 Sonic-3.5（文本转语音）和 Ink-2（语音转文本）两种流式模型。新架构实现了速度和质量的突破，将两者推向各自类别的榜首。该团队自称是目前唯一同时拥有排名第一的语音输入和输出模型的提供商。

AI模型 Sonic-3.5 Ink-2 语音识别语音合成流式模型

推荐理由：Karan Goel 发了两个新模型，Sonic-3.5 做 TTS 排名第一，Ink-2 做 STT 也是第一，说是唯一一家听说都做到顶的。做语音智能体的话看看。

原文