全部 AI 动态 · AI 热点

AITOP

6月20日

01:56

Ate-a-Pi@svpino

该博主从4月起在Mac Studio上运行gemma-4:26b处理私密文档，目前六成查询都使用该模型。它速度快且能力强，但复杂编程任务仍需专用模型。适合日常使用并避免向大型AI实验室上传数据。

AI模型 gemma-4:26b 本地模型隐私文档 Mac Studio

推荐理由：gemma-4:26b 本地跑很香，处理私密文档不用传云端，日常六成查询够用。但写代码别指望它。

原文

6月19日

23:57

Thomas Wolf@Thom_Wolf

开源模型生态欢迎新手尝试Opus 4.8级别的模型。GLM-5.2是ZAI org发布的开放权重模型，可通过Hugging Face页面使用。多个供应商竞争价格，智能体价格便宜。模型可本地运行、微调并构建商业应用，无需许可。HuggingChat提供免费聊天界面。

AI模型 GLM-5.2 Hugging Face 开源模型本地部署微调

推荐理由：GLM-5.2达到Opus 4.8水平，免费、可本地跑、可微调，比闭源灵活还便宜，快试试！

原文

22:18

Decoder@Maximilian Schreiner

一项新基准测试评估了AI处理真实知识工作的能力。即使是最先进的AI模型，也仅能完全解决3%的任务。这一结果凸显了当前AI在处理复杂、多步骤的知识工作方面仍存在巨大短板。

AI模型基准测试知识工作 AI性能

推荐理由：这个新基准狠狠打了AI的脸——最强模型也只完成3%的真实知识工作，别看平时吹得厉害。

原文

21:53

爱范儿@莫崇宇

OpenAI 旗下的 Codex 模型迎来大更新。Codex 更新后可以学习用户电脑操作，将操作数据转化为训练素材。此次更新将 Codex 的能力从代码领域扩展到系统操作自动化。

AI模型 Codex OpenAI 智能体

推荐理由：嘿，OpenAI 的 Codex 又更新了，这次它能学习你在电脑上的操作，以后重复任务完全可以交给它，省心！

原文

18:43

Together AI@togethercompute

Together AI 在推文中指出，当团队运行数十亿 tokens 时，缓存、吞吐量和服务效率的微小差异会转化为产品级的经济性。以 MiniMax M3 模型为例，该模型在 Together AI 平台上提供前沿品质和开放模型经济学，其服务栈专为规模化设计。这体现了开放模型在生产中的实际成本竞争力。

AI模型 MiniMax M3 Together AI 开放模型推理效率经济性

推荐理由：看看 Together AI 怎么用 MiniMax M3 把开放模型做大，跑几十亿 tokens 还省钱。不是吹概念，是实打实的缓存和吞吐量优化。

原文

18:41

Together AI@togethercompute

精选

AI模型 GLM-5.2 Zai_org Together AI 智能体长上下文

推荐理由：GLM-5.2 支持百万级上下文，还能控制推理深度，搞智能体编程和复杂工具链的可以试试。Together AI 上直接用。

原文

18:40

Together AI@togethercompute

TogetherAI用Kimi K2.7 Code和Claude Fable 5各生成12个落地页。Kimi的成本仅为Claude的1/16，质量表现接近。通过设计MCP服务器提供视觉上下文后，Kimi效果更佳。这表明开源模型在落地页生成工作流中已是高性价比的实用选择。

AI模型 Kimi K2.7 Code Claude Fable 5 开源模型 MCP/工具代码模型

推荐理由：想低预算做落地页？试试Kimi K2.7 Code，便宜16倍效果不输Claude Fable 5，尤其配合MCP服务器更稳。

原文

18:39

Together AI@togethercompute

Together Compute 测试了闭源和开源模型构建小型可玩游戏的能力。结果显示，开源模型成本更低、速度更快，生成游戏质量接近闭源模型。例如，Opus 4.8 成本是 MiniMax M3 的 15 倍，GPT-5.5 是 Nemotron Ultra 的 10 倍，而 Kimi K2.7 Code 比 Opus 4.8 便宜 7 倍。

AI模型 Opus 4.8 MiniMax M3 GPT-5.5 开源模型游戏生成

推荐理由：Together Compute 实测：闭源模型贵几倍，开源做小游戏又快又便宜，质量还接近，想省钱就选开源。

原文

18:37

Together AI@togethercompute

精选

Together AI分享了优化GLM 5.1推理性能的三项关键改进。他们重写了索引器的topk内核。接着融合了索引器内核以减少内存和启动开销。同时消除了限制预填充吞吐量的CPU开销。这些优化显著提升了GLM 5.1在Together AI平台上的运行效率。

AI模型 GLM 5.1 Together AI 推理优化内核重写

推荐理由：想知道Together AI怎么让GLM 5.1跑得更快？他们分享了三个工程优化点，对部署GLM 5.1有直接帮助。

原文

18:36

marktechpost@Asif Razzaq

Liquid AI推出两个350M参数的多语言检索模型：LFM2.5-Embedding-350M（稠密双编码器）和LFM2.5-ColBERT-350M（后期交互模型），支持11种语言。模型专为边缘设备设计，可快速执行跨语言搜索。其ColBERT架构在保持高精度的同时，能处理句子级交互匹配。

AI模型 LFM2.5-Embedding-350M LFM2.5-ColBERT-350M Liquid AI 多语言搜索边缘检索

推荐理由：Liquid AI出了两个轻量模型，350M参数就能做11种语言的搜索，还能装到手机等边缘设备上跑。

原文

18:35

Together AI@togethercompute

Together AI 上线了 Cartesia Sonic 3.5 语音模型，为开发者提供超过150种语音。通过语音查找器，开发者可以试听和比较这些语音，为实时智能体挑选最合适的角色。选定后可直接在 Together AI 平台部署，简化开发流程。

AI模型 Cartesia Sonic 3.5 Together AI 语音模型实时语音智能体

推荐理由：Together AI 集成了 Cartesia Sonic 3.5，有150多种语音可选，做实时语音智能体可以试试这个新库。

原文

18:34

Together AI@togethercompute

Together AI 部署的 DeepSeek V4 Pro 在 Artificial Analysis 基准测试中同时获得输出速度和延迟两项第一。该成绩通过优化 KV 缓存、前缀复用、内核及端点配置实现。Together AI 公开了其推理系统的具体工程方案，包括缓存策略和内核调优。

AI模型 DeepSeek V4 Pro Together AI Artificial Analysis 推理优化性能基准

推荐理由：Together AI 把 DeepSeek V4 Pro 调到了速度与延迟双第一，还公开了优化方法，搞推理部署的值得看看。

原文

18:33

Together AI@togethercompute

精选

Kimi Moonshot 发布 Kimi-K2.7-Code，基于 Kimi K2.6 的专用编码智能体模型。该模型面向长周期软件工程工作流，支持工具调用和代理式推理。现已通过 Together AI 的推理栈提供，针对工具密集型编码代理场景优化。模型在多个编程基准上表现优于前代。

AI模型 Kimi-K2.7-Code 月之暗面智能体代码模型

推荐理由：月之暗面出了个专门写代码的智能体模型 K2.7-Code，在 Together AI 上就能跑，搞长期软件工程任务挺合适。

原文

18:26

Yangyi@Yangyixxxx

GLM5.2在前端审美能力上有显著进步，用户评价其表现接近Claude。该模型可能通过优化视觉布局和UI设计来增强用户体验。目前尚无公开基准测试结果，但社区对其潜力表示关注。

AI模型 GLM5.2 Claude 前端审美

推荐理由：GLM5.2的前端审美变强了，有人说快赶上Claude了，做UI设计的朋友可以留意一下。

原文

15:39

15:39IT之家（博客/媒体）

银河通用推出全球首个人形机器人通用小脑GPT基础模型AstraBrain-WBC 0.5，参数量达8040万，使用2万小时人类动作数据训练。该模型采用GPT风格因果Transformer架构，将全身控制重构为连续序列预测问题。实验数据表明，训练数据从200万帧扩展到20亿帧时，模型成功率从83.26%提升至92.58%，零样本跟踪误差持续下降，首次验证机器人运动控制的Scaling Law效应。AstraBrain-WBC 0.5支持毫秒级全身数十自由度协同控制，实现高动态平衡与扰动抵抗。

AI模型 AstraBrain-WBC 0.5 银河通用人形机器人运动控制 Scaling Law

推荐理由：银河通用首发人形机器人小脑大模型，2万小时数据训练，成功率随数据量暴涨，跟GPT一样有规模定律，值得技术控关注。

原文

14:54

Epoch AI@EpochAIResearch

Claude Fable 5 在 Epoch Capabilities Index (ECI) 上取得 161 分的新高，比 GPT-5.5 Pro 高出 1 分。这是 Anthropic 一年多来首次在 ECI 上领先。该指数衡量模型综合能力，Claude Fable 5 的表现重新夺回了榜首位置。

AI模型 Claude Fable 5 GPT-5.5 Pro Anthropic 基准成绩

推荐理由：Claude Fable 5 在 ECI 上拿 161 分，超 GPT-5.5 Pro 一分，Anthropic 终于又领先了。

原文

14:42

Simon Willison@simonw

精选

Jeremy Howard 称 GLM 5.2 是开放权重模型中的奇迹，性能至少与 Opus 4.8 和 GPT 5.5 持平。它速度快、成本低、输出简洁，且擅长长上下文处理。该模型由 Zai_org 发布，目前尚未在 Groq 或 Cerebras 等超快推理提供商上运行，但社区期待其部署。

AI模型 GLM-5.2 Zai_org 开放权重推理模型

推荐理由：GLM 5.2 开放权重、性能比肩闭源顶尖模型，还便宜又快，写代码或处理长文档会很顺手。

原文

14:36

小互@imxiaohu

豆包实时语音模型3.0 API 正式上线，支持全双工模式，可同时听和说并随时插话。采用端到端语音进语音出，无需转录，响应更快更自然。模型能精准遵循指令，例如在多人聊天中设定规则后静待话题出现再参与。支持自定义工具调用，可在实时对话中完成预定日历、发邮件、总结文档等任务，向语音 Agent 迈进。

AI模型豆包实时语音模型3.0 全双工语音Agent 工具调用

推荐理由：豆包出了3.0语音模型，能同时听说、随时插话，还能在对话里调工具办事情，比传统语音助手强一大截。

原文

14:30

14:30Latent Space (swyx)（博客/媒体）

GLM-5.2在主观体验测试中表现优异，得到社区好评。Z.ai 预测开源项目 Open Fable 将于12月推出。这标志着开源模型在性能上逐步接近前沿水平。

AI模型 GLM-5.2 Z.ai Open Fable 开源模型

推荐理由：GLM-5.2这次主观评价不错，开源模型终于开始追上GPT了。Z.ai预测年底会有新开源项目，值得关注。

原文

13:36

量子位@衡宇

73°

北京通用人工智能研究院发布全球首个人形机器人通用小脑，基于2万小时人类动作数据训练。该模型在未经微调的情况下，能零样本泛化到多种新任务和场景。相比传统方法，它减少了90%的调试时间，使机器人动作更自然。

AI模型通用小脑人形机器人零样本泛化动作数据

推荐理由：北通院搞了个通用小脑，用两万小时人类动作数据训练，机器人不用重新学就能干新活，比传统方法省时省力。

原文

12:51

Cohere@cohere

精选

Cohere宣布其首个开源智能体编码模型的4-bit量化版本已可用。该量化版模型体积显著缩小，可在Mac上本地运行。用户可通过链接获取模型权重。此次发布使得开发者能够更便捷地在个人设备上运行智能体编码模型。

AI模型 Cohere 4-bit量化智能体编码模型开源模型

推荐理由：Cohere把自己最新的编程智能体模型压缩到4-bit，Mac上就能跑，本地开发效率直接拉满！

原文

12:42

Fireworks AI@FireworksAI_HQ

Jeremy Howard在X平台上称赞Zai_org的GLM 5.2模型，称其至少与Opus 4.8和GPT 5.5一样优秀。他指出该模型速度极快、成本低廉且回答不冗长，在处理长上下文时表现非常出色。Howard表示从未见过如此优秀的开源权重模型。

AI模型 GLM 5.2 Zai_org Opus 4.8 GPT 5.5 开源模型

推荐理由：想试试媲美顶级闭源模型的开源模型吗？GLM 5.2又快又便宜，长上下文超强，看看Jeremy Howard怎么夸的。

原文

11:47

arXiv cs.LG@Wenhao Chi, Arkaprava Sinha, Dominick Reilly, Hieu Le, Srijan Das

UNIEGO提出分层多教师蒸馏框架，使用9个教师（覆盖自我/他人视角、RGB/深度/骨架模态和4个基础模型）来训练统一编码器。为解决异构教师的不兼容架构和特征几何冲突，框架引入代理模型将不同教师知识翻译到同质化的自我中心空间。第二阶段选择性代理蒸馏（SPD）为每个样本自适应选择正确且自信的代理子集，抑制错误信号。UNIEGO在三个自我中心视频基准（动作识别、视频检索、动作分割）上达到最先进性能。

AI模型 UNIEGO 自我中心视频知识蒸馏表示学习多模态

推荐理由：想用多视角多模态数据训练视频理解模型？UNIEGO用代理模型搞定异构教师蒸馏，在三个任务上刷新了纪录。

原文

11:31

arXiv cs.AI@Maria Ivanova, Pavel Zadorozhny, Rodion Levichev, Ivan Petrov, Adamenko Pavel, Ivan Lopatin, Alexey Kutalev, Dmitrii Babaev

LiveCodeBench (LCB) 是广泛采用的代码生成基准，但仅限Python。新基准Multi-LCB将LCB任务转化为12种编程语言，包括Python、C++、Java等，保持原始污染控制和评估协议。研究者在Multi-LCB上评估了24个LLM，发现模型存在Python过拟合、语言特定污染和跨语言性能差异。Multi-LCB为多语言代码评估提供了严格的新基准，直接暴露了当前LLM在Python之外的短板。

AI模型 Multi-LCB LiveCodeBench 代码生成多语言基准测试

推荐理由：想测AI写代码的真本事？别只看Python了。Multi-LCB覆盖12种语言，一测就知道模型是不是只会Python，结果可能让你意外。

原文

11:15

arXiv cs.AI@Jinghong Lan, Wei Cheng, Yunuo Chen, Ziqi Ye, Peng Xing, Yixiao Fang, Rui Wang, Yufeng Yang, Xuanyang Zhang, Xianfang Zeng, Difan Zou, Gang Yu, Chi Zhang

FreeStyle提出一种基于社区LoRA挖掘的可扩展双参考生成框架，利用社区LoRA作为风格和内容的组合锚点，构建大规模三元组数据（风格参考和内容参考）。采用两阶段课程，包括注意力级富集约束抑制风格参考泄漏，以及频率感知RoPE调制解决位置对应泄漏。引入新基准，包含风格不变内容对齐分数（CAS）和基于VLM的拒绝分数。实验表明，FreeStyle在风格对齐、内容保持和泄漏抑制之间取得强平衡。

AI模型 FreeStyle LoRA 双参考生成图像生成风格迁移

推荐理由：想同时控制图片风格和内容？FreeStyle用社区LoRA搞定双参考生成，还自带防泄漏机制，比以往方法更稳。

原文

10:59

arXiv cs.LG@Zongmin Yu, Liu Yang

ASYS（Agentic Symbolic Search）是一个结合进化搜索与梯度优化的智能体框架，用于自动发现偏微分方程的符号表示。在Allen-Cahn 2D问题中，它生成了几何界面公式；在Keller-Segel趋化模型中，它找到了九参数收缩律。该框架不依赖手工推导、网格数值解或神经网络逼近，在五个案例中均产出了可解释的数学结构。ASYS实现了符号回归之外的归纳偏差注入，为理解PDE解提供了新范式。

AI模型 ASYS PDE 符号回归进化搜索智能体

推荐理由：ASYS让AI自动去发现偏微分方程的数学结构，比如给Allen-Cahn和Keller-Segel找到了以前没人写出来的公式。搞数学或数值计算的可以看看。

原文

10:22

arXiv cs.AI@Zepeng Li, Jie Ren, Zhanyong Tang, Jie Zheng, Zheng Wang

AutoPass 是一个多智能体框架，利用编译器和运行时证据引导 LLM 生成编译器优化决策。它在 LLVM 编译器上实现，在 x86-64 和 ARM64 系统上测试，分别比 LLVM -O3 实现了 1.043x 和 1.117x 的几何平均加速。AutoPass 无需离线训练或微调，可直接应用于新基准和平台。

AI模型 AutoPass LLVM 编译器性能调优智能体

推荐理由：AutoPass 把 LLM 变成编译器调优助手，不用训练就能在 x86 和 ARM 上跑出比 -O3 还快的速度，实测有 4-11% 的加速。

原文

10:16

arXiv cs.AI@Yuhan Liu, Pei Fu, Hang Li, Yukun Qi, Chao Jiang, Jingwen Fu, Zhen Liu, Bin Qin, Zhenbo Luo, Jian Luan, Jingmin Xin

ELVA提出一种基于规则强化学习（RLVR）的框架，解决对比学习在多模态检索中的“粒度盲视”问题——模型忽略查询中的粒度信息。该方法不依赖奖励模型，通过规则奖励联合优化负样本排序并扩大正负样本相似度差距。为精准评估，作者引入新基准MRBench，专用于多粒度查询场景。ELVA在标准检索基准上达到最先进结果，并在MRBench上实现13.1%的提升。

AI模型 ELVA 多模态检索强化学习 MRBench 细粒度

推荐理由：这篇论文提出了ELVA，用强化学习思路改多模态检索，解决了对比学习忽略粒度的问题，还在新基准MRBench上提了13.1%，值得做检索方向的人看看。

原文

09:55

arXiv cs.LG@Tristan Tomilin, Mourad Boustani, Mickey Beurskens, Thiago D. Simão

CRAX基于MuJoCo XLA（MJX）物理引擎，利用JAX的向量化操作和硬件加速，在安全强化学习基准测试中实现约100倍于CPU版本的速度提升。该基准包含六套环境和三类智能体任务，每类任务设三个难度级别。研究者在六个主流安全RL方法上的评估表明，没有一种方法在所有任务中占优，揭示了性能与安全之间的权衡。实验还发现，跨难度级别的课程学习与安全迁移在困难设置下比直接训练效果更好。

AI模型 CRAX MuJoCo JAX 安全RL 基准测试

推荐理由：想快速测试安全RL算法？CRAX用JAX把基准跑快100倍，还自带六个环境和三级难度，帮你一眼看出哪个方法在安全与性能上最均衡。

原文

09:48

arXiv cs.LG@Xiang Rao, Yuxuan Shen

精选

研究者提出QCPIKAN，这是首个量子-经典物理信息Kolmogorov-Arnold网络，采用Chebyshev多项式KAN层和参数化量子电路。理论证明该设计能使高频误差以指数率收敛，并有效抑制数值色散。在三种典型渗流场景（单相流、组分输送、两相流）中验证。相比现有量子-经典物理信息神经网络，QCPIKAN在全局预测精度、局部误差控制、动态演化跟踪和位移前沿定位上表现更优。

AI模型 QCPIKAN KAN 量子经典混合物理驱动网络 PDE求解

推荐理由：这篇论文发布了QCPIKAN，首个混合量子经典PDE求解器，用Chebyshev KAN层加速收敛，渗流模拟精度远超市面同类。

原文

09:38

arXiv: DeepSeek@Minsu Kim, Se-Young Yun

研究者提出利用Lean证明助手作为符号过程预言机，在训练中提供细粒度的策略级验证反馈，弥补了传统RLVR仅依赖二元验证信号的不足。通过将证明尝试解析为策略序列，Lean能标记局部正确步骤及最早失败步骤，从而产生基于类型论的密集可验证信用信号。在STP-Lean和DeepSeek-Prover-V1.5上的实验表明，策略级监督在多数设置下优于仅结果监督的基线，在MiniF2F和ProofNet基准上取得提升。该工作展示了符号证明助手不仅可在评估时用作验证器，还能在训练中充当过程级奖励预言机。

AI模型 Lean 定理证明强化学习形式验证推理模型

推荐理由：这篇论文用Lean在定理证明训练中引入细粒度过程奖励，比只判对错的强化学习效果好，在MiniF2F和ProofNet上都有提升。

原文

09:25

Clement Delangue@ClementDelangue

AA-Briefcase基准测试评估模型在长期知识工作项目中的表现，任务成本差异达800倍。Claude Fable 5以1587 Elo领先，但平均任务成本31美元；Claude Opus 4.8得分1356，成本10.40美元。DeepSeek V4 Flash仅需约0.04美元，性价比最高。GLM-5.2得分1266，成本2.40美元，得分仅低Claude Opus 4.8不到90 Elo，成本不到其25%。

AI模型 Claude Fable 5 DeepSeek V4 Flash GLM-5.2 AA-Briefcase 推理模型

推荐理由：新基准AA-Briefcase测长期项目，Claude Fable 5最强但贵，DeepSeek V4 Flash极便宜，GLM-5.2性价比超赞。

原文

07:10

OpenAI@OpenAI

OpenAI在真实对话中训练模型，通过强化学习强化诚实、谦逊、开放纠正、公平和关怀人类福祉等特质。该训练覆盖健康、科学、教育等12个领域，旨在提升模型的对齐与安全性。方法基于RLHF改进，专注对话场景中的具体行为。

AI模型 OpenAI 强化学习 AI安全对齐模型训练

推荐理由：OpenAI训练模型时不止看能力，还用强化学习专门教它诚实、谦逊、愿意接受批评，覆盖12个领域，对AI安全性很有意义。

原文

07:06

Greg Brockman@gdb

OpenAI o1推理模型公布后，其他实验室研究者认为这是战略失误，应保密以拉开差距。Noam Brown引用研究表示，公开o1有助于推动医学推理领域的进展。这验证了OpenAI开放模型的正确性，加速了推理范式的应用。

AI模型 OpenAI o1 推理模型医学公开研究

推荐理由：Noam Brown聊了OpenAI开放o1背后的争论，告诉你为什么公开反而能让医学推理进步更快。

原文

06:39

OpenAI@OpenAI

精选

OpenAI发布测试结果，评估模型对齐在压力下的表现。在对抗性提示下，模型更难被引导至有害行为，同时依然能响应有益指令。初步证据表明，模型对有害微调也表现出更强的抵抗力。这项测试关注模型的安全鲁棒性，未提及具体模型版本或基准分数。

AI模型 OpenAI 对齐对抗性提示有害微调鲁棒性

推荐理由：OpenAI发现他们的模型在对抗压力下挺得住，不容易被带坏，安全对齐效果不错。

原文

06:38

Greg Brockman@gdb

精选72°

OpenAI 与波士顿儿童医院及哈佛大学合作，在 NEJM AI 发表研究。研究使用 o3 Deep Research 模型重新分析 376 个先前未解决的罕见儿科病例。模型帮助临床医生找到了 18 个新诊断。其中包括 Kyra 的病例，她从 9 岁起持续肌肉无力，在 28 岁生日前夕被确诊为罕见的肌原纤维肌病。

AI模型 OpenAI o3 Deep Research 罕见病推理模型医疗AI

推荐理由：OpenAI 的 o3 Deep Research 模型帮医生翻出了 376 个陈年疑难病例，找出了 18 种之前漏诊的病。有个女孩从 9 岁查到 28 岁，终于有了答案。这 AI 真的能救命。

原文

06:37

OpenAI@OpenAI

OpenAI 发布声明称，这是朝向更鲁棒有益和对齐模型的早期步骤。他们正在训练模型将有益特质带入新情境，使AI在能力增强的同时变得更可靠、透明和有用。该工作属于对齐研究的一部分，尚未披露具体模型或基准测试结果。

AI模型 OpenAI AI安全对齐

推荐理由：OpenAI 开始教模型把好习惯带到新场景，让AI更靠谱。这个对齐实验挺关键，关注未来进展。

原文

05:07

GitHub@github

精选

MicrosoftAI 的 MAI-Code-1-Flash 模型现已扩展至 GitHub Copilot CLI 和 GitHub Copilot 应用。该模型专为 Copilot 设计调优，在其尺寸下提供最佳质量。早期测试中，它超越其他小模型。

AI模型 MAI-Code-1-Flash Microsoft GitHub Copilot 编程助手

推荐理由：微软把专为 Copilot 调的小模型放到命令行了，代码质量比别的小模型好，试试吧。

原文

04:25

Clement Delangue@ClementDelangue

精选

AI模型 Poolside Laguna M.1 Hugging Face 开源模型长上下文

推荐理由：Poolside 把最强的 Laguna M.1 模型完全开放了，256K 上下文，Apache 2.0 许可，直接去 Hugging Face 下载权重用。

原文

04:02

lmarena.ai@lmarena_ai

82°

Agent Arena推出了因果追踪方法论，通过分析人类与AI代理协作的追踪数据来量化协作的真实价值，并能观测到广泛的模型行为。基于该方法的新排行榜显示，GLM-5.2 (Max)进入前十，成为最强开源模型，确认成功率比基线高+9.4%，表扬-抱怨比高+14.9%。Claude Fable 5在几乎所有指标上曾排名第一，但因美国政府指令暂停访问。排行榜基于数百万个真实世界长期代理任务，使用因果追踪评估模型相对于平均模型的表现。

AI模型 Agent Arena GLM-5.2 Claude Fable 5 Anthropic 智能体

推荐理由：想看看人机协作到底有没有用？Agent Arena拿数据说话，GLM-5.2开源最强，Claude Fable 5刚登顶就被叫停，这瓜值得吃。

原文