全部 AI 动态 · AI 热点

6月19日

02:17

@koltregaskes@koltregaskes

79°

据消息，OpenAI GPT-5.6和GPT-5.6 Pro预计下周四（next Thursday）正式登陆。部分用户可能已在ChatGPT网页端体验GPT-5.6 Pro模型。同时，Anthropic的Claude Fable 5也可能在未来几天内回归。

推荐理由：GPT-5.6和Pro版下周就来，Claude Fable 5也快回来了，想尝鲜的可以留意。

原文

01:54

LMSYS Org (SGLang)@lmsysorg

poolside发布的Laguna M.1是一个225B参数的MoE模型，专为智能体编码和长期任务设计。该模型采用70层结构：3个密集SwiGLU层加67个稀疏MoE层，共有256个专家，top-k=16且使用无辅助损失负载均衡。它在所有层使用全局注意力：64个Q头、8个KV头，以及softplus输出门控。Laguna M.1支持原生交错推理：在工具调用之间进行思考，并可每个请求切换。在SWE-bench Verified、SWE-bench Multilingual、SWE-Bench Pro和Terminal-Bench 2.0上表现强劲。现在可通过SGLang运行。

AI模型 Laguna M.1 poolside SGLang 智能体编程助手

推荐理由：poolside刚发的225B MoE模型Laguna M.1，专为智能体编码设计，SGLang直接跑起来了，在SWE-bench上很强。

原文

01:44

Anthropic@AnthropicAI

Anthropic发布Project Fetch实验，让两个零机器人经验的团队编程机器狗。其中一个团队使用Claude辅助，另一个团队仅靠传统方法。实验对比了两组的表现，展示了Claude在机器人编程中的实际效果。结果视频已在Anthropic官方推文中公开。

AI模型 Anthropic Claude Project Fetch 机器人编程编程助手

推荐理由：Anthropic让没碰过机器人的团队用Claude写机器狗代码，看看AI到底能帮多少忙，结果挺有意思。

原文

01:43

Anthropic@AnthropicAI

精选

Anthropic 发布 Frontier Red Team 博客，介绍 Project Fetch 第二阶段：测试 Claude 编程机器人狗的能力。Opus 4.7 自主完成编程任务，速度比去年最佳人类团队（使用 Opus 4.1）快约 20 倍。尽管速度提升显著，机器人狗仍未成功取回沙滩球。该研究旨在评估前沿模型在物理世界中的自主能力与安全风险。

AI模型 Claude Opus 4.7 Anthropic 机器人编程安全测试

推荐理由：Anthropic 让 Claude 自己写代码控制机器狗，速度比人快20倍，虽然最后没抓到球，但过程特别有意思

原文

01:33

SiliconFlowAI@siliconflowai

精选

Z.ai 的 GLM 5.2 在编码基准 CodeArena 上排名第一。每百万 token 输入缓存/输入/输出价格为 0.26/1.40/4.40 美元，支持 1M 上下文长度。其编码性能与 Opus 4.8 相当，并提供 max 和 high 两种推理模式。该模型已完全开源，可通过 SiliconFlow 的 T+0 合作获取。

AI模型 GLM 5.2 Z.ai CodeArena SiliconFlow 开源模型

推荐理由：Z.ai 的 GLM 5.2 在编码竞技场拿了第一，价格比 Opus 便宜，还有 1M 上下文，编程党可以白嫖开源版。

原文

01:32

SiliconFlowAI@siliconflowai

精选

MoonshotAI 基于 K2.6 推出了 Kimi K2.7 Code，参数量为 32B 激活/1T 总参数，支持交错思考与多步工具调用。相比 K2.6，推理 token 使用量降低 30%，在编码与指令遵循上表现提升，接近 GPT-5.5 和 Opus 4.8。定价为缓存输入/输入/输出每百万 token 0.19/0.94/4.00 美元。该模型可在 SiliconFlow 上使用。

AI模型 Kimi K2.7 Code MoonshotAI 编码模型推理效率 VLM

推荐理由：想少想多做？K2.7 Code 编码专用，推理开销比 K2.6 低三成，还能对标 GPT-5.5，适合写代码时不用纠结。

原文

01:31

歸藏(guizang.ai)@op7418

81°

OpenAI 正在准备 GPT-5.6 模型家族的发布，GPT-5.6-Pro 版本已在测试中被发现。该消息来自 TestingCatalog 的监测数据，暗示发布可能临近。目前尚未公布具体参数、性能基准或发布日期。

AI模型 GPT-5.6 GPT-5.6-Pro OpenAI 模型发布

推荐理由：OpenAI 的 GPT-5.6 快来了，Pro 版本已经在测试，想尝鲜新模型的朋友可以关注起来。

原文

01:29

xAI@xai

精选

Vapi 的 Humanness Index 盲测显示，xAI 的 Grok TTS 模型以 96 分（满分 100）位居榜首，仅比人类真实语音低 4 分。该测试将同一段语音用不同模型克隆后，让听众盲评打分。Grok TTS 在多家主要语音模型中表现最接近真人。

AI模型 Grok TTS xAI 语音合成 Humanness Index 文本转语音

推荐理由：xAI 的 Grok TTS 在语音盲测中拿了 96 分，离真人只差 4 分，想听最像人说话的 AI 可以试试。

原文

01:28

xAI@xai

精选

xAI 宣布 Grok 模型集成到 Databricks Agent Bricks 平台。企业用户可在 Databricks 环境中直接使用 Grok 模型处理数据，构建 AI 智能体。该集成支持企业将自有数据与 Grok 模型结合，提升智能体能力。

AI模型 Grok Databricks xAI 智能体企业应用

推荐理由：xAI 把 Grok 搬上 Databricks，企业可以直接在自己的数据上跑 Grok 做智能体，不用再折腾部署了。

原文

00:32

Replicate@replicate

P-Image-Try-On 是 PrunaAI 发布的虚拟试穿模型，现已上线 Replicate 平台。每次试穿第一件衣服仅 $0.015，每增加一件 $0.008，最多可同时试穿 11 件衣物。支持质量模式（每件 <2 秒）和 Turbo 模式（总计 <4 秒）。提供提示引导和姿态引导实现精确控制。适合电商和时装团队无需重拍即可生成试穿效果。

AI模型 P-Image-Try-On PrunaAI Replicate 虚拟试穿图像生成

推荐理由：PrunaAI 出了个超便宜的虚拟试穿模型，第一件才一分五，快至2秒一件，还能一次穿11件，电商团队看过来。

原文

00:22

AK@_akhaliq

GLM-5.2 模型在 Hugging Face 的推理提供商上提供免费使用，限时6小时。支持的提供商包括 Zai、Together AI、Novita、Fireworks 和 DeepInfra。用户可通过 Pi、opencode、Codex 或 Claude Code 等编码代理进行配置。该免费服务由 xgo.ing 支持。

AI模型 GLM-5.2 Hugging Face 免费模型推理提供商编码代理

推荐理由：GLM-5.2 现在能免费调用了，6小时内搭配 Pi、Codex 等编码工具就能用，赶紧去试试。

原文

00:10

elvis@omarsar0

精选

OpenAI 推出 LifeSciBench，一个针对生命科学研究的基准测试，包含 750 个专家编写的任务，覆盖 7 个生物学研究工作流。该基准由 173 位来自生物技术和制药领域的科学家共同开发，旨在衡量 AI 在真实世界科研场景中的表现。结果显示通用模型在复杂结构处理上仍有不足，而专用模型在科学研究中优势明显。

AI模型 OpenAI LifeSciBench 基准生命科学科学智能

推荐理由：OpenAI 联合 173 位科学家搞了个新基准 LifeSciBench，750 个专家任务专测 AI 搞科研的能力，比通用模型靠谱多了。

原文

00:02

Geek@geekbb

精选

Unsloth AI 将最强开源模型 GLM-5.2 从 1.51TB 压缩至 238GB（缩小 84%），2-bit 量化版本保留约 82% 准确率。该模型可在 256GB Mac 或同等 RAM/VRAM 配置上本地运行。官方指南和 GGUF 文件已在 Hugging Face 发布。

AI模型 GLM-5.2 Unsloth 本地运行模型压缩开源模型

推荐理由：Unsloth 把 1.5TB 的 GLM-5.2 压到 238GB，本地就能跑，准确率还能保住 82%。有 256GB 内存的 Mac 就能玩，开源模型天花板。

原文

00:02

Gary Marcus@GaryMarcus

精选

Gary Marcus引用Matei Zaharia的研究，神经符号系统在机器人领域击败当前最优方法。该方法采用AI驱动的搜索（类似GEPA的方法），让AI生成AI与代码的混合体。Zaharia认为这类系统效率很高，并在其他应用中也观察到类似效果。该成果展示了神经符号系统在控制与规划方面的优势。

AI模型 Neurosymbolic Systems GEPA Robotics AI Search 机器人

推荐理由：Gary Marcus分享了Matei Zaharia的神经符号系统研究，用AI搜索在机器人上打败了现有最优方案，值得搞机器人或符号推理的人关注。

原文

6月18日

23:34

OpenAI@OpenAI

精选

OpenAI 的 o3 Deep Research 模型在罕见病诊断中发挥辅助作用，它能够处理测序产生的数百万变异。该模型连接临床特征、遗传模式、变异证据和科学文献，生成假设供专家审核。所有结果都经过人工裁决和临床确认，AI的作用是帮助专家更快、更全面地推理复杂、碎片化的证据。

AI模型 o3 Deep Research OpenAI 推理模型医疗AI 智能体

推荐理由：OpenAI 的 o3 Deep Research 能帮医生快速分析海量变异数据，连接文献和临床特征，生成诊断假设。

原文

20:01

Patrick Loeber@patloeber

在heyAI第二年活动中，Google DeepMind的Pat Loeber展示了AI智能体的现场演示，演示了AI代理可以完成的多种任务。现场演示成功运行。

AI模型 Google DeepMind AI智能体 heyAI Pat Loeber

推荐理由：Google DeepMind演示了AI智能体，可以实际运行任务，看他们怎么用现场演示展示能力

原文

15:10

LMSYS Org (SGLang)@lmsysorg

精选71°

SGLang-Omni 现已支持 MOSS-TTS-Local Transformer v1.5 模型。该模型基于 Qwen3-4B 骨干，可生成 48kHz 立体声语音。支持零样本语音克隆和原生流式，覆盖 31 种语言，训练数据约 400 万小时。非流式场景下达到 5.976 req/s，RTF 0.644，WER 1.75%（SeedTTS English，2×GPU）。采用三阶段管线：参考编码、AR 引擎、流式声码器。

AI模型 MOSS-TTS SGLang-Omni Qwen3-4B 语音克隆开源模型

推荐理由：SGLang-Omni 刚上线 MOSS-TTS v1.5，开源、零样本克隆声音，支持31种语言，速度也不错，玩玩看。

原文

15:03

小互@imxiaohu

Apodex 1.0 模型已正式发布，官方介绍页面提供了技术细节。在线体验平台 apodex.ai 可供用户直接试用。模型权重已在 Hugging Face 上开源下载。

AI模型 Apodex 开源模型 Hugging Face

推荐理由：Apodex 发布了 1.0 版本，有在线体验和开源下载，感兴趣可以试试。

原文

14:43

小互@imxiaohu

6月，Apodex 向 FutureX 提交了四个基于 Apodex-1.0-mini 35B 的实验预测框架。该模型在6月第一周排名包揽第1至第4名，并在第二周持续霸榜第1名。这一成绩展示了 Apodex-1.0-mini 35B 在预测任务上的竞争力。

AI模型 Apodex Apodex-1.0-mini FutureX 推理模型基准

推荐理由：Apodex 用 35B 参数模型做的预测框架，在 FutureX 排行榜上直接包揽前四名，太猛了。

原文

13:07

@atomic_chat_hq@atomic_chat_hq

精选

智谱GLM-5.2与月之暗面Kimi K2.7 Code在三个物理模拟HTML5编程任务中对比。GLM-5.2使用12,640 tokens完成全部任务，包括台球碰撞、弹簧上方方块弹跳和高尔顿板，粒子和动量表现正确。Kimi K2.7 Code仅用7,420 tokens，但三个场景均出现严重错误：方块穿透弹簧、台球碰撞不真实、高尔顿板珠子重叠。评测显示GLM-5.2在物理模拟细节和精度上显著优于Kimi K2.7 Code。

AI模型 GLM-5.2 Kimi K2.7 智谱代码生成物理模拟

推荐理由：智谱的GLM-5.2写物理模拟代码完胜Kimi K2.7，三个场景全部精准，Kimi翻车在弹簧穿透和球乱撞上。

原文

13:05

@atomic_chat_hq@atomic_chat_hq

精选

Kimi K2.7 Code在三个物理模拟任务上与GPT-5.5进行对比，使用相同的提示词。弹簧摆和1kg块碰撞100000kg块的任务两者表现持平。但在22球自旋六边形任务中，Kimi生成的球随滚筒旋转，而GPT-5.5的球呈现混沌运动，Kimi表现更优。Kimi推理成本为0.28美元（52.4k tokens），GPT-5.5为0.93美元（23.4k tokens），成本降低约70%。

AI模型 Kimi K2.7 Code GPT-5.5 推理模型编程助手

推荐理由：Kimi新出的K2.7 Code模型，花不到三毛钱就能和GPT-5.5打平手，物理模拟甚至更聪明，性价比直接秒杀。

原文

13:03

@atomic_chat_hq@atomic_chat_hq

精选

Diffusion Gemma 在单个H100（FP8）上速度达763 tok/s，比Gemma 4的218 tok/s快约4倍。但事实准确性测试中，Diffusion Gemma 33个事实正确、28个错误，而Gemma 4为45正确、5错误。话题越冷门错误越多：乔布斯传4错、俄罗斯方块12错、BeOS故事12错。Diffusion Gemma胡编了乔布斯的母亲名字和游戏同事名称，并将BeBox价格虚构为$9,999（实际$1,600）。

AI模型 Diffusion Gemma Gemma 4 Google 推理模型事实准确性

推荐理由：想用更快的推理速度就得接受更多幻觉，Google官方也为此打预防针了。

原文

13:02

@atomic_chat_hq@atomic_chat_hq

精选

Fable 5 模型在三个真实物理模拟任务（混沌双摆、高尔顿板、WCSPH 旋转桶中水）中生成的 HTML5 仿真效果优于 Opus 4.8。水模拟中，Fable 5 生成的水体更连续稳定，而 Opus 4.8 在器壁附近出现较大空隙、粒子散落且流体不稳定。Fable 5 的生成成本为 3.35 美元（68.7k tokens，耗时 14 分 47 秒），Opus 4.8 为 0.93 美元（38.9k tokens，耗时 8 分 10 秒）。

AI模型 Fable 5 Opus 4.8 物理模拟代码生成 HTML5

推荐理由：Fable 5 写物理仿真比 Opus 4.8 更扎实，尤其水粒子效果更真实，虽然贵了点但值得一试。

原文

13:01

@atomic_chat_hq@atomic_chat_hq

Nemotron 3 Ultra 在三个物理模拟任务中与 GPT 5.5 表现相当，但成本仅为后者的十分之一。测试用例包括旋转桶中水体、高尔顿板钉球和极端质量碰撞。Nemotron 3 Ultra 输出 11.3k tokens 花费 $0.051，而 GPT 5.5 输出 11.0k tokens 花费 $0.57。质量差距远小于价格差距。

AI模型 Nemotron 3 Ultra GPT 5.5 推理模型成本对比

推荐理由：想用 GPT-5.5 级别能力但嫌贵？Nemotron 3 Ultra 几乎一样好，价格只有十分之一，值得试试。

原文

13:00

@atomic_chat_hq@atomic_chat_hq

精选

Google Gemma 4 12B模型在RTX 4090上实测仅需9GB VRAM，生成8.9k tokens，速度80 tok/s，性能接近26B版本。其对比的Gemma 4 26B-A4B使用15GB VRAM，生成6.9k tokens，速度138 tok/s，所有场景胜出。但12B在近半VRAM下表现十分接近，成为16GB笔记本的理想选择。

AI模型 Gemma 4 12B 26B-A4B Google 推理模型

推荐理由：新Gemma 4 12B别看参数小，实测代码能力接近26B版，而且只需要9GB显存，16GB笔记本就能跑。

原文

13:00

@atomic_chat_hq@atomic_chat_hq

StepFun 的 Step 3.7 Flash 模型与 DeepSeek V4-Flash 在物理动画生成任务中直接对比。任务要求编写自包含 HTML5 Canvas 动画，包含高尔顿板、旋转六边形中弹跳的球、五个同步节拍器三个场景。Step 3.7 Flash 输出 59.6k tokens (9分57秒)，DeepSeek V4-Flash 输出 52.5k tokens (6分21秒)。虽然 DeepSeek 更快，但 StepFun 在物理模拟、视觉效果和逻辑渲染三个维度全面获胜。

AI模型 Step 3.7 Flash DeepSeek V4-Flash StepFun 代码生成基准测试

推荐理由：StepFun 的 Step 3.7 Flash 在生成物理动画上把 DeepSeek V4-Flash 比下去了，慢点但模拟和画面都好很多。

原文

12:59

@atomic_chat_hq@atomic_chat_hq

精选

Liquid 的 LFM2.5-8B-A1B（8B总参、1B激活）在 MacBook Pro M5 Max 上本地运行，与 OpenAI 的 gpt-oss-20b 对比工具调用能力。面对需执行7个工具调用的旅行规划任务，LFM2.5-8B-A1B 全部成功，而 gpt-oss-20b 仅完成 3 个。内存方面，LFM2.5-8B-A1B 仅用 4.8 GB，远低于对手的 11 GB。速度上，LFM2.5-8B-A1B 达到 266 tok/s，总耗时 6.9 s，而 gpt-oss-20b 为 146 tok/s 和 15.0 s。该模型利用 38T 训练 token 的 MoE 架构，实现了小参数下的高效工具调用。

AI模型 Liquid LFM2.5-8B-A1B gpt-oss-20b 工具调用 MoE

推荐理由：Liquid 这个 8B MoE 模型只用 4.8GB 内存就比 OpenAI 20B 模型多调用了一倍工具，速度还快两倍，本地跑 agent 任务很实用。

原文

12:50

AI Will@FinanceYF5

Min Choi发布了一段对比视频，展示3年前Modelscope与现在Grok Imagine 1.5的图像生成结果。Grok Imagine 1.5生成的图像在细节和真实感上明显优于Modelscope。视频直观呈现了AI图像模型在三年间的视觉进步。

AI模型 Grok Grok Imagine 1.5 Modelscope 图像生成模型对比

推荐理由：看看Grok Imagine 1.5比三年前的Modelscope强多少，一段视频就能看清差距。

原文

12:41

AI Will@FinanceYF5

ModelScope和Grok Imagine 1.5分别左右展示AI图像生成模型3年间的进步。左图来自ModelScope，右图来自Grok Imagine 1.5，生成质量有明显差异。Grok Imagine 1.5在细节、真实感和多样性上表现更优。这种对比直观反映了模型迭代的效果。

AI模型 ModelScope Grok Imagine 1.5 图像生成 AI进步

推荐理由：看看ModelScope和Grok Imagine 1.5的生成效果左右对比，感受AI图像模型3年间的进化。

原文

11:41

berryxia@berryxia

AI模型 GPT-5.6 Codex 5.6 OpenAI 模型发布

推荐理由：GPT-5.6 跳票了，但 OpenAI 用 Codex 5.6 免费额度留人，比 Claude 大方多了。

原文

11:23

Justine Moore@venturetwins

73°

xAI推出Grok Imagine Video 1.5，这是其图像转视频模型的新版本。该模型在物理模拟、画面真实感和生成速度上均有改进，支持单次生成高质量视频。用户测试中，先用Grok生成图像，再通过该模型一次性转换为视频。xAI称其具备“更清晰的真实感、更好的物理和更快的生成速度”。

AI模型 Grok Imagine Video 1.5 xAI 视频生成图像转视频

推荐理由：xAI出了新视频模型，图像转视频一次搞定，物理和真实感都更好，速度还快，值得试试。

原文

10:58

shao__meng@shao__meng

精选

实验让Kimi K2.7 Code和Claude Fable 5分别生成12个落地页进行并排对比，覆盖B2B SaaS、酒吧、开发者工具等类别。Kimi单页成本仅4美分，Claude Fable为1.09美元，差距约27倍，整体Kimi总成本降低94%。使用GPT-5.5按标准化评分表打分，Claude Fable部分案例略高但差距不大。Kimi通过MCP Server提供高质量视觉参考后，页面质量显著提升，成本效率优势突出。

AI模型 Kimi K2.7 Code Claude Fable 5 落地页生成 MCP/工具对比评测

推荐理由：想知道怎么用Kimi K2.7 Code花不到5分钱做出媲美Claude Fable 5的落地页？实验数据全给你算清楚了，迭代省大钱。

原文

10:57

Viking@vikingmute

GLM5.2在Artificial Analysis开源模型排名中登顶，多项benchmark评分领先。有用户反馈其实际体验接近Opus 4.6，作者考虑将Deepseek V4 Pro替换为GLM5.2。该帖子获得2条回复、505次浏览。

AI模型 GLM5.2 Artificial Analysis Opus 4.6 Deepseek V4 Pro 开源模型

推荐理由：GLM5.2在开源模型排名拿了第一，而且有人说用起来感觉像Opus 4.6，你要是想换掉Deepseek V4 Pro可以试试。

原文

09:51

berryxia@berryxia

精选

当前Physical AI的VLA模型仅在统计相关性上学习，桌子高2cm即失败。UCSD黄碧薇教授在CVPR 2026发布Causal World Models框架，让AI从模仿动作进化到理解因果。她创立的Aether AI获得2000万美元融资，成为全球首个因果世界模型公司。与杨立昆AMI（融10亿美元）和李飞飞World Labs（10亿美元）等不同，Aether AI不卷规模而卷因果结构。

AI模型 Causal World Models Aether AI VLA 因果模型具身智能

推荐理由：黄碧薇教授不堆数据，教AI理解物理因果。Aether AI刚融资2000万美元，可能改变具身智能的游戏规则。

原文

05:29

ollama@ollama

用户称 GLM 5.2 达到 SOTA 级别的智能，但成本仅为同类模型的一小部分。他认为 GLM 5.2 的输出和个性优于 GPT 5.5。他计划将 GLM 5.2 用于自己的工具 Hermes 以及客户项目中。该推文获得 170 点赞和超 7300 次浏览。

AI模型 GLM 5.2 GPT 5.5 Hermes 开源模型

推荐理由：有人实测后说 GLM 5.2 比 GPT 5.5 更强还便宜，准备放进自己产品用，有参考价值。

原文

05:25

OpenAI@OpenAI

OpenAI推出LifeSciBench新基准，用于评估AI模型在生物科学中的实际推理能力。该基准包含七个工作流，测试模型从证据推理、处理科学制品、应对不确定性等技能。GPT-Rosalind在所有七个工作流上得分均超过GPT-5.5。结果显示在制品密集、设计密集和操作受限任务上仍有改进空间。

AI模型 LifeSciBench GPT-Rosalind GPT-5.5 OpenAI 推理模型

推荐理由：OpenAI搞了个新基准LifeSciBench，专门测生物科学推理，GPT-Rosalind比GPT-5.5还强，值得看看。

原文

05:24

OpenAI@OpenAI

OpenAI发布LifeSciBench，一个专门用于衡量AI在真实生命科学研究中表现的基准。该基准由173位生物技术和制药领域科学家参与开发，包含750个专家编写的任务，覆盖7个生物研究工作流。LifeSciBench旨在系统评估AI模型在文献分析、实验设计等科研环节的实用性，并指导后续改进。

AI模型 OpenAI LifeSciBench 基准生命科学科研辅助

推荐理由：OpenAI联合173位科学家搞了个LifeSciBench，750个专家级任务覆盖7个生物研究流程，想测AI在生命科学里到底好不好用，科研人员可以用它来选模型。

原文

05:23

OpenAI@OpenAI

OpenAI推出LifeSciBench，这是一个专门用于评估AI在生命科学领域表现的基础基准。该基准旨在通过更现实的测试场景，帮助研究者衡量进展、识别差距。LifeSciBench强调与生命科学社区的持续合作，以共同改进AI。具体评估指标和测试集细节尚待公开。

AI模型 LifeSciBench OpenAI 基准测试生命科学

推荐理由：OpenAI搞了个LifeSciBench，专门测AI在生命科学上的表现，比以前的评估更贴近真实场景，想了解差距的可以看看。

原文

05:17

Greg Brockman@gdb

精选

OpenAI的GPT-5.4与Molecule.one的Maria AI合作，推动了一个药物化学项目从文献综述到实验验证的完整流程。模型提出了一种意想不到的方法，改进药物发现中广泛使用的反应。该结果在专用实验室中得到验证。相关推文获得180个点赞和超过2.3万次查看。

AI模型 GPT-5.4 OpenAI Molecule.one 推理模型药物研发

推荐理由：OpenAI的GPT-5.4这次不是聊天，而是真帮化学家改进了药物反应，和Molecule.one的AI配合，从文献到实验跑通了

原文

05:05

lmarena.ai@lmarena_ai

76°

Agent Arena上线两周，新增10个模型。GLM-5.2 (Max)进入前十，以+9.4%确认成功率和+14.9%赞美vs抱怨率成为最强开源模型。Claude Fable 5在多项指标排名第一，但受美国政府指令暂停访问。评测基于超过30万任务、200万次工具调用和4000万行代码。

AI模型 Agent Arena GLM-5.2 Claude Fable 5 智能体 OpenAI

推荐理由：想看看最新智能体模型谁最强？Agent Arena更新了，GLM-5.2开源冲进前十，Claude Fable 5暂时下线，榜单有了新格局。

原文