02:17@koltregaskes@koltregaskes79°据消息,OpenAI GPT-5.6和GPT-5.6 Pro预计下周四(next Thursday)正式登陆。部分用户可能已在ChatGPT网页端体验GPT-5.6 Pro模型。同时,Anthropic的Claude Fable 5也可能在未来几天内回归。AI模型GPT-5.6GPT-5.6 ProOpenAIClaude Fable 5模型发布10 个信源在谈推荐理由:GPT-5.6和Pro版下周就来,Claude Fable 5也快回来了,想尝鲜的可以留意。原文
01:54LMSYS Org (SGLang)@lmsysorgpoolside发布的Laguna M.1是一个225B参数的MoE模型,专为智能体编码和长期任务设计。该模型采用70层结构:3个密集SwiGLU层加67个稀疏MoE层,共有256个专家,top-k=16且使用无辅助损失负载均衡。它在所有层使用全局注意力:64个Q头、8个KV头,以及softplus输出门控。Laguna M.1支持原生交错推理:在工具调用之间进行思考,并可每个请求切换。在SWE-bench Verified、SWE-bench Multilingual、SWE-Bench Pro和Terminal-Bench 2.0上表现强劲。现在可通过SGLang运行。AI模型Laguna M.1poolsideSGLang智能体编程助手2 个信源在谈推荐理由:poolside刚发的225B MoE模型Laguna M.1,专为智能体编码设计,SGLang直接跑起来了,在SWE-bench上很强。原文
01:44Anthropic@AnthropicAIAnthropic发布Project Fetch实验,让两个零机器人经验的团队编程机器狗。其中一个团队使用Claude辅助,另一个团队仅靠传统方法。实验对比了两组的表现,展示了Claude在机器人编程中的实际效果。结果视频已在Anthropic官方推文中公开。AI模型AnthropicClaudeProject Fetch机器人编程编程助手10 个信源在谈推荐理由:Anthropic让没碰过机器人的团队用Claude写机器狗代码,看看AI到底能帮多少忙,结果挺有意思。原文
01:43Anthropic@AnthropicAI精选Anthropic 发布 Frontier Red Team 博客,介绍 Project Fetch 第二阶段:测试 Claude 编程机器人狗的能力。Opus 4.7 自主完成编程任务,速度比去年最佳人类团队(使用 Opus 4.1)快约 20 倍。尽管速度提升显著,机器人狗仍未成功取回沙滩球。该研究旨在评估前沿模型在物理世界中的自主能力与安全风险。AI模型ClaudeOpus 4.7Anthropic机器人编程安全测试10 个信源在谈推荐理由:Anthropic 让 Claude 自己写代码控制机器狗,速度比人快20倍,虽然最后没抓到球,但过程特别有意思原文
01:33SiliconFlowAI@siliconflowai精选Z.ai 的 GLM 5.2 在编码基准 CodeArena 上排名第一。每百万 token 输入缓存/输入/输出价格为 0.26/1.40/4.40 美元,支持 1M 上下文长度。其编码性能与 Opus 4.8 相当,并提供 max 和 high 两种推理模式。该模型已完全开源,可通过 SiliconFlow 的 T+0 合作获取。AI模型GLM 5.2Z.aiCodeArenaSiliconFlow开源模型推荐理由:Z.ai 的 GLM 5.2 在编码竞技场拿了第一,价格比 Opus 便宜,还有 1M 上下文,编程党可以白嫖开源版。原文
01:32SiliconFlowAI@siliconflowai精选MoonshotAI 基于 K2.6 推出了 Kimi K2.7 Code,参数量为 32B 激活/1T 总参数,支持交错思考与多步工具调用。相比 K2.6,推理 token 使用量降低 30%,在编码与指令遵循上表现提升,接近 GPT-5.5 和 Opus 4.8。定价为缓存输入/输入/输出每百万 token 0.19/0.94/4.00 美元。该模型可在 SiliconFlow 上使用。AI模型Kimi K2.7 CodeMoonshotAI编码模型推理效率VLM5 个信源在谈推荐理由:想少想多做?K2.7 Code 编码专用,推理开销比 K2.6 低三成,还能对标 GPT-5.5,适合写代码时不用纠结。原文
01:31歸藏(guizang.ai)@op741881°OpenAI 正在准备 GPT-5.6 模型家族的发布,GPT-5.6-Pro 版本已在测试中被发现。该消息来自 TestingCatalog 的监测数据,暗示发布可能临近。目前尚未公布具体参数、性能基准或发布日期。AI模型GPT-5.6GPT-5.6-ProOpenAI模型发布10 个信源在谈推荐理由:OpenAI 的 GPT-5.6 快来了,Pro 版本已经在测试,想尝鲜新模型的朋友可以关注起来。原文
01:29xAI@xai精选Vapi 的 Humanness Index 盲测显示,xAI 的 Grok TTS 模型以 96 分(满分 100)位居榜首,仅比人类真实语音低 4 分。该测试将同一段语音用不同模型克隆后,让听众盲评打分。Grok TTS 在多家主要语音模型中表现最接近真人。AI模型Grok TTSxAI语音合成Humanness Index文本转语音推荐理由:xAI 的 Grok TTS 在语音盲测中拿了 96 分,离真人只差 4 分,想听最像人说话的 AI 可以试试。原文
01:28xAI@xai精选xAI 宣布 Grok 模型集成到 Databricks Agent Bricks 平台。企业用户可在 Databricks 环境中直接使用 Grok 模型处理数据,构建 AI 智能体。该集成支持企业将自有数据与 Grok 模型结合,提升智能体能力。AI模型GrokDatabricksxAI智能体企业应用推荐理由:xAI 把 Grok 搬上 Databricks,企业可以直接在自己的数据上跑 Grok 做智能体,不用再折腾部署了。原文
00:32Replicate@replicateP-Image-Try-On 是 PrunaAI 发布的虚拟试穿模型,现已上线 Replicate 平台。每次试穿第一件衣服仅 $0.015,每增加一件 $0.008,最多可同时试穿 11 件衣物。支持质量模式(每件 <2 秒)和 Turbo 模式(总计 <4 秒)。提供提示引导和姿态引导实现精确控制。适合电商和时装团队无需重拍即可生成试穿效果。AI模型P-Image-Try-OnPrunaAIReplicate虚拟试穿图像生成推荐理由:PrunaAI 出了个超便宜的虚拟试穿模型,第一件才一分五,快至2秒一件,还能一次穿11件,电商团队看过来。原文
00:22AK@_akhaliqGLM-5.2 模型在 Hugging Face 的推理提供商上提供免费使用,限时6小时。支持的提供商包括 Zai、Together AI、Novita、Fireworks 和 DeepInfra。用户可通过 Pi、opencode、Codex 或 Claude Code 等编码代理进行配置。该免费服务由 xgo.ing 支持。AI模型GLM-5.2Hugging Face免费模型推理提供商编码代理推荐理由:GLM-5.2 现在能免费调用了,6小时内搭配 Pi、Codex 等编码工具就能用,赶紧去试试。原文
00:10elvis@omarsar0精选OpenAI 推出 LifeSciBench,一个针对生命科学研究的基准测试,包含 750 个专家编写的任务,覆盖 7 个生物学研究工作流。该基准由 173 位来自生物技术和制药领域的科学家共同开发,旨在衡量 AI 在真实世界科研场景中的表现。结果显示通用模型在复杂结构处理上仍有不足,而专用模型在科学研究中优势明显。AI模型OpenAILifeSciBench基准生命科学科学智能10 个信源在谈推荐理由:OpenAI 联合 173 位科学家搞了个新基准 LifeSciBench,750 个专家任务专测 AI 搞科研的能力,比通用模型靠谱多了。原文
00:02Geek@geekbb精选Unsloth AI 将最强开源模型 GLM-5.2 从 1.51TB 压缩至 238GB(缩小 84%),2-bit 量化版本保留约 82% 准确率。该模型可在 256GB Mac 或同等 RAM/VRAM 配置上本地运行。官方指南和 GGUF 文件已在 Hugging Face 发布。AI模型GLM-5.2Unsloth本地运行模型压缩开源模型推荐理由:Unsloth 把 1.5TB 的 GLM-5.2 压到 238GB,本地就能跑,准确率还能保住 82%。有 256GB 内存的 Mac 就能玩,开源模型天花板。原文
00:02Gary Marcus@GaryMarcus精选Gary Marcus引用Matei Zaharia的研究,神经符号系统在机器人领域击败当前最优方法。该方法采用AI驱动的搜索(类似GEPA的方法),让AI生成AI与代码的混合体。Zaharia认为这类系统效率很高,并在其他应用中也观察到类似效果。该成果展示了神经符号系统在控制与规划方面的优势。AI模型Neurosymbolic SystemsGEPARoboticsAI Search机器人推荐理由:Gary Marcus分享了Matei Zaharia的神经符号系统研究,用AI搜索在机器人上打败了现有最优方案,值得搞机器人或符号推理的人关注。原文
23:34OpenAI@OpenAI精选OpenAI 的 o3 Deep Research 模型在罕见病诊断中发挥辅助作用,它能够处理测序产生的数百万变异。该模型连接临床特征、遗传模式、变异证据和科学文献,生成假设供专家审核。所有结果都经过人工裁决和临床确认,AI的作用是帮助专家更快、更全面地推理复杂、碎片化的证据。AI模型o3 Deep ResearchOpenAI推理模型医疗AI智能体10 个信源在谈推荐理由:OpenAI 的 o3 Deep Research 能帮医生快速分析海量变异数据,连接文献和临床特征,生成诊断假设。原文
20:01Patrick Loeber@patloeber在heyAI第二年活动中,Google DeepMind的Pat Loeber展示了AI智能体的现场演示,演示了AI代理可以完成的多种任务。现场演示成功运行。AI模型Google DeepMindAI智能体heyAIPat Loeber推荐理由:Google DeepMind演示了AI智能体,可以实际运行任务,看他们怎么用现场演示展示能力原文
15:10LMSYS Org (SGLang)@lmsysorg精选71°SGLang-Omni 现已支持 MOSS-TTS-Local Transformer v1.5 模型。该模型基于 Qwen3-4B 骨干,可生成 48kHz 立体声语音。支持零样本语音克隆和原生流式,覆盖 31 种语言,训练数据约 400 万小时。非流式场景下达到 5.976 req/s,RTF 0.644,WER 1.75%(SeedTTS English,2×GPU)。采用三阶段管线:参考编码、AR 引擎、流式声码器。AI模型MOSS-TTSSGLang-OmniQwen3-4B语音克隆开源模型推荐理由:SGLang-Omni 刚上线 MOSS-TTS v1.5,开源、零样本克隆声音,支持31种语言,速度也不错,玩玩看。原文
15:03小互@imxiaohuApodex 1.0 模型已正式发布,官方介绍页面提供了技术细节。在线体验平台 apodex.ai 可供用户直接试用。模型权重已在 Hugging Face 上开源下载。AI模型Apodex开源模型Hugging Face推荐理由:Apodex 发布了 1.0 版本,有在线体验和开源下载,感兴趣可以试试。原文
14:43小互@imxiaohu6月,Apodex 向 FutureX 提交了四个基于 Apodex-1.0-mini 35B 的实验预测框架。该模型在6月第一周排名包揽第1至第4名,并在第二周持续霸榜第1名。这一成绩展示了 Apodex-1.0-mini 35B 在预测任务上的竞争力。AI模型ApodexApodex-1.0-miniFutureX推理模型基准推荐理由:Apodex 用 35B 参数模型做的预测框架,在 FutureX 排行榜上直接包揽前四名,太猛了。原文
13:07@atomic_chat_hq@atomic_chat_hq精选智谱GLM-5.2与月之暗面Kimi K2.7 Code在三个物理模拟HTML5编程任务中对比。GLM-5.2使用12,640 tokens完成全部任务,包括台球碰撞、弹簧上方方块弹跳和高尔顿板,粒子和动量表现正确。Kimi K2.7 Code仅用7,420 tokens,但三个场景均出现严重错误:方块穿透弹簧、台球碰撞不真实、高尔顿板珠子重叠。评测显示GLM-5.2在物理模拟细节和精度上显著优于Kimi K2.7 Code。AI模型GLM-5.2Kimi K2.7智谱代码生成物理模拟推荐理由:智谱的GLM-5.2写物理模拟代码完胜Kimi K2.7,三个场景全部精准,Kimi翻车在弹簧穿透和球乱撞上。原文
13:05@atomic_chat_hq@atomic_chat_hq精选Kimi K2.7 Code在三个物理模拟任务上与GPT-5.5进行对比,使用相同的提示词。弹簧摆和1kg块碰撞100000kg块的任务两者表现持平。但在22球自旋六边形任务中,Kimi生成的球随滚筒旋转,而GPT-5.5的球呈现混沌运动,Kimi表现更优。Kimi推理成本为0.28美元(52.4k tokens),GPT-5.5为0.93美元(23.4k tokens),成本降低约70%。AI模型KimiK2.7 CodeGPT-5.5推理模型编程助手推荐理由:Kimi新出的K2.7 Code模型,花不到三毛钱就能和GPT-5.5打平手,物理模拟甚至更聪明,性价比直接秒杀。原文
13:03@atomic_chat_hq@atomic_chat_hq精选Diffusion Gemma 在单个H100(FP8)上速度达763 tok/s,比Gemma 4的218 tok/s快约4倍。但事实准确性测试中,Diffusion Gemma 33个事实正确、28个错误,而Gemma 4为45正确、5错误。话题越冷门错误越多:乔布斯传4错、俄罗斯方块12错、BeOS故事12错。Diffusion Gemma胡编了乔布斯的母亲名字和游戏同事名称,并将BeBox价格虚构为$9,999(实际$1,600)。AI模型Diffusion GemmaGemma 4Google推理模型事实准确性4 个信源在谈推荐理由:想用更快的推理速度就得接受更多幻觉,Google官方也为此打预防针了。原文
13:02@atomic_chat_hq@atomic_chat_hq精选Fable 5 模型在三个真实物理模拟任务(混沌双摆、高尔顿板、WCSPH 旋转桶中水)中生成的 HTML5 仿真效果优于 Opus 4.8。水模拟中,Fable 5 生成的水体更连续稳定,而 Opus 4.8 在器壁附近出现较大空隙、粒子散落且流体不稳定。Fable 5 的生成成本为 3.35 美元(68.7k tokens,耗时 14 分 47 秒),Opus 4.8 为 0.93 美元(38.9k tokens,耗时 8 分 10 秒)。AI模型Fable 5Opus 4.8物理模拟代码生成HTML510 个信源在谈推荐理由:Fable 5 写物理仿真比 Opus 4.8 更扎实,尤其水粒子效果更真实,虽然贵了点但值得一试。原文
13:01@atomic_chat_hq@atomic_chat_hqNemotron 3 Ultra 在三个物理模拟任务中与 GPT 5.5 表现相当,但成本仅为后者的十分之一。测试用例包括旋转桶中水体、高尔顿板钉球和极端质量碰撞。Nemotron 3 Ultra 输出 11.3k tokens 花费 $0.051,而 GPT 5.5 输出 11.0k tokens 花费 $0.57。质量差距远小于价格差距。AI模型Nemotron 3 UltraGPT 5.5推理模型成本对比推荐理由:想用 GPT-5.5 级别能力但嫌贵?Nemotron 3 Ultra 几乎一样好,价格只有十分之一,值得试试。原文
13:00@atomic_chat_hq@atomic_chat_hq精选Google Gemma 4 12B模型在RTX 4090上实测仅需9GB VRAM,生成8.9k tokens,速度80 tok/s,性能接近26B版本。其对比的Gemma 4 26B-A4B使用15GB VRAM,生成6.9k tokens,速度138 tok/s,所有场景胜出。但12B在近半VRAM下表现十分接近,成为16GB笔记本的理想选择。AI模型Gemma 412B26B-A4BGoogle推理模型4 个信源在谈推荐理由:新Gemma 4 12B别看参数小,实测代码能力接近26B版,而且只需要9GB显存,16GB笔记本就能跑。原文
13:00@atomic_chat_hq@atomic_chat_hqStepFun 的 Step 3.7 Flash 模型与 DeepSeek V4-Flash 在物理动画生成任务中直接对比。任务要求编写自包含 HTML5 Canvas 动画,包含高尔顿板、旋转六边形中弹跳的球、五个同步节拍器三个场景。Step 3.7 Flash 输出 59.6k tokens (9分57秒),DeepSeek V4-Flash 输出 52.5k tokens (6分21秒)。虽然 DeepSeek 更快,但 StepFun 在物理模拟、视觉效果和逻辑渲染三个维度全面获胜。AI模型Step 3.7 FlashDeepSeek V4-FlashStepFun代码生成基准测试1 个信源在谈推荐理由:StepFun 的 Step 3.7 Flash 在生成物理动画上把 DeepSeek V4-Flash 比下去了,慢点但模拟和画面都好很多。原文
12:59@atomic_chat_hq@atomic_chat_hq精选Liquid 的 LFM2.5-8B-A1B(8B总参、1B激活)在 MacBook Pro M5 Max 上本地运行,与 OpenAI 的 gpt-oss-20b 对比工具调用能力。面对需执行7个工具调用的旅行规划任务,LFM2.5-8B-A1B 全部成功,而 gpt-oss-20b 仅完成 3 个。内存方面,LFM2.5-8B-A1B 仅用 4.8 GB,远低于对手的 11 GB。速度上,LFM2.5-8B-A1B 达到 266 tok/s,总耗时 6.9 s,而 gpt-oss-20b 为 146 tok/s 和 15.0 s。该模型利用 38T 训练 token 的 MoE 架构,实现了小参数下的高效工具调用。AI模型LiquidLFM2.5-8B-A1Bgpt-oss-20b工具调用MoE10 个信源在谈推荐理由:Liquid 这个 8B MoE 模型只用 4.8GB 内存就比 OpenAI 20B 模型多调用了一倍工具,速度还快两倍,本地跑 agent 任务很实用。原文
12:50AI Will@FinanceYF5Min Choi发布了一段对比视频,展示3年前Modelscope与现在Grok Imagine 1.5的图像生成结果。Grok Imagine 1.5生成的图像在细节和真实感上明显优于Modelscope。视频直观呈现了AI图像模型在三年间的视觉进步。AI模型GrokGrok Imagine 1.5Modelscope图像生成模型对比推荐理由:看看Grok Imagine 1.5比三年前的Modelscope强多少,一段视频就能看清差距。原文
12:41AI Will@FinanceYF5ModelScope和Grok Imagine 1.5分别左右展示AI图像生成模型3年间的进步。左图来自ModelScope,右图来自Grok Imagine 1.5,生成质量有明显差异。Grok Imagine 1.5在细节、真实感和多样性上表现更优。这种对比直观反映了模型迭代的效果。AI模型ModelScopeGrok Imagine 1.5图像生成AI进步推荐理由:看看ModelScope和Grok Imagine 1.5的生成效果左右对比,感受AI图像模型3年间的进化。原文
11:41berryxia@berryxiaOpenAI 最新模型 GPT-5.6 延期发布,具体时间未公布。作为应对,Codex 5.6 开始频繁重置用户额度以提升留存。用户反馈这种策略比 Claude 的限额政策更友好。AI模型GPT-5.6Codex 5.6OpenAI模型发布10 个信源在谈推荐理由:GPT-5.6 跳票了,但 OpenAI 用 Codex 5.6 免费额度留人,比 Claude 大方多了。原文
11:23Justine Moore@venturetwins73°xAI推出Grok Imagine Video 1.5,这是其图像转视频模型的新版本。该模型在物理模拟、画面真实感和生成速度上均有改进,支持单次生成高质量视频。用户测试中,先用Grok生成图像,再通过该模型一次性转换为视频。xAI称其具备“更清晰的真实感、更好的物理和更快的生成速度”。AI模型Grok Imagine Video 1.5xAI视频生成图像转视频1 个信源在谈推荐理由:xAI出了新视频模型,图像转视频一次搞定,物理和真实感都更好,速度还快,值得试试。原文
10:58shao__meng@shao__meng精选实验让Kimi K2.7 Code和Claude Fable 5分别生成12个落地页进行并排对比,覆盖B2B SaaS、酒吧、开发者工具等类别。Kimi单页成本仅4美分,Claude Fable为1.09美元,差距约27倍,整体Kimi总成本降低94%。使用GPT-5.5按标准化评分表打分,Claude Fable部分案例略高但差距不大。Kimi通过MCP Server提供高质量视觉参考后,页面质量显著提升,成本效率优势突出。AI模型Kimi K2.7 CodeClaude Fable 5落地页生成MCP/工具对比评测10 个信源在谈推荐理由:想知道怎么用Kimi K2.7 Code花不到5分钱做出媲美Claude Fable 5的落地页?实验数据全给你算清楚了,迭代省大钱。原文
10:57Viking@vikingmuteGLM5.2在Artificial Analysis开源模型排名中登顶,多项benchmark评分领先。有用户反馈其实际体验接近Opus 4.6,作者考虑将Deepseek V4 Pro替换为GLM5.2。该帖子获得2条回复、505次浏览。AI模型GLM5.2Artificial AnalysisOpus 4.6Deepseek V4 Pro开源模型2 个信源在谈推荐理由:GLM5.2在开源模型排名拿了第一,而且有人说用起来感觉像Opus 4.6,你要是想换掉Deepseek V4 Pro可以试试。原文
09:51berryxia@berryxia精选当前Physical AI的VLA模型仅在统计相关性上学习,桌子高2cm即失败。UCSD黄碧薇教授在CVPR 2026发布Causal World Models框架,让AI从模仿动作进化到理解因果。她创立的Aether AI获得2000万美元融资,成为全球首个因果世界模型公司。与杨立昆AMI(融10亿美元)和李飞飞World Labs(10亿美元)等不同,Aether AI不卷规模而卷因果结构。AI模型Causal World ModelsAether AIVLA因果模型具身智能推荐理由:黄碧薇教授不堆数据,教AI理解物理因果。Aether AI刚融资2000万美元,可能改变具身智能的游戏规则。原文
05:29ollama@ollama用户称 GLM 5.2 达到 SOTA 级别的智能,但成本仅为同类模型的一小部分。他认为 GLM 5.2 的输出和个性优于 GPT 5.5。他计划将 GLM 5.2 用于自己的工具 Hermes 以及客户项目中。该推文获得 170 点赞和超 7300 次浏览。AI模型GLM 5.2GPT 5.5Hermes开源模型推荐理由:有人实测后说 GLM 5.2 比 GPT 5.5 更强还便宜,准备放进自己产品用,有参考价值。原文
05:25OpenAI@OpenAIOpenAI推出LifeSciBench新基准,用于评估AI模型在生物科学中的实际推理能力。该基准包含七个工作流,测试模型从证据推理、处理科学制品、应对不确定性等技能。GPT-Rosalind在所有七个工作流上得分均超过GPT-5.5。结果显示在制品密集、设计密集和操作受限任务上仍有改进空间。AI模型LifeSciBenchGPT-RosalindGPT-5.5OpenAI推理模型10 个信源在谈推荐理由:OpenAI搞了个新基准LifeSciBench,专门测生物科学推理,GPT-Rosalind比GPT-5.5还强,值得看看。原文
05:24OpenAI@OpenAIOpenAI发布LifeSciBench,一个专门用于衡量AI在真实生命科学研究中表现的基准。该基准由173位生物技术和制药领域科学家参与开发,包含750个专家编写的任务,覆盖7个生物研究工作流。LifeSciBench旨在系统评估AI模型在文献分析、实验设计等科研环节的实用性,并指导后续改进。AI模型OpenAILifeSciBench基准生命科学科研辅助10 个信源在谈推荐理由:OpenAI联合173位科学家搞了个LifeSciBench,750个专家级任务覆盖7个生物研究流程,想测AI在生命科学里到底好不好用,科研人员可以用它来选模型。原文
05:23OpenAI@OpenAIOpenAI推出LifeSciBench,这是一个专门用于评估AI在生命科学领域表现的基础基准。该基准旨在通过更现实的测试场景,帮助研究者衡量进展、识别差距。LifeSciBench强调与生命科学社区的持续合作,以共同改进AI。具体评估指标和测试集细节尚待公开。AI模型LifeSciBenchOpenAI基准测试生命科学10 个信源在谈推荐理由:OpenAI搞了个LifeSciBench,专门测AI在生命科学上的表现,比以前的评估更贴近真实场景,想了解差距的可以看看。原文
05:17Greg Brockman@gdb精选OpenAI的GPT-5.4与Molecule.one的Maria AI合作,推动了一个药物化学项目从文献综述到实验验证的完整流程。模型提出了一种意想不到的方法,改进药物发现中广泛使用的反应。该结果在专用实验室中得到验证。相关推文获得180个点赞和超过2.3万次查看。AI模型GPT-5.4OpenAIMolecule.one推理模型药物研发10 个信源在谈推荐理由:OpenAI的GPT-5.4这次不是聊天,而是真帮化学家改进了药物反应,和Molecule.one的AI配合,从文献到实验跑通了原文
05:05lmarena.ai@lmarena_ai76°Agent Arena上线两周,新增10个模型。GLM-5.2 (Max)进入前十,以+9.4%确认成功率和+14.9%赞美vs抱怨率成为最强开源模型。Claude Fable 5在多项指标排名第一,但受美国政府指令暂停访问。评测基于超过30万任务、200万次工具调用和4000万行代码。AI模型Agent ArenaGLM-5.2Claude Fable 5智能体OpenAI10 个信源在谈推荐理由:想看看最新智能体模型谁最强?Agent Arena更新了,GLM-5.2开源冲进前十,Claude Fable 5暂时下线,榜单有了新格局。原文