全部 AI 动态 · AI 热点

AITOP

6月21日

15:13

Guillermo Rauch@rauchg

GLM-5.2 是 zai_org 发布的新模型，在编码任务上表现极佳。网友 rauchg 在 X 上表示“几乎震惊”，认为这改变了局面。该推文获得 127 赞和 25 次分享。GLM-5.2 的编码能力被认为堪比顶级模型。

推荐理由：zai_org 的 GLM-5.2 在编码上强到让人震惊，跟之前版本比进步很大，值得试试。

原文

03:54

Suhail@Suhail

精选

Z.ai推出GLM-5.2开源模型，采用MIT开放权重。该模型支持1M上下文窗口，在Terminal-Bench 2.1基准上得分81.0，仅比Claude Opus 4.8低几分。Perplexity CEO此前指出，中国已拥有最强开源模型DeepSeek，且美国开发者正基于其构建应用。GLM-5.2的发布进一步表明开源AI竞赛已非理论。

AI模型 GLM-5.2 Z.ai DeepSeek 开源模型推理模型

推荐理由：Z.ai刚刚放出了GLM-5.2，MIT开源、100万上下文、跑分81.0，跟Claude Opus 4.8差距很小，做开源模型的得看看。

原文

00:53

elvis@omarsar0

精选

GLM-5.2 在图形设计能力上据称达到 Opus 级别，同时在长期运行任务中表现良好。其训练引入了反奖励破解模块，用于解决强化学习中常见的奖励破解问题，例如模型走捷径、变懒、意图偏差等。该模块有助于提升编码代理在长周期任务中的可靠性与效果。GLM-5.2 是一个开源开放权重模型。

AI模型 GLM-5.2 奖励破解开源模型设计长期任务

推荐理由：GLM-5.2 据称设计和长任务都接近 Opus，关键是加了个反奖励破解机制，让模型更靠谱。

原文

6月20日

23:55

AK@_akhaliq

研究人员发布了S-Agent，一个通过空间工具使用来增强空间推理能力的模型。S-Agent在虚拟环境中学习操作和使用空间工具，如旋转、移动物体等，以解决空间任务。该方法在空间智能基准测试中展现了显著的推理能力提升。

AI模型 S-Agent 推理模型空间智能智能体

推荐理由：S-Agent教AI通过操作空间工具来推理空间关系，跟传统只靠视觉的模型不一样，值得关注。

原文

10:54

shao__meng@shao__meng

GLM 5.2 开源后在 X 平台获得多位国外 AI 博主称赞。智谱港股股价近期飙升，市值已超过 MiniMax 并接近小米。作者提到智谱内部运营问题和自身充值体验，但认为模型够强仍是核心。

AI模型 GLM 5.2 智谱开源模型港股

推荐理由：智谱开源了 GLM 5.2，国外博主都在夸，股价还涨到快赶上小米了，模型实力真的能打。

原文

05:55

Browser Use@browser_use

GLM 5.2 在 BrowserCode 基准上达到接近 Opus 级别分数，单次任务成本仅 0.18 美元。Minimax M3 取得 Sonnet 级别分数，输入价格 0.30 美元，比 DeepSeek V4 Pro 更便宜。Kimi k2.7 相比 k2.6 提升 9%，但被 M3 超越。这些开源权重模型首次在浏览器智能体任务中追平甚至超过 GPT 5.5 等闭源模型。

AI模型 GLM 5.2 Minimax M3 Kimi k2.7 BrowserCode 智能体

推荐理由：智谱发了 GLM 5.2，Benchmark 接近 Opus，成本才一毛八，还有更便宜的 M3 和升级的 Kimi 2.7，做浏览器智能体有得选了。

原文

03:55

Nous Research@NousResearch

NousResearch 在推文中表示，Hermes Agent 模型当前表现优秀。

AI模型 Hermes Agent NousResearch 智能体

推荐理由：NousResearch 说他们的 Hermes Agent 现在很强，可以看看。

原文

03:50

Nous Research@NousResearch

NousResearch 在其 Hermes Agent 中引入了异步子代理功能。主代理可无需等待子代理完成即可继续工作。该功能提升了多代理协作的效率。

AI模型 Hermes Agent NousResearch 智能体异步多代理协作

推荐理由：Hermes Agent 现在支持异步子代理了，主代理不用干等子任务结束，能同时干多件事，效率提升很明显。

原文

03:05

Together AI@togethercompute

精选

MiniMax-M3 模型支持智能体携带长历史（超过百万token）、图像、视频、文档和工具输出进入上下文，显著提升多模态信息处理能力。Together 的推理优化通过改进服务路径上的 token 吞吐量，使这一能力在大规模部署时更实用。相比之前方案，每 GPU 可处理更多 token，从而降低每美元自动化工作成本。

AI模型 MiniMax-M3 Together 智能体多模态推理优化

推荐理由：MiniMax-M3 让智能体一口气带进长历史、图、视频、文档和工具输出，Together 优化后每 GPU token 翻倍，自动任务成本更低。

原文

03:05

Together AI@togethercompute

88°

OpenAI 的 GPT Image 2 模型现已在 Together AI 的 Serverless Inference 服务中上线。开发者可通过该接口将图像生成与编辑功能集成到多模态应用中。模型支持精准布局控制、可读文本生成以及参考图像引导生成。Together AI 提供无服务器推理能力，无需管理基础设施即可调用。

AI模型 GPT Image 2 OpenAI Together AI 图像生成多模态

推荐理由：OpenAI 的新图像模型 GPT Image 2 现在能用 Together AI 的无服务器接口调用了，做多模态应用时直接用它生成和编辑图片，支持布局和文字控制，挺方便。

原文

01:56

Ate-a-Pi@svpino

该博主从4月起在Mac Studio上运行gemma-4:26b处理私密文档，目前六成查询都使用该模型。它速度快且能力强，但复杂编程任务仍需专用模型。适合日常使用并避免向大型AI实验室上传数据。

AI模型 gemma-4:26b 本地模型隐私文档 Mac Studio

推荐理由：gemma-4:26b 本地跑很香，处理私密文档不用传云端，日常六成查询够用。但写代码别指望它。

原文

6月19日

23:57

Thomas Wolf@Thom_Wolf

开源模型生态欢迎新手尝试Opus 4.8级别的模型。GLM-5.2是ZAI org发布的开放权重模型，可通过Hugging Face页面使用。多个供应商竞争价格，智能体价格便宜。模型可本地运行、微调并构建商业应用，无需许可。HuggingChat提供免费聊天界面。

AI模型 GLM-5.2 Hugging Face 开源模型本地部署微调

推荐理由：GLM-5.2达到Opus 4.8水平，免费、可本地跑、可微调，比闭源灵活还便宜，快试试！

原文

18:43

Together AI@togethercompute

Together AI 在推文中指出，当团队运行数十亿 tokens 时，缓存、吞吐量和服务效率的微小差异会转化为产品级的经济性。以 MiniMax M3 模型为例，该模型在 Together AI 平台上提供前沿品质和开放模型经济学，其服务栈专为规模化设计。这体现了开放模型在生产中的实际成本竞争力。

AI模型 MiniMax M3 Together AI 开放模型推理效率经济性

推荐理由：看看 Together AI 怎么用 MiniMax M3 把开放模型做大，跑几十亿 tokens 还省钱。不是吹概念，是实打实的缓存和吞吐量优化。

原文

18:41

Together AI@togethercompute

精选

AI模型 GLM-5.2 Zai_org Together AI 智能体长上下文

推荐理由：GLM-5.2 支持百万级上下文，还能控制推理深度，搞智能体编程和复杂工具链的可以试试。Together AI 上直接用。

原文

18:40

Together AI@togethercompute

TogetherAI用Kimi K2.7 Code和Claude Fable 5各生成12个落地页。Kimi的成本仅为Claude的1/16，质量表现接近。通过设计MCP服务器提供视觉上下文后，Kimi效果更佳。这表明开源模型在落地页生成工作流中已是高性价比的实用选择。

AI模型 Kimi K2.7 Code Claude Fable 5 开源模型 MCP/工具代码模型

推荐理由：想低预算做落地页？试试Kimi K2.7 Code，便宜16倍效果不输Claude Fable 5，尤其配合MCP服务器更稳。

原文

18:39

Together AI@togethercompute

Together Compute 测试了闭源和开源模型构建小型可玩游戏的能力。结果显示，开源模型成本更低、速度更快，生成游戏质量接近闭源模型。例如，Opus 4.8 成本是 MiniMax M3 的 15 倍，GPT-5.5 是 Nemotron Ultra 的 10 倍，而 Kimi K2.7 Code 比 Opus 4.8 便宜 7 倍。

AI模型 Opus 4.8 MiniMax M3 GPT-5.5 开源模型游戏生成

推荐理由：Together Compute 实测：闭源模型贵几倍，开源做小游戏又快又便宜，质量还接近，想省钱就选开源。

原文

18:37

Together AI@togethercompute

精选

Together AI分享了优化GLM 5.1推理性能的三项关键改进。他们重写了索引器的topk内核。接着融合了索引器内核以减少内存和启动开销。同时消除了限制预填充吞吐量的CPU开销。这些优化显著提升了GLM 5.1在Together AI平台上的运行效率。

AI模型 GLM 5.1 Together AI 推理优化内核重写

推荐理由：想知道Together AI怎么让GLM 5.1跑得更快？他们分享了三个工程优化点，对部署GLM 5.1有直接帮助。

原文

18:35

Together AI@togethercompute

Together AI 上线了 Cartesia Sonic 3.5 语音模型，为开发者提供超过150种语音。通过语音查找器，开发者可以试听和比较这些语音，为实时智能体挑选最合适的角色。选定后可直接在 Together AI 平台部署，简化开发流程。

AI模型 Cartesia Sonic 3.5 Together AI 语音模型实时语音智能体

推荐理由：Together AI 集成了 Cartesia Sonic 3.5，有150多种语音可选，做实时语音智能体可以试试这个新库。

原文

18:34

Together AI@togethercompute

Together AI 部署的 DeepSeek V4 Pro 在 Artificial Analysis 基准测试中同时获得输出速度和延迟两项第一。该成绩通过优化 KV 缓存、前缀复用、内核及端点配置实现。Together AI 公开了其推理系统的具体工程方案，包括缓存策略和内核调优。

AI模型 DeepSeek V4 Pro Together AI Artificial Analysis 推理优化性能基准

推荐理由：Together AI 把 DeepSeek V4 Pro 调到了速度与延迟双第一，还公开了优化方法，搞推理部署的值得看看。

原文

18:33

Together AI@togethercompute

精选

Kimi Moonshot 发布 Kimi-K2.7-Code，基于 Kimi K2.6 的专用编码智能体模型。该模型面向长周期软件工程工作流，支持工具调用和代理式推理。现已通过 Together AI 的推理栈提供，针对工具密集型编码代理场景优化。模型在多个编程基准上表现优于前代。

AI模型 Kimi-K2.7-Code 月之暗面智能体代码模型

推荐理由：月之暗面出了个专门写代码的智能体模型 K2.7-Code，在 Together AI 上就能跑，搞长期软件工程任务挺合适。

原文

18:26

Yangyi@Yangyixxxx

GLM5.2在前端审美能力上有显著进步，用户评价其表现接近Claude。该模型可能通过优化视觉布局和UI设计来增强用户体验。目前尚无公开基准测试结果，但社区对其潜力表示关注。

AI模型 GLM5.2 Claude 前端审美

推荐理由：GLM5.2的前端审美变强了，有人说快赶上Claude了，做UI设计的朋友可以留意一下。

原文

14:54

Epoch AI@EpochAIResearch

Claude Fable 5 在 Epoch Capabilities Index (ECI) 上取得 161 分的新高，比 GPT-5.5 Pro 高出 1 分。这是 Anthropic 一年多来首次在 ECI 上领先。该指数衡量模型综合能力，Claude Fable 5 的表现重新夺回了榜首位置。

AI模型 Claude Fable 5 GPT-5.5 Pro Anthropic 基准成绩

推荐理由：Claude Fable 5 在 ECI 上拿 161 分，超 GPT-5.5 Pro 一分，Anthropic 终于又领先了。

原文

14:42

Simon Willison@simonw

精选

Jeremy Howard 称 GLM 5.2 是开放权重模型中的奇迹，性能至少与 Opus 4.8 和 GPT 5.5 持平。它速度快、成本低、输出简洁，且擅长长上下文处理。该模型由 Zai_org 发布，目前尚未在 Groq 或 Cerebras 等超快推理提供商上运行，但社区期待其部署。

AI模型 GLM-5.2 Zai_org 开放权重推理模型

推荐理由：GLM 5.2 开放权重、性能比肩闭源顶尖模型，还便宜又快，写代码或处理长文档会很顺手。

原文

14:36

小互@imxiaohu

豆包实时语音模型3.0 API 正式上线，支持全双工模式，可同时听和说并随时插话。采用端到端语音进语音出，无需转录，响应更快更自然。模型能精准遵循指令，例如在多人聊天中设定规则后静待话题出现再参与。支持自定义工具调用，可在实时对话中完成预定日历、发邮件、总结文档等任务，向语音 Agent 迈进。

AI模型豆包实时语音模型3.0 全双工语音Agent 工具调用

推荐理由：豆包出了3.0语音模型，能同时听说、随时插话，还能在对话里调工具办事情，比传统语音助手强一大截。

原文

12:51

Cohere@cohere

精选

Cohere宣布其首个开源智能体编码模型的4-bit量化版本已可用。该量化版模型体积显著缩小，可在Mac上本地运行。用户可通过链接获取模型权重。此次发布使得开发者能够更便捷地在个人设备上运行智能体编码模型。

AI模型 Cohere 4-bit量化智能体编码模型开源模型

推荐理由：Cohere把自己最新的编程智能体模型压缩到4-bit，Mac上就能跑，本地开发效率直接拉满！

原文

12:42

Fireworks AI@FireworksAI_HQ

Jeremy Howard在X平台上称赞Zai_org的GLM 5.2模型，称其至少与Opus 4.8和GPT 5.5一样优秀。他指出该模型速度极快、成本低廉且回答不冗长，在处理长上下文时表现非常出色。Howard表示从未见过如此优秀的开源权重模型。

AI模型 GLM 5.2 Zai_org Opus 4.8 GPT 5.5 开源模型

推荐理由：想试试媲美顶级闭源模型的开源模型吗？GLM 5.2又快又便宜，长上下文超强，看看Jeremy Howard怎么夸的。

原文

09:25

Clement Delangue@ClementDelangue

AA-Briefcase基准测试评估模型在长期知识工作项目中的表现，任务成本差异达800倍。Claude Fable 5以1587 Elo领先，但平均任务成本31美元；Claude Opus 4.8得分1356，成本10.40美元。DeepSeek V4 Flash仅需约0.04美元，性价比最高。GLM-5.2得分1266，成本2.40美元，得分仅低Claude Opus 4.8不到90 Elo，成本不到其25%。

AI模型 Claude Fable 5 DeepSeek V4 Flash GLM-5.2 AA-Briefcase 推理模型

推荐理由：新基准AA-Briefcase测长期项目，Claude Fable 5最强但贵，DeepSeek V4 Flash极便宜，GLM-5.2性价比超赞。

原文

07:10

OpenAI@OpenAI

OpenAI在真实对话中训练模型，通过强化学习强化诚实、谦逊、开放纠正、公平和关怀人类福祉等特质。该训练覆盖健康、科学、教育等12个领域，旨在提升模型的对齐与安全性。方法基于RLHF改进，专注对话场景中的具体行为。

AI模型 OpenAI 强化学习 AI安全对齐模型训练

推荐理由：OpenAI训练模型时不止看能力，还用强化学习专门教它诚实、谦逊、愿意接受批评，覆盖12个领域，对AI安全性很有意义。

原文

07:06

Greg Brockman@gdb

OpenAI o1推理模型公布后，其他实验室研究者认为这是战略失误，应保密以拉开差距。Noam Brown引用研究表示，公开o1有助于推动医学推理领域的进展。这验证了OpenAI开放模型的正确性，加速了推理范式的应用。

AI模型 OpenAI o1 推理模型医学公开研究

推荐理由：Noam Brown聊了OpenAI开放o1背后的争论，告诉你为什么公开反而能让医学推理进步更快。

原文

06:39

OpenAI@OpenAI

精选

OpenAI发布测试结果，评估模型对齐在压力下的表现。在对抗性提示下，模型更难被引导至有害行为，同时依然能响应有益指令。初步证据表明，模型对有害微调也表现出更强的抵抗力。这项测试关注模型的安全鲁棒性，未提及具体模型版本或基准分数。

AI模型 OpenAI 对齐对抗性提示有害微调鲁棒性

推荐理由：OpenAI发现他们的模型在对抗压力下挺得住，不容易被带坏，安全对齐效果不错。

原文

06:38

Greg Brockman@gdb

精选72°

OpenAI 与波士顿儿童医院及哈佛大学合作，在 NEJM AI 发表研究。研究使用 o3 Deep Research 模型重新分析 376 个先前未解决的罕见儿科病例。模型帮助临床医生找到了 18 个新诊断。其中包括 Kyra 的病例，她从 9 岁起持续肌肉无力，在 28 岁生日前夕被确诊为罕见的肌原纤维肌病。

AI模型 OpenAI o3 Deep Research 罕见病推理模型医疗AI

推荐理由：OpenAI 的 o3 Deep Research 模型帮医生翻出了 376 个陈年疑难病例，找出了 18 种之前漏诊的病。有个女孩从 9 岁查到 28 岁，终于有了答案。这 AI 真的能救命。

原文

06:37

OpenAI@OpenAI

OpenAI 发布声明称，这是朝向更鲁棒有益和对齐模型的早期步骤。他们正在训练模型将有益特质带入新情境，使AI在能力增强的同时变得更可靠、透明和有用。该工作属于对齐研究的一部分，尚未披露具体模型或基准测试结果。

AI模型 OpenAI AI安全对齐

推荐理由：OpenAI 开始教模型把好习惯带到新场景，让AI更靠谱。这个对齐实验挺关键，关注未来进展。

原文

05:07

GitHub@github

精选

MicrosoftAI 的 MAI-Code-1-Flash 模型现已扩展至 GitHub Copilot CLI 和 GitHub Copilot 应用。该模型专为 Copilot 设计调优，在其尺寸下提供最佳质量。早期测试中，它超越其他小模型。

AI模型 MAI-Code-1-Flash Microsoft GitHub Copilot 编程助手

推荐理由：微软把专为 Copilot 调的小模型放到命令行了，代码质量比别的小模型好，试试吧。

原文

04:25

Clement Delangue@ClementDelangue

精选

AI模型 Poolside Laguna M.1 Hugging Face 开源模型长上下文

推荐理由：Poolside 把最强的 Laguna M.1 模型完全开放了，256K 上下文，Apache 2.0 许可，直接去 Hugging Face 下载权重用。

原文

04:02

lmarena.ai@lmarena_ai

82°

Agent Arena推出了因果追踪方法论，通过分析人类与AI代理协作的追踪数据来量化协作的真实价值，并能观测到广泛的模型行为。基于该方法的新排行榜显示，GLM-5.2 (Max)进入前十，成为最强开源模型，确认成功率比基线高+9.4%，表扬-抱怨比高+14.9%。Claude Fable 5在几乎所有指标上曾排名第一，但因美国政府指令暂停访问。排行榜基于数百万个真实世界长期代理任务，使用因果追踪评估模型相对于平均模型的表现。

AI模型 Agent Arena GLM-5.2 Claude Fable 5 Anthropic 智能体

推荐理由：想看看人机协作到底有没有用？Agent Arena拿数据说话，GLM-5.2开源最强，Claude Fable 5刚登顶就被叫停，这瓜值得吃。

原文

03:09

Sebastian Raschka@rasbt

73°

AI模型 GLM-5.2 DeepSeek V3.2 IndexShare 推理模型开源模型

推荐理由：智谱的GLM-5.2开放权重模型，用DeepSeek V3.2的注意力机制加上自己的IndexShare，把1M长上下文推理搞便宜了，值得看看。

原文

03:08

vLLM@vllm_project

精选72°

Anyscale 与 Google Cloud GKE 合作推出 Ray Serve LLM 新版本，在 vLLM 基础上实现显著性能飞跃。预填密集型负载吞吐量提升 4.4 倍，解码密集型负载提升 24 倍。三个关键优化包括：控制平面端点选择器的直接流式传输、新的 vLLM Ray V2 执行器后端、以及基于 HAProxy 的 C 语言级路由。Ray 的容错、可观察性和跨 K8s/VM 可移植性为复杂推理部署奠定基础。

AI模型 Ray Serve LLM vLLM Anyscale Google Cloud 推理优化

推荐理由：Anyscale 和 Google Cloud 联手让 vLLM 推理快了好几倍，预填负载快 4.4 倍，解码负载快 24 倍，用 Ray V2 执行器就能体验。

原文

03:04

vLLM@vllm_project

精选

Poolside 发布开源智能体编程模型 Laguna M.1，采用 70 层稀疏 MoE 架构，总参数量 225B，每 token 激活 23B，支持 256K 上下文。模型使用 256 个专家，top-k=16 路由，专为长程智能体编程设计。支持工具调用间交错推理，可每请求切换，采用 Apache 2.0 许可。vLLM v0.21.0 已提供 Day-0 支持。

AI模型 Laguna M.1 Poolside 开源模型编程助手智能体

推荐理由：Poolside 刚开源了 Laguna M.1，225B 参数的智能体编程模型，256K 上下文，vLLM 已原生支持，想玩 agentic coding 的可以试试。

原文

03:03

Greg Brockman@gdb

76°

OpenAI 发布 GPT-5.5 Instant，其健康相关问题的回答水平已与前沿思考模型持平。该模型联合 60 个国家、49 种语言、26 个专科的数百名医生共同开发。每周有超过 2.3 亿用户向 ChatGPT 咨询健康问题。GPT-5.5 Instant 在识别紧急情况、询问上下文、解释不确定性及简化复杂信息方面表现更优。该模型已面向所有免费用户开放。

AI模型 GPT-5.5 OpenAI ChatGPT 健康问答医疗AI

推荐理由：OpenAI 出了 GPT-5.5 Instant，免费版就能用，健康问答能力大幅提升，和医生合作训练的，靠谱。

原文

02:39

OpenAI@OpenAI

OpenAI 发布 GPT-5.5 Instant，该模型在健康相关问题上的表现与前端推理模型（如 o1）持平。每周超过 2.3 亿人通过 ChatGPT 咨询健康问题，新模型能更准确识别需要紧急护理的情况，主动询问相关背景，明确解释不确定性，并简化复杂医学术语。所有免费用户均可使用 GPT-5.5 Instant，无需订阅。此次改进基于医生主导的评估，确保了医疗场景下的可靠性。

AI模型 GPT-5.5 Instant OpenAI 健康推理模型 ChatGPT

推荐理由：OpenAI 把 GPT-5.5 Instant 的医疗问答能力做到了和自家顶级推理模型一样好，而且免费用户都能用，生病问AI更放心了。

原文