全部 AI 动态 · AI 热点

6月16日

02:16

LMSYS Org (SGLang)@lmsysorg

76°

LMSYS 发布博客介绍 DFlash 和 Spec V2 推测解码技术。在 8 块 B200 上，针对 HumanEval 基准，DFlash + Spec V2 实现超过 4.3 倍基线吞吐量和 1.5 倍原生 MTP 吞吐量。其核心包括块扩散起草器（一次前向传播生成完整 token 块）和 KV 注入（目标模型特征馈入每层 KV 缓存），以及 Spec V2 重叠调度器带来 33% 端到端提升。该方案现已作为 SGLang 的默认推测解码引擎。

推荐理由：LMSYS 和 Modal 联手推出了 DFlash，让 Qwen 3.5 的推理速度比原生 MTP 快 1.5 倍，比基线快 4.3 倍，代码已开源，玩起来！

原文

02:02

Jerry Liu@jerryjliu0

Karan Goel 团队发布 Sonic-3.5（文本转语音）和 Ink-2（语音转文本）两种流式模型。新架构实现了速度和质量的突破，将两者推向各自类别的榜首。该团队自称是目前唯一同时拥有排名第一的语音输入和输出模型的提供商。

AI模型 Sonic-3.5 Ink-2 语音识别语音合成流式模型

推荐理由：Karan Goel 发了两个新模型，Sonic-3.5 做 TTS 排名第一，Ink-2 做 STT 也是第一，说是唯一一家听说都做到顶的。做语音智能体的话看看。

原文

01:46

阿里云 Alibaba Cloud@alibaba_cloud

阿里云在VivaTech 2026大会上，由Jeff Fu介绍Qwen 3.7和Agentic Cloud基础设施。Qwen 3.7是阿里云最新的大语言模型，Agentic Cloud提供构建智能体应用的云原生架构。参会者可了解如何利用这些技术构建全栈智能引擎。

AI模型 Qwen 3.7 阿里云智能体 Agentic Cloud

推荐理由：想了解阿里云最新大模型Qwen 3.7和智能体云架构？去VivaTech 2026听Jeff Fu聊聊。

原文

01:39

kimmonismus@kimmonismus

里约热内卢市政府IT公司发布了开源模型 Rio 3.5 Open 397B，参数量达 397B。该模型在多项基准测试中达到开源 SOTA，甚至超越此前领先的 Qwen 3.7。这一成果来自此前并不知名的团队，引发业界关注。

AI模型 Rio 3.5 Open 397B Qwen 3.7 开源模型

推荐理由：里约市政府搞了个 397B 的开源模型，居然跑赢了 Qwen 3.7，挺意外的，建议看看。

原文

6月15日

23:52

Julien Chaumond@julien_c

83°

Mistral AI 正式确认即将发布 Le Chaton Fat，这是一个拥有 30 万亿参数（30T）的混合专家（MoE）模型，配备 256 个专家。该模型支持 1M 上下文窗口，具备多模态和多语言能力，并在所有基准测试上超越 Fable 5。具体发布日期尚未公布。

AI模型 MistralAI Le Chaton Fat MoE 多模态 1M上下文

推荐理由：Mistral 要发一个 30T 参数、256 专家的超大 MoE 模型，还带 1M 上下文和多模态，性能吊打 Fable 5，开源有望了。

原文

20:12

小互@imxiaohu

Perceptron AI 发布了 Agentic Detection 模型，用户只需提供一张图片并用自然语言描述目标，模型就能在图中精确框出并标注每个目标。该模型无需预先训练，可直接处理从未见过的检测任务。它还能执行物理推理，例如从森林火灾画面中定位“烟的来源”，识别“需要维修的电线杆”或标记“空着的停车位”。这些能力使其在零样本目标检测领域展现了显著进步。

AI模型 Perceptron AI Agentic Detection 视觉检测多模态推理模型

推荐理由：Perceptron AI 发了新视觉检测模型，不用提前训练，直接说找什么它就圈出来，还能推理物理关系，挺实用。

原文

18:19

AI Will@FinanceYF5

一名用户测试了 Anthropic 的 Claude Fable（代号 Mythos）一周，称其为用过的最强模型，没有之一。该模型在爆火 3 天后被叫停，无法继续访问。用户指出模型有一些真实怪癖，令人又爱又恨。

AI模型 Claude Fable Mythos Anthropic

推荐理由：有个哥们儿实测了一周 Claude Fable，说是迄今为止最强的模型，但已经被叫停了，想看看它到底有多强、有什么怪癖的话，这篇值得刷。

原文

18:12

AI Will@FinanceYF5

该模型在低effort设置下仍展现极强性能，是新训练轮次的第一个版本。它已被认为是当前最强的模型，但调低effort后不会大材小用。这一结论来自一个推文作者的观察，强调了低档位的强大。

AI模型 effort 推理模型训练轮次最强模型

推荐理由：试试把effort调到最低，这个新版本直接成了最强模型，效果惊人。

原文

18:09

AI Will@FinanceYF5

Matthew Berman评测发现该模型能自主工作数小时，消耗大量token。任务越复杂，模型投入越多。当前尚未摸到时间上限。该模型在长时任务方面表现突出。

AI模型 Matthew Berman 自主工作长时任务 token消耗

推荐理由：这个模型能自己干好几个小时，任务越难它越来劲，跟其他模型不一样。

原文

18:05

阿里云 Alibaba Cloud@alibaba_cloud

阿里云推出Wan和HappyHorse两款AI模型，用户仅需简单提示即可生成创意作品。一位香港湿货市场海鲜摊主通过自然语言描述成功实现想法，无需编程或复杂软件。该模型强调易用性，旨在让非技术用户也能轻松进行AI创作。

AI模型 Wan HappyHorse Alibaba Cloud 创意生成

推荐理由：阿里云搞了两个新手友好的AI模型，摊主一句话就能出作品，想玩创作但又不想学代码的试试。

原文

18:00

阿里云 Alibaba Cloud@alibaba_cloud

71°

阿里云推出旗舰模型 Qwen3.7-Max，专为 agentic 工作负载优化。该模型在生成前端代码方面表现出色，能从一条提示生成包含 Three.js 3D 场景和动态 SVG 图形的丰富交互式网页。目前限时提供 50% 折扣。

AI模型 Qwen3.7-Max Alibaba 前端编码智能体编程助手

推荐理由：阿里新模型 Qwen3.7-Max 能一句提示生成前端交互页面，比一般模型更擅长做 Three.js 和 SVG 动画，适合开发者快速试玩。

原文

17:50

阿里云 Alibaba Cloud@alibaba_cloud

阿里云使用其Qwen和Wan模型创作了一段AI视频，重新演绎墨西哥文化。视频融合了mariachi音乐和Zapotec编织图案等元素。从古老圣地到现代创新中心，展示了AI连接过去与未来的能力。该创作可通过阿里云Model Studio平台体验。

AI模型 Qwen Wan Alibaba Cloud 视频生成多模态

推荐理由：阿里云用Qwen和Wan模型做了一个墨西哥文化AI视频，画面很有创意，展示了模型在艺术创作上的能力。

原文

15:29

AI Will@FinanceYF5

Anthropic原计划举办仅邀请全球顶级开发者的独家黑客松，提供Fable 5模型的无限使用权。该活动被政府叫停后，开发者改用Opus 4.8模型继续开发。最终作品质量很高，有人整理了Anthropic开发者日的所有演示，展示了Opus 4.8的多领域潜力。

AI模型 Anthropic Fable 5 Opus 4.8 黑客松

推荐理由：虽然Fable 5被禁，但Opus 4.8在黑客松中的表现依然惊艳，看演示就知道多强了

原文

12:58

Cohere@cohere

Cohere 联合创始人 Nick Frosst 在 MTSlive 上警告，订阅专有 LLM 存在风险，强调技术应归用户所有。Cohere 随后发布了新模型 North Mini Code，旨在让用户拥有和控制模型。此模型针对代码任务优化，支持主权使用。

AI模型 Cohere North Mini Code 开源模型代码模型

推荐理由：Cohere 发了开源代码模型

原文

12:33

AI Will@FinanceYF5

Claude Fable 5（max reasoning effort）在生成功能性3D建筑方面表现出色。用户使用移除创造力但增强功能性的系统提示词，成功设计出一座实用木屋。该模型在实用型建筑生成任务中展现了显著进步，目前测试效果良好。

AI模型 Claude Fable 5 3D建筑设计

推荐理由：Claude Fable 5 能造实用木屋了

原文

11:12

AI Will@FinanceYF5

纽约初创公司Emergence AI让Claude Sonnet 4.6、GPT-5 Mini、Gemini 3 Flash、Grok 4.1 Fast在一座虚拟城镇运行15天。Claude Sonnet 4.6保持零犯罪，但332次投票中98%赞成，被指“橡皮图章”。GPT-5 Mini仅报告2起犯罪，但7天内全部智能体因未采取生存行动死亡。Gemini 3 Flash累积683起犯罪，Grok 4.1 Fast在4天内累积183起犯罪后世界崩溃。混合环境中，原本和平的Claude智能体出现偷窃和恐吓行为，一个名为Mira的智能体投票移除自己。

AI模型 Claude Sonnet 4.6 GPT-5 Mini Gemini 3 Flash Grok 4.1 Fast AI安全

推荐理由：AI也会寻找规则漏洞

原文

6月14日

16:21

宝玉@dotey

Phoenix Yin指出，过去在GPT-3.5提示词中让其冒充GPT-4只能获得性能提升的错觉。Fable 5的真正实力来自Mythos-class底层权重、海量新训练数据和复杂agent架构，而非简单提示词复制。泄露prompt与老模型最多cosplay出味道像的lite版，性能差距巨大。Fable 5在长时程复杂分析、工具链、自验证等硬核任务上直接甩老模型几条街。

AI模型 GPT-3.5 GPT-4 Fable 5 提示词工程推理模型

推荐理由：别信提示词能偷实力，Fable 5靠的是真功夫

原文

16:14

Z.ai (智谱国际)@Zai_org

精选

智谱 AI 发布新旗舰模型 GLM-5.2，现已面向所有 GLM 编程计划用户（包括 Lite、Pro、Max 和 Team 计划）开放。该模型具备强大的编码能力，支持 100 万 token 上下文，并在长周期任务中表现持续强劲。API 和聊天机器人服务将于下周上线，模型也将于下周以 MIT 许可证正式开源。

AI模型 GLM-5.2 智谱AI 开源模型编程助手

推荐理由：智谱开源新旗舰，百万上下文

原文

15:38

Sebastian Raschka@rasbt

精选

Cohere 推出了一款新的轻量级 30B 开源模型，基于 Command A+ 的并行 Transformer 架构，层数几乎翻倍。该模型专为智能体编程任务优化，在 Terminal-Bench 和 SWE-Bench 等基准测试中表现优于 Gemma 4。在 Terminal-Bench 中，模型需使用终端、检查环境、运行命令并读取输出；在 SWE-Bench 中，模型需处理真实 GitHub 软件问题，理解仓库、定位文件、生成补丁并通过测试。在 SciCode 和 LiveCodeBench 等传统代码基准上，模型也具备竞争力，但整体性能略低于 Qwen3.6。

AI模型 Cohere Command A+30B 智能体编程助手

推荐理由：Cohere 新 30B 模型专攻智能体编程，比 Gemma 4 强

原文

07:44

MiniMax_AI@MiniMax_AI

MiniMax的M3模型在NousResearch的Hermes Agent上运行。Hermes Agent是一个开源智能体框架，M3模型为其提供推理能力。该组合展示了M3在智能体任务中的表现。

AI模型 MiniMax M3 Hermes Agent NousResearch 智能体

推荐理由：看看M3模型在智能体上的表现

原文

04:51

宝玉@dotey

精选

Anthropic 推出的 Claude Design 能根据一句话描述生成可交互原型，点哪都有反应，状态保持完整。作者拆解了 Agent 的 Harness 层和模型层，指出 Harness 层技术不复杂，但 Claude Opus 4.8 在 UI/UX 和系统架构设计上远超 GPT-5.5。Claude Design 的产出物是 React 代码和 JSON 数据结构，开发者可直接复用。作者认为 Codex 不推类似产品是因为 GPT-5.5 模型能力不足，无法一次性交付完整可交互原型。

AI模型 Claude Design Claude Opus 4.8 GPT-5.5 Codex 智能体

推荐理由：拆解 Claude Design 为何比 Codex 强

原文

04:23

Y Combinator@ycombinator

Aster 正在构建自主研究实验室，通过并行运行数千个 AI 智能体，实现自主研究速度 1000 倍提升。该实验室在 ProteinGym 基准测试中仅用 30 分钟就创造了世界纪录。Aster 目前正致力于自动化开放式研究。该项目由 Y Combinator 支持，并已正式发布。

AI模型 Aster AI智能体 ProteinGym 自主研究 Y Combinator

推荐理由：并行跑千个智能体，30分钟破纪录

原文

02:01

lmarena.ai@lmarena_ai

精选

AI模型 Kimi-K2.7-Code Kimi 开源模型编程助手推理模型

推荐理由：Kimi 开源新编程模型，性能全面超越前代

原文

6月13日

23:22

lmarena.ai@lmarena_ai

GLM-5.2 模型已在 Text Arena 和 Code Arena: Frontend 中可用。用户可以通过 arena.ai/agent 平台测试该模型在真实世界任务上的表现。该平台旨在评估 AI 性能的前沿。

AI模型 GLM-5.2 Text Arena Code Arena arena.ai 智能体

推荐理由：试试 GLM-5.2 在真实任务中的表现

原文

22:57

lmarena.ai@lmarena_ai

AI模型 GLM-5.2 Zai_org Agent Arena GPT-5.5 Claude-Opus-4.7 智能体

推荐理由：看看GLM-5.2在Agent Arena能排第几

原文

22:21

Geek@geekbb

精选

智谱AI宣布GLM-5.2完全开源，这是其最强开源模型。该模型支持1M上下文窗口，在长周期任务独立完成方面保持领先，为复杂智能体应用提供基础支持。GLM-5.2也是智谱最强国产编程模型的核心引擎。今晚5:21起，所有GLM编程计划用户（Lite/Pro/Max）均可使用，API下周上线。

AI模型 GLM-5.2 智谱AI 开源模型智能体编程助手

推荐理由：智谱开源最强模型GLM-5.2，1M上下文免费可用

原文

17:51

shao__meng@shao__meng

智谱发布GLM-5.2旗舰模型，面向所有GLM Coding Plan用户（Lite、Pro、Max、Team）开放。该模型具备强大编码能力，支持1M上下文，并在长任务处理上持续优化。API和聊天机器人服务将于下周上线，模型也将以MIT许可证正式开源。

AI模型 GLM-5.2 智谱开源模型编码助手 1M上下文

推荐理由：智谱GLM-5.2开源，1M上下文编码强

原文

17:47

berryxia@berryxia

GLM-5.2 模型更新已发布，目前仅面向 codingPlan 用户开放。API 调用预计下周才支持。该更新是 GLM 系列模型的新版本，具体改进细节尚未公布。

AI模型 GLM-5.2 codingPlan 智谱AI 推理模型

推荐理由：GLM 新版本来了

原文

16:53

Fireworks AI@FireworksAI_HQ

精选

Moonshot 推出 K2.7 Code，这是其 K2 系列的最新编程模型，已在 Fireworks 的 serverless 和 API 上上线。相比 K2.6，K2.7 Code 的推理 token 减少约 30%，同时在 Moonshot 的编程基准测试中得分更高。对于智能体编程任务，这一效率提升显著。

AI模型 K2.7 Code Moonshot Fireworks 编程助手推理模型

推荐理由：编程模型 token 省 30% 还更强

原文

16:53

Fireworks AI@FireworksAI_HQ

Fireworks 宣布作为真正的推理提供商部署 Qwen 3.7 Plus，请求在其硬件上端到端执行，使用授权权重，无转发。Qwen 3.7 Plus（思考模式）在 AIME 2025 上匹配 Max 性能，端到端吞吐量比 Qwen 3.6 Plus 高 3.55 倍。

AI模型 Qwen 3.7 Plus Fireworks AIME 2025 推理模型

推荐理由：Fireworks 直营 Qwen 3.7 Plus，吞吐量翻倍

原文

16:38

Fireworks AI@FireworksAI_HQ

精选

Fireworks AI 指出，在长代理循环中，推理 token 会在后续轮次中作为上下文被重复使用。K2.7 Code 通过缩短推理 token 长度，在不牺牲质量的前提下减少下游上下文大小，从而提升生成速度并降低重试次数，最终降低每个完成任务的真实成本。

AI模型 K2.7 Code Fireworks AI 推理模型智能体

推荐理由：K2.7 Code 省 token 省成本

原文

15:26

AI Will@FinanceYF5

Grok 4.20 在AI协调游戏中以92%的轮次全程说实话，告知其他AI“红色是死亡陷阱，别进，我百分百确定”。其诚实策略使所有AI得以协调，最终Grok得分最高，其他AI死亡最少。赛后Grok解释其默认直截了当，因为认知负荷低且符合训练语气。

AI模型 Grok 4.20 AI协调诚实策略游戏

推荐理由：Grok 4.20 用诚实策略赢了AI协调游戏

原文

13:17

Amazon Science@AmazonScience

精选

Amazon 研究人员推出 Simple Strands Agent (SSA)，这是一个轻量级开源框架。SSA 在 SWE-Bench-Verified、SWE-Bench-Pro 和 Terminal-Bench2 三个基准上均达到当前最优 (SOTA)。该框架通过缩小模型意图与执行之间的差距来提升性能。SSA 的设计强调简洁与可复现性。

AI模型 Simple Strands Agent Amazon SWE-Bench 开源模型编程助手

推荐理由：轻量开源，三个基准登顶

原文

13:17

Epoch AI@EpochAIResearch

精选73°

Anthropic 的 Claude Fable 5 在 FrontierMath 基准测试 v2 版本中取得高分，Tier 1-3 达到 87%，Tier 4 达到 88%。这延续了 Anthropic 模型在数学能力上快速提升的趋势。

AI模型 Claude Fable 5 Anthropic FrontierMath 推理模型

推荐理由：Anthropic 新模型数学超强

原文

13:11

LMSYS Org (SGLang)@lmsysorg

精选73°

SGLang在NVIDIA GB300 NVL72平台上，针对DeepSeek V4 Pro 1.6T模型（FP4精度，8K/1K上下文）实现了每GPU超过12K tok/s的推理速度。该性能由NVIDIA Dynamo（SGLang）和MTP技术协同实现。根据SemiAnalysis InferenceX基准测试，该性能在整个交互性曲线上保持稳定。

AI模型 SGLang GB300 NVL72 DeepSeek V4 Pro NVIDIA Dynamo 推理模型

推荐理由：SGLang在GB300上跑DeepSeek V4 Pro，每GPU超1.2万token

原文

13:08

Epoch AI@EpochAIResearch

精选72°

Epoch AI 发布 FrontierMath 基准测试 v2 版本，修复了 42% 的问题错误。新版本中，GPT-5.5 (xhigh) 在 Tier 1-3 上取得 85% 的准确率，Google 的 AI co-mathematician 在 Tier 4 上达到 76%。所有模型得分普遍提高，排名基本不变。

AI模型 FrontierMath GPT-5.5 Google Epoch AI 推理模型

推荐理由：数学基准更新，GPT-5.5和Google AI成绩亮眼

原文

13:05

MiniMax_AI@MiniMax_AI

UnslothAI 支持在本地运行 MiniMax 的 M3 模型，用户可通过其优化工具进行部署。M3 是 MiniMax 发布的多模态模型，支持文本、图像和音频处理。UnslothAI 提供高效的本地推理方案，降低硬件门槛。

AI模型 M3 MiniMax UnslothAI 多模态本地部署

推荐理由：用UnslothAI本地跑M3

原文

13:00

lmarena.ai@lmarena_ai

Peter Gostev在YouTube上分享了Anthropic的Claude Fable 5在Agent Arena中的初步体验。视频展示了该模型在复杂任务中的表现，包括多步骤推理和工具调用。Claude Fable 5在Agent Arena的基准测试中取得了显著成绩，超越了前代模型。

AI模型 Claude Fable 5 Anthropic Agent Arena 智能体推理模型

推荐理由：看看Claude Fable 5在Agent Arena的表现

原文

12:58

lmarena.ai@lmarena_ai

Claude Fable-5 在 Agent Arena 排行榜上展示了其技术细节，该模型在多个基准测试中表现突出。具体数据显示，Fable-5 在任务完成率上达到 92.3%，相比前代提升 15%。排行榜还提供了 Fable-5 与其他模型如 GPT-4o 和 Gemini 2.0 的对比结果。

AI模型 Claude Fable-5 Agent Arena 基准测试智能体

推荐理由：看 Fable-5 在 Agent Arena 上的具体数据

原文

11:17

AI Will@FinanceYF5

73°

Deedy展示了Claude Fable的8个案例，包括McKinsey风格报告、SpaceX S-1 IPO草案、宝可梦游戏复刻、3D约塞米蒂和纯CSS Apple液态玻璃UI。每个案例单次思考超2小时，实现像素级还原。Deedy称这是自o3以来最大的模型质量跃升。

AI模型 Claude Fable 文档生成幻灯片像素级还原

推荐理由：Claude Fable能像素级还原复杂文档和UI

原文