全部 AI 动态 · AI 热点

AITOP

6月24日

07:34

Mistral AI@MistralAI

Mistral 推出 OCR 4，独立标注员对600多份真实文档进行盲评，涵盖12种以上语言。在所有对比系统中，OCR 4 被优先选择，平均胜率达72%。该结果基于随机排序的双盲测试，标注员无法识别系统来源。

推荐理由：Mistral 的 OCR 4 盲测赢了所有对手，处理多国语言文档很稳，平均胜率72%，值得试试。

原文

06:03

OpenRouter@OpenRouterAI

OpenRouter 宣布提供 GLM 5.2 模型的所有服务商入口，共列出 20 个提供商。其中一条服务线路的推理速度超过 125 tokens/秒。用户可在单一页面比较并选择不同服务商。这标志着 GLM 5.2 的部署生态进一步开放。

AI模型 GLM 5.2 OpenRouter 开源模型推理模型高速推理

推荐理由：想用 GLM 5.2 但不清楚哪家快？OpenRouter 把 20 个提供商列在一起了，还能直接选超 125 TPS 的那条线。

原文

03:27

AK@_akhaliq

Ling and Ring 2.6 技术报告发布，展示了在万亿参数规模下实现高效且即时的智能体智能。该模型专注于 agentic intelligence 领域，通过优化架构和推理机制降低延迟。报告详细介绍了其训练方法、性能基准以及与传统大模型的对比结果。具体数字和基准名称需查阅完整报告。

AI模型 Ling and Ring 智能体万亿参数规模推理模型

推荐理由：想了解万亿参数级别的智能体模型怎么做吗？Ling and Ring 2.6 报告给出了具体方案。

原文

03:18

NVIDIA AI@NVIDIAAI

精选

NVIDIA发布DFlash，一种开源轻量级块扩散模型，专为投机解码设计。在NVIDIA Blackwell硬件上，DFlash可实现高达15倍的推理吞吐量提升，同时保持相同的用户交互响应速度。与传统逐token解码不同，DFlash一次生成整个token块，由主模型并行验证。该方案即插即用，已集成到SGLang、TensorRT-LLM和vLLM等框架中。

AI模型 DFlash NVIDIA Blackwell 投机解码开源模型

推荐理由：NVIDIA开源了DFlash，用块扩散投机解码让Blackwell推理提速15倍，还支持SGLang和vLLM，随手就能用。

原文

01:10

Milvus@milvusio

精选

Milvus 尝试跳过压缩步骤，直接在文档完整 embedding list 上建立 HNSW 图索引。该方法在 TREC-COVID 上 nDCG@10 达 0.98，远超 MUVERA、LEMUR 等方法的 0.87-0.89。端到端检索中 TREC-COVID 分数 0.516 与 BruteForce 完全持平，MS MARCO 上 0.957 接近精确上限的 0.966。但构建成本显著增大：MS MARCO 平均长度 87 时耗时 6 倍，TREC-COVID 长度 236 时达 18 倍。对于 ColQwen2 等每文档含 5143 个 patches 的长向量，该方法成本过高无法实用。实验揭示当前近似策略的质量损失主要源自向量压缩步骤而非 HNSW 索引本身。

AI模型 HNSW Milvus 嵌入列表索引向量检索近似搜索

推荐理由：Milvus 把 embedding 列表直接塞进 HNSW，质量几乎追上暴力搜索，比 MUVERA 高了一截，但成本也翻了 6-18 倍，长文档还不支持。适合对精度有极致需求的项目。

原文

01:02

LMSYS Org (SGLang)@lmsysorg

79°

与NVIDIA合作，在GB300上使用SGLang服务DeepSeek-V4，实现5倍吞吐量提升（~2,200→~11,200 tok/s/GPU，交互性~50 tok/s/user）。借助MTP，在80 tok/s/user交互性下吞吐再提升2.6倍。Blackwell Ultra聚合模式下30 tok/s/user时吞吐提升2.91倍，峰值无MTP吞吐提升超6倍。采用W4A4 MegaMoE量化（MXFP4）且精度损失可忽略。单个FP8-einsum修复将MTP接受率从0.57提至0.70。

AI模型 DeepSeek-V4 GB300 SGLang 推理优化 NVIDIA

推荐理由：想用SGLang在GB300上榨干DeepSeek-V4？NVIDIA合作实测，吞吐翻5倍，交互延迟不变，MTP和量化细节全公开。

原文

01:01

LMSYS Org (SGLang)@lmsysorg

精选

Krea 2 是由 Krea AI 推出的开源文本到图像模型，在独立评测机构 Artificial Analysis 上排名第一。它包含两个版本：RAW 为未蒸馏基座检查点，适合微调和 LoRA 训练；Turbo 为 8 步蒸馏检查点，实现快速高质量生成。用户可在 RAW 上训练 LoRA，在 Turbo 上进行推理，并已获得 SGLang 的 Day-0 支持。

AI模型 Krea 2 SGLang RAW Turbo 图像生成

推荐理由：Krea 2 开源了双版本，RAW 用来训练 LoRA，Turbo 跑推理，直接用 SGLang 就能跑，比闭源模型更灵活。

原文

00:57

AK@_akhaliq

PlanBench-XL是一个新基准，专门评估LLM工具使用智能体在包含数千个工具的大型生态系统中的长程规划能力。该基准通过构建复杂任务链，要求智能体在工具选择、参数传递和结果融合中做出多步决策。初步测试中，GPT-4和Claude 3.5等主流模型在PlanBench-XL上的平均成功率低于40%，暴露了当前模型在规划深度和工具协调上的局限。

AI模型 PlanBench-XL LLM 智能体工具使用长程规划

推荐理由：想看看你用的LLM在多工具长流程场景下到底多靠谱？PlanBench-XL用上千个工具设计了真实任务链，测出来主流模型成功率不到40%，值得一测。

原文

6月23日

23:26

歸藏(guizang.ai)@op7418

作者测试了 Seed 2.1 Pro，发现它在智能体和编程任务上的短板已被补上。该模型现在能更流畅地处理复杂代理场景。作者计划将 Seed 2.1 Pro 作为内容创作的主要模型。

AI模型 Seed 2.1 Pro 豆包智能体编程助手内容创作

推荐理由：豆包刚更新的 Seed 2.1 Pro，智能体和编程短板都补上了，做内容创作更顺手，可以试一下。

原文

20:25

berryxia@berryxia

Seedance 的视频生成模型在发布后展现出显著的领先优势，短期内其他模型难以追赶。该模型在视频生成质量、连贯性和一致性等方面表现突出，但具体基准数据未披露。

AI模型 Seedance 视频生成

推荐理由：Seedance 刚出的视频生成模型，效果确实碾压同行，还没看到能打的。

原文

20:18

SiliconFlowAI@siliconflowai

SiliconFlow 对 GLM-5.2、GPT-5.5、Opus 4.8 和 GLM-5.1 进行了同提示词测试。结果显示 GLM-5.2 在性能上逼近 Opus 4.8，同时输入成本仅为 Opus 的约 1/3.6，输出成本为约 1/5.7。这意味着用户可以在 SiliconFlow 平台上以大幅降低的成本获得接近 Opus 级别的前端生成能力。

AI模型 GLM-5.2 Opus 4.8 SiliconFlow 推理模型模型对比

推荐理由：SiliconFlow 测了 GLM-5.2，性能跟 Opus 4.8 差不多，但输入输出成本都低了好几倍，想省钱的可以试试。

原文

19:56

The Rundown AI@therundownai

日本AI实验室Sakana发布了编排模型，旨在提升多智能体协作效率。SpaceX将Colossus超级计算机租赁给Reflection AI用于训练。Google投资独立电影公司A24，联合开发AI电影制作工具。AI语音命令工具可实现打字时间减半。

AI模型 Sakana 编排模型 Colossus Reflection AI AI电影制作

推荐理由：Sakana的编排模型能协调多个AI任务，SpaceX租算力给Reflection AI，Google投A24造电影工具，每个都新鲜

原文

17:33

Aravind Srinivas@AravSrinivas

精选

Perplexity 的 Agent API 新增了对智谱 AI 旗舰模型 GLM-5.2 的支持。GLM-5.2 是目前最强的开源模型之一，在长周期编码和智能体工作流上表现突出。它充分利用了 Perplexity 的 Search as Code 架构，用户通过一次 API 调用即可结合前沿推理与实时程序化搜索。该接口兼容 OpenAI 格式，且 Perplexity 提供第一方定价，无额外加价。

AI模型 GLM-5.2 Perplexity Agent API 开源模型智能体

推荐理由：Perplexity Agent API 现在能调用 GLM-5.2 了，这个模型编码和智能体任务很强，还能边推理边搜索，价格也透明。

原文

14:56

向阳乔木@vista8

火山引擎在活动中透露Seeddance 2.5预计7月上线，具体定价未公布。Seedream 5.0 Pro新增箭头和高亮区块编辑功能。这些更新提升了视频和图像编辑的交互精度。

AI模型 Seeddance 2.5 Seedream 5.0 Pro 火山引擎视频生成图像编辑

推荐理由：火山引擎的Seeddance 2.5视频模型7月就来，Seedream 5.0 Pro还能加箭头高亮编辑，挺实用。

原文

14:46

向阳乔木@vista8

76°

百度发布Unlimited OCR，模拟人类抄书注意力模式，每生成一个token时参考完整图像和提示词，但输出侧仅回看前128个token。KV缓存固定为128长度，避免长文档推理时内存爆炸。在超长文档OCR任务上效果显著，已在GitHub和Hugging Face开源。

AI模型 UnlimitedOCR 百度 OCR 推理模型开源模型

推荐理由：百度开源了一个超聪明的OCR方案，用固定128 token缓存模拟人眼抄书，长文档不爆内存，快去试试！

原文

14:45

向阳乔木@vista8

百度近日开源了Unlimited OCR模型，参数量3B但仅需500M激活参数。该模型参考了滑动注意力窗口技术，在OCR任务上取得了出乎意料的好效果。轻量级设计使其更易于部署。

AI模型百度 Unlimited OCR OCR 开源模型滑动注意力

推荐理由：百度刚开源的Unlimited OCR，3B参数只激活500M，效果居然这么强，做OCR的赶紧看看。

原文

14:19

小互@imxiaohu

76°

Seedance 2.5能一次生成30秒短片，原生支持4K分辨率。它可输入最多50个全模台参考素材，并支持3D白模引导生成。同时字节跳动推出了AI版权商业化平台，允许用户使用官方授权IP进行创作并获取分成。

AI模型 Seedance 字节跳动视频生成 4K 3D模型

推荐理由：字节跳动新出的视频模型Seedance 2.5能一次生成30秒4K短片，还支持3D白模和50个素材输入，做视频效率很高。

原文

14:15

小互@imxiaohu

72°

字节跳动在今天2026火山引擎大会上发布视频生成模型Seedance2.5。语言模型豆包seed2.1据称能力达到Opus4.6水平。图像模型Seeddream 5.0也一同推出。

AI模型 Seedance2.5 豆包seed2.1 Seeddream 5.0 字节跳动视频生成

推荐理由：字节跳动一次更新三个模型：Seedance2.5视频生成、豆包seed2.1对标Opus4.6、Seeddream 5.0图像生成，值得关注。

原文

14:09

shao__meng@shao__meng

72°

字节跳动在火山引擎 FORCE 2026 原动力大会上发布 Seedream 5.0 Pro 图像生成模型和 Seedance 2.5 视频生成模型。OpenAI Sora 已关停，Google Veo 尚未更新，目前图像与视频生成赛道主要由中国厂商竞争，包括字节跳动、阿里巴巴、快手等。新模型在图像理解和视频生成能力上进一步升级。

AI模型 Seedream 5.0 Pro Seedance 2.5 字节跳动火山引擎图像生成视频生成

推荐理由：字节跳动刚发了两个新模型，图像和视频生成都升级了，中国大厂继续内卷，可以看看

原文

14:06

lmarena.ai@lmarena_ai

NVIDIA 的 Cosmos 3 Super 在 Text-to-Image Arena 开放模型排名中位列第8和第11（两个变体），整体排名第49和第54。其中 #8 的 Cosmos-3-Super-Text2Image 与 Flux-2-Klein-9B 和 Qwen Image Prompt Extend 持平。#11 的 Cosmos-3-Super-Text2Image (Agentic) 与 Qwen-Image 和 Ideogram-v3-Quality 等模型持平。这些排名体现了 NVIDIA 对开源生态的贡献。

AI模型 Cosmos-3-Super NVIDIA Text-to-Image Arena 文本到图像开源模型

推荐理由：NVIDIA 这个开源文生图模型在排行榜上跟 Flux、Qwen 差不多水平，想试试免费好用的生成工具可以关注它。

原文

14:03

elvis@omarsar0

Sakana AI推出Fugu Ultra模型，这是一个可通过单个API调用的多智能体编排系统。Fugu Ultra在3D渲染任务上表现极佳，性能与Fable和Mythos相当，同时避免了出口管制风险。该模型展示了无需受限制即可获得前沿能力。

AI模型 Sakana AI Fugu Ultra Fable Mythos 多智能体

推荐理由：Sakana AI的Fugu Ultra多智能体系统，3D渲染强到离谱，性能比肩Fable和Mythos，还不用怕出口管制，快去试试。

原文

13:55

Geek@geekbb

精选

百度开源了一个基于DeepSeek-OCR升级的视觉语言模型OCR项目，支持一次性解析超长文档。该模型提供两种推理模式：gundam模式用于处理单张图片中的密集文字，base模式适用于多页文档或PDF。项目代码已在GitHub上发布，允许开发者直接使用。

AI模型百度 DeepSeek-OCR 视觉语言模型 OCR 开源模型

推荐理由：百度开源的OCR模型，在DeepSeek-OCR上做了升级，能一次性处理超长文档和密集文字，两种模式很实用。

原文

10:33

berryxia@berryxia

百度开源的 Unlimited OCR 模型采用 R-SWA 注意力机制，支持 32K 上下文窗口，一次前向推理即可完成几十页文档的转录。其核心卖点是 One-Shot Long-Horizon Parsing，无需分页处理，KV Cache 大小恒定。技术报告提到该模型融合了来自 DeepSeek-OCR 的高压缩编码器，且部分核心贡献者与 DeepSeek 有渊源。

AI模型 Unlimited OCR 百度 R-SWA OCR 开源模型

推荐理由：百度搞了个挺牛的 OCR 模型，能一口气读几十页，不像以前那样一页一页循环。开源了，谁都能试试。

原文

08:05

berryxia@berryxia

百度开源了Unlimited OCR模型，采用R-SWA（参考滑动窗口注意力）机制，一次前向推理即可处理32K上下文的文档，数十页PDF无需分块。与传统逐页处理的OCR不同，其KV Cache大小恒定，不随长度增长。模型灵感源于人类抄书行为，仅维护近128个状态。技术报告核心贡献者中，技术总监YY疑为DeepSeek前员工。

AI模型 Unlimited OCR 百度 DeepSeek R-SWA 文档理解

推荐理由：百度开源的Unlimited OCR能一口气读完几十页PDF，不用切块，快又准。技术总监YY可能是DeepSeek出走的，有意思。

原文

03:24

elvis@omarsar0

精选

Sakana AI推出Fugu Ultra多智能体编排系统，通过单一模型API即可调用。在程序化地形生成（Three.js）测试中，Fugu Ultra一次生成效果与Fable和Mythos相当。该模型规避了出口管制风险，属于前沿能力级别。

AI模型 Sakana Fugu Ultra 智能体程序化生成

推荐理由：Sakana AI悄悄上了个Fugu Ultra，多智能体编排直接一个API搞定，性能追上Fable和Mythos，还不用怕出口管制，值得试试。

原文

02:43

SiliconFlowAI@siliconflowai

GLM-5.2 在 Designarena 的 HTML Web Design 排行榜上取得第一，超越了此前长期占据榜首的 Claude Opus 4.6 和 4.7。该模型已通过 SiliconFlow API 提供使用。开发者可以立即调用 GLM-5.2 构建 HTML 网页设计项目。

AI模型 GLM-5.2 Claude Opus SiliconFlow Designarena 编程助手

推荐理由：HTML 设计排行榜上 GLM-5.2 干掉了 Claude，现在就能用 SiliconFlow 的 API 上手，写网页贼快。

原文

02:26

LangChain@LangChainAI

LangChain 宣布其通用开发者工具 dcode 现已支持 GLM 5.2 模型。用户可直接在 dcode 中运行该开源模型，无需额外配置。dcode 是提供商无关的工具，也兼容其他最新的开源模型。详情可查阅 LangChain 文档。

AI模型 GLM 5.2 dcode LangChain 开源模型

推荐理由：LangChain 出了个叫 dcode 的工具，现在能跑 GLM 5.2 模型了，而且是开源的，想尝鲜直接上手。

原文

00:47

berryxia@berryxia

精选72°

百度在Hugging Face上开源了Unlimited-OCR模型，其核心创新是R-SWA（Reference Sliding Window Attention），让KV Cache保持恒定，避免随页数爆炸。该模型可一次性解析单张图或多页PDF，在OmniDocBench上获得93分，比DeepSeek-OCR高出6个百分点。它取代了传统“分块+拼接”流程，实现端到端长文档理解，输出质量更高。

AI模型 Unlimited-OCR 百度 OmniDocBench DeepSeek-OCR OCR

推荐理由：百度开源了Unlimited-OCR，几百页文档一次搞定，不用分块拼接，速度稳准狠，OmniDocBench上93分压了DeepSeek-OCR一头。

原文

00:23

AK@_akhaliq

PerceptionDLM是一个新提出的多模态扩散语言模型，能够并行地感知图像中的多个区域。该模型结合了扩散模型的生成能力和语言模型的推理能力，支持多区域联合理解。它在一系列视觉定位和区域描述任务上展示了优越性能，但具体基准名称和数值未在原文中提及。

AI模型 PerceptionDLM 多模态扩散语言模型区域感知

推荐理由：这是一个新模型，能用多模态扩散语言模型同时理解图片里的多个区域，跟以前的单区域方法不一样。

原文

6月22日

20:53

Guillermo Rauch@rauchg

Sakana 公司发布 Fugu Ultra 模型，通过 Vercel 的 AI Gateway 提供调用。该模型被描述为 Mythos-class（神话级）智能。用户只需一次 API 调用即可访问，背后由多个模型组成。目前已在 Vercel AI Gateway 上线。

AI模型 Sakana Fugu Ultra Vercel AI Gateway

推荐理由：Sakana 的 Fugu Ultra 模型上线 Vercel 了，一次调用就能用上多个模型，号称神话级智能，想尝鲜的可以试试。

原文

15:27

AI Will@FinanceYF5

该视频记录了Mntruell在Compile会议上宣布Cursor新模型的完整过程。视频未透露模型版本号或基准测试结果，只展示了发布现场。观众可通过视频了解新模型的基本定位和功能方向。

AI模型 Cursor Mntruell Compile 编程助手

推荐理由：想第一时间知道Cursor新发布什么模型？这是Mntruell在Compile上的完整宣布视频，直接看干货。

原文

14:27

The Rundown AI@therundownai

精选73°

日本Sakana AI发布了Fugu和Fugu Ultra模型。Fugu Ultra采用多智能体编排系统，整合多种模型协同工作。在多个基准测试中，Fugu Ultra达到Fable和Mythos模型的性能水平。模型通过单一API提供，声称可规避出口管制风险。

AI模型 Sakana AI Fugu Fugu Ultra 多智能体

推荐理由：Sakana AI搞了个新玩法，用多个小模型组团干活，性能追平Fable和Mythos，还不用怕出口限制，搞AI的值得看看。

原文

12:24

歸藏(guizang.ai)@op7418

Anthropic已训练完成更强版本的Mythos模型，可能命名为Mythos 5.1或Mythos 6。目前不确定是否会公开发布或仅用于内部加速开发。消息称停止发布Fable 5或Mythos 5不会减慢进展，反而释放资源。竞争压力来自开源模型如GLM-5.2，迫使前沿实验室持续训练更强系统。

AI模型 Anthropic Mythos GLM-5.2 推理模型开源模型

推荐理由：有人说Anthropic偷偷训了个更强的Mythos，但可能不对外放。想了解AI前沿动态可以看看。

原文

06:54

@koltregaskes@koltregaskes

据传闻，GPT-5.6将在前端开发方面有显著提升，类似于Claude Design的Codex设计工具。5.6和5.6 Pro版本可能在下周四发布。同时，用户也在期待Sonnet 5和Gemini 3.5 Pro的更新。

AI模型 GPT-5.6 Sonnet 5 Gemini 3.5 Pro 前端开发编程助手

推荐理由：GPT-5.6据说前端开发更强了，还有5.6 Pro，下周四可能发布。

原文

03:49

@koltregaskes@koltregaskes

X用户koltregaskes分享的截图显示，ChatGPT在一段对话中回复需要更多时间进行检查，暗示GPT-5.6可能引入更严格的安全机制。目前OpenAI官方未对此消息确认。GPT-5.6是传闻中的下一代模型，但具体发布时间与功能细节仍未公布。

AI模型 GPT-5.6 OpenAI AI安全

推荐理由：OpenAI可能推出的GPT-5.6会增加安全检查，想提前了解变化可以看看这个讨论。

原文

03:49

@koltregaskes@koltregaskes

Anthropic正在准备更新Claude Mythos模型，版本可能从当前跳至5.1。升级到版本6的可能性较低，除非Sonnet和Opus也同步升级。目前尚不确定是否公开发布。

AI模型 Anthropic Claude Mythos 5.1 模型更新版本升级

推荐理由：Anthropic又在迭代模型了，这次可能是Mythos 5.1，跟Sonnet和Opus版本联动，不知道会不会公开。

原文

00:42

@koltregaskes@koltregaskes

78°

X用户koltregaskes发现字符串"claude-sonnet-5"出现在某个位置，暗示Anthropic可能即将发布新模型。Claude Sonnet系列是Anthropic的中端模型，上一代为Claude Sonnet 4（2024年发布）。本次发现意味着Sonnet 5可能已在内部测试或即将进入公开阶段。目前Anthropic尚未官方确认该模型的存在或发布时间线。

AI模型 Claude Sonnet 5 Anthropic 模型更新

推荐理由：有用户在X上扒到了Claude Sonnet 5的名字，说明Anthropic可能马上要出新模型了，关注Claude的朋友可以看看这个线索。

原文

6月21日

17:54

shao__meng@shao__meng

社交媒体上发起LLM对比投票，比较GLM-5.2和Gemini 3.5 Flash。投票结果倾向GLM-5.2，用户认为Gemini 3.5 Flash表现不佳。评论指出Google DeepMind自Gemini 3.0多模态发布后缺乏亮眼进展。讨论焦点集中在国产模型与Google模型的性能差距。

AI模型 GLM-5.2 Gemini 3.5 Flash Google DeepMind 模型对比推理模型

推荐理由：看看大家投票选GLM-5.2还是Gemini 3.5 Flash，很多人觉得Gemini近期的模型不太能打。

原文

15:25

@koltregaskes@koltregaskes

GLM-5.2 在 DeepSWE 编程基准上取得 44% 的得分，超过 Kimi-K2.7 Code，成为目前最强的开源模型。不过它的运行成本更高，且每次输出更多 tokens。与封闭模型相比，Claude Fable 5 以 70% 的得分领先，差距明显。

AI模型 GLM-5.2 Kimi-K2.7 DeepSWE 开源模型代码生成

推荐理由：智谱的 GLM-5.2 代码上刚赢了 Kimi 的 K2.7，但更贵输出也更多，离顶级闭源还有距离。

原文

15:18

AI Will@FinanceYF5

精选

Anthropic在2月完成新模型Mythos的训练。Mythos悄然改变了整个研发节奏。过去5个月AI能力跃升部分源于Mythos。领先模型正帮助训练下一代模型，该循环已启动。

AI模型 Mythos Anthropic 推理模型模型迭代

推荐理由：Anthropic悄悄练成了Mythos，据说它直接改变了研发节奏，领先模型开始帮训练下一代模型了。

原文