07:34Mistral AI@MistralAIMistral 推出 OCR 4,独立标注员对600多份真实文档进行盲评,涵盖12种以上语言。在所有对比系统中,OCR 4 被优先选择,平均胜率达72%。该结果基于随机排序的双盲测试,标注员无法识别系统来源。AI模型MistralOCR 4OCR文档识别多语言推荐理由:Mistral 的 OCR 4 盲测赢了所有对手,处理多国语言文档很稳,平均胜率72%,值得试试。原文
06:03OpenRouter@OpenRouterAIOpenRouter 宣布提供 GLM 5.2 模型的所有服务商入口,共列出 20 个提供商。其中一条服务线路的推理速度超过 125 tokens/秒。用户可在单一页面比较并选择不同服务商。这标志着 GLM 5.2 的部署生态进一步开放。AI模型GLM 5.2OpenRouter开源模型推理模型高速推理推荐理由:想用 GLM 5.2 但不清楚哪家快?OpenRouter 把 20 个提供商列在一起了,还能直接选超 125 TPS 的那条线。原文
03:27AK@_akhaliqLing and Ring 2.6 技术报告发布,展示了在万亿参数规模下实现高效且即时的智能体智能。该模型专注于 agentic intelligence 领域,通过优化架构和推理机制降低延迟。报告详细介绍了其训练方法、性能基准以及与传统大模型的对比结果。具体数字和基准名称需查阅完整报告。AI模型Ling and Ring智能体万亿参数规模推理模型推荐理由:想了解万亿参数级别的智能体模型怎么做吗?Ling and Ring 2.6 报告给出了具体方案。原文
03:18NVIDIA AI@NVIDIAAI精选NVIDIA发布DFlash,一种开源轻量级块扩散模型,专为投机解码设计。在NVIDIA Blackwell硬件上,DFlash可实现高达15倍的推理吞吐量提升,同时保持相同的用户交互响应速度。与传统逐token解码不同,DFlash一次生成整个token块,由主模型并行验证。该方案即插即用,已集成到SGLang、TensorRT-LLM和vLLM等框架中。AI模型DFlashNVIDIABlackwell投机解码开源模型8 个信源在谈推荐理由:NVIDIA开源了DFlash,用块扩散投机解码让Blackwell推理提速15倍,还支持SGLang和vLLM,随手就能用。原文
01:10Milvus@milvusio精选Milvus 尝试跳过压缩步骤,直接在文档完整 embedding list 上建立 HNSW 图索引。该方法在 TREC-COVID 上 nDCG@10 达 0.98,远超 MUVERA、LEMUR 等方法的 0.87-0.89。端到端检索中 TREC-COVID 分数 0.516 与 BruteForce 完全持平,MS MARCO 上 0.957 接近精确上限的 0.966。但构建成本显著增大:MS MARCO 平均长度 87 时耗时 6 倍,TREC-COVID 长度 236 时达 18 倍。对于 ColQwen2 等每文档含 5143 个 patches 的长向量,该方法成本过高无法实用。实验揭示当前近似策略的质量损失主要源自向量压缩步骤而非 HNSW 索引本身。AI模型HNSWMilvus嵌入列表索引向量检索近似搜索推荐理由:Milvus 把 embedding 列表直接塞进 HNSW,质量几乎追上暴力搜索,比 MUVERA 高了一截,但成本也翻了 6-18 倍,长文档还不支持。适合对精度有极致需求的项目。原文
01:02LMSYS Org (SGLang)@lmsysorg79°与NVIDIA合作,在GB300上使用SGLang服务DeepSeek-V4,实现5倍吞吐量提升(~2,200→~11,200 tok/s/GPU,交互性~50 tok/s/user)。借助MTP,在80 tok/s/user交互性下吞吐再提升2.6倍。Blackwell Ultra聚合模式下30 tok/s/user时吞吐提升2.91倍,峰值无MTP吞吐提升超6倍。采用W4A4 MegaMoE量化(MXFP4)且精度损失可忽略。单个FP8-einsum修复将MTP接受率从0.57提至0.70。AI模型DeepSeek-V4GB300SGLang推理优化NVIDIA8 个信源在谈推荐理由:想用SGLang在GB300上榨干DeepSeek-V4?NVIDIA合作实测,吞吐翻5倍,交互延迟不变,MTP和量化细节全公开。原文
01:01LMSYS Org (SGLang)@lmsysorg精选Krea 2 是由 Krea AI 推出的开源文本到图像模型,在独立评测机构 Artificial Analysis 上排名第一。它包含两个版本:RAW 为未蒸馏基座检查点,适合微调和 LoRA 训练;Turbo 为 8 步蒸馏检查点,实现快速高质量生成。用户可在 RAW 上训练 LoRA,在 Turbo 上进行推理,并已获得 SGLang 的 Day-0 支持。AI模型Krea 2SGLangRAWTurbo图像生成推荐理由:Krea 2 开源了双版本,RAW 用来训练 LoRA,Turbo 跑推理,直接用 SGLang 就能跑,比闭源模型更灵活。原文
00:57AK@_akhaliqPlanBench-XL是一个新基准,专门评估LLM工具使用智能体在包含数千个工具的大型生态系统中的长程规划能力。该基准通过构建复杂任务链,要求智能体在工具选择、参数传递和结果融合中做出多步决策。初步测试中,GPT-4和Claude 3.5等主流模型在PlanBench-XL上的平均成功率低于40%,暴露了当前模型在规划深度和工具协调上的局限。AI模型PlanBench-XLLLM智能体工具使用长程规划推荐理由:想看看你用的LLM在多工具长流程场景下到底多靠谱?PlanBench-XL用上千个工具设计了真实任务链,测出来主流模型成功率不到40%,值得一测。原文
23:26歸藏(guizang.ai)@op7418作者测试了 Seed 2.1 Pro,发现它在智能体和编程任务上的短板已被补上。该模型现在能更流畅地处理复杂代理场景。作者计划将 Seed 2.1 Pro 作为内容创作的主要模型。AI模型Seed 2.1 Pro豆包智能体编程助手内容创作3 个信源在谈推荐理由:豆包刚更新的 Seed 2.1 Pro,智能体和编程短板都补上了,做内容创作更顺手,可以试一下。原文
20:25berryxia@berryxiaSeedance 的视频生成模型在发布后展现出显著的领先优势,短期内其他模型难以追赶。该模型在视频生成质量、连贯性和一致性等方面表现突出,但具体基准数据未披露。AI模型Seedance视频生成推荐理由:Seedance 刚出的视频生成模型,效果确实碾压同行,还没看到能打的。原文
20:18SiliconFlowAI@siliconflowaiSiliconFlow 对 GLM-5.2、GPT-5.5、Opus 4.8 和 GLM-5.1 进行了同提示词测试。结果显示 GLM-5.2 在性能上逼近 Opus 4.8,同时输入成本仅为 Opus 的约 1/3.6,输出成本为约 1/5.7。这意味着用户可以在 SiliconFlow 平台上以大幅降低的成本获得接近 Opus 级别的前端生成能力。AI模型GLM-5.2Opus 4.8SiliconFlow推理模型模型对比2 个信源在谈推荐理由:SiliconFlow 测了 GLM-5.2,性能跟 Opus 4.8 差不多,但输入输出成本都低了好几倍,想省钱的可以试试。原文
19:56The Rundown AI@therundownai日本AI实验室Sakana发布了编排模型,旨在提升多智能体协作效率。SpaceX将Colossus超级计算机租赁给Reflection AI用于训练。Google投资独立电影公司A24,联合开发AI电影制作工具。AI语音命令工具可实现打字时间减半。AI模型Sakana编排模型ColossusReflection AIAI电影制作4 个信源在谈推荐理由:Sakana的编排模型能协调多个AI任务,SpaceX租算力给Reflection AI,Google投A24造电影工具,每个都新鲜原文
17:33Aravind Srinivas@AravSrinivas精选Perplexity 的 Agent API 新增了对智谱 AI 旗舰模型 GLM-5.2 的支持。GLM-5.2 是目前最强的开源模型之一,在长周期编码和智能体工作流上表现突出。它充分利用了 Perplexity 的 Search as Code 架构,用户通过一次 API 调用即可结合前沿推理与实时程序化搜索。该接口兼容 OpenAI 格式,且 Perplexity 提供第一方定价,无额外加价。AI模型GLM-5.2PerplexityAgent API开源模型智能体10 个信源在谈推荐理由:Perplexity Agent API 现在能调用 GLM-5.2 了,这个模型编码和智能体任务很强,还能边推理边搜索,价格也透明。原文
14:56向阳乔木@vista8火山引擎在活动中透露Seeddance 2.5预计7月上线,具体定价未公布。Seedream 5.0 Pro新增箭头和高亮区块编辑功能。这些更新提升了视频和图像编辑的交互精度。AI模型Seeddance 2.5Seedream 5.0 Pro火山引擎视频生成图像编辑3 个信源在谈推荐理由:火山引擎的Seeddance 2.5视频模型7月就来,Seedream 5.0 Pro还能加箭头高亮编辑,挺实用。原文
14:46向阳乔木@vista876°百度发布Unlimited OCR,模拟人类抄书注意力模式,每生成一个token时参考完整图像和提示词,但输出侧仅回看前128个token。KV缓存固定为128长度,避免长文档推理时内存爆炸。在超长文档OCR任务上效果显著,已在GitHub和Hugging Face开源。AI模型UnlimitedOCR百度OCR推理模型开源模型6 个信源在谈推荐理由:百度开源了一个超聪明的OCR方案,用固定128 token缓存模拟人眼抄书,长文档不爆内存,快去试试!原文
14:45向阳乔木@vista8百度近日开源了Unlimited OCR模型,参数量3B但仅需500M激活参数。该模型参考了滑动注意力窗口技术,在OCR任务上取得了出乎意料的好效果。轻量级设计使其更易于部署。AI模型百度Unlimited OCROCR开源模型滑动注意力6 个信源在谈推荐理由:百度刚开源的Unlimited OCR,3B参数只激活500M,效果居然这么强,做OCR的赶紧看看。原文
14:19小互@imxiaohu76°Seedance 2.5能一次生成30秒短片,原生支持4K分辨率。它可输入最多50个全模台参考素材,并支持3D白模引导生成。同时字节跳动推出了AI版权商业化平台,允许用户使用官方授权IP进行创作并获取分成。AI模型Seedance字节跳动视频生成4K3D模型推荐理由:字节跳动新出的视频模型Seedance 2.5能一次生成30秒4K短片,还支持3D白模和50个素材输入,做视频效率很高。原文
14:15小互@imxiaohu72°字节跳动在今天2026火山引擎大会上发布视频生成模型Seedance2.5。语言模型豆包seed2.1据称能力达到Opus4.6水平。图像模型Seeddream 5.0也一同推出。AI模型Seedance2.5豆包seed2.1Seeddream 5.0字节跳动视频生成3 个信源在谈推荐理由:字节跳动一次更新三个模型:Seedance2.5视频生成、豆包seed2.1对标Opus4.6、Seeddream 5.0图像生成,值得关注。原文
14:09shao__meng@shao__meng72°字节跳动在火山引擎 FORCE 2026 原动力大会上发布 Seedream 5.0 Pro 图像生成模型和 Seedance 2.5 视频生成模型。OpenAI Sora 已关停,Google Veo 尚未更新,目前图像与视频生成赛道主要由中国厂商竞争,包括字节跳动、阿里巴巴、快手等。新模型在图像理解和视频生成能力上进一步升级。AI模型Seedream 5.0 ProSeedance 2.5字节跳动火山引擎图像生成视频生成10 个信源在谈推荐理由:字节跳动刚发了两个新模型,图像和视频生成都升级了,中国大厂继续内卷,可以看看原文
14:06lmarena.ai@lmarena_aiNVIDIA 的 Cosmos 3 Super 在 Text-to-Image Arena 开放模型排名中位列第8和第11(两个变体),整体排名第49和第54。其中 #8 的 Cosmos-3-Super-Text2Image 与 Flux-2-Klein-9B 和 Qwen Image Prompt Extend 持平。#11 的 Cosmos-3-Super-Text2Image (Agentic) 与 Qwen-Image 和 Ideogram-v3-Quality 等模型持平。这些排名体现了 NVIDIA 对开源生态的贡献。AI模型Cosmos-3-SuperNVIDIAText-to-Image Arena文本到图像开源模型6 个信源在谈推荐理由:NVIDIA 这个开源文生图模型在排行榜上跟 Flux、Qwen 差不多水平,想试试免费好用的生成工具可以关注它。原文
14:03elvis@omarsar0Sakana AI推出Fugu Ultra模型,这是一个可通过单个API调用的多智能体编排系统。Fugu Ultra在3D渲染任务上表现极佳,性能与Fable和Mythos相当,同时避免了出口管制风险。该模型展示了无需受限制即可获得前沿能力。AI模型Sakana AIFugu UltraFableMythos多智能体推荐理由:Sakana AI的Fugu Ultra多智能体系统,3D渲染强到离谱,性能比肩Fable和Mythos,还不用怕出口管制,快去试试。原文
13:55Geek@geekbb精选百度开源了一个基于DeepSeek-OCR升级的视觉语言模型OCR项目,支持一次性解析超长文档。该模型提供两种推理模式:gundam模式用于处理单张图片中的密集文字,base模式适用于多页文档或PDF。项目代码已在GitHub上发布,允许开发者直接使用。AI模型百度DeepSeek-OCR视觉语言模型OCR开源模型推荐理由:百度开源的OCR模型,在DeepSeek-OCR上做了升级,能一次性处理超长文档和密集文字,两种模式很实用。原文
10:33berryxia@berryxia百度开源的 Unlimited OCR 模型采用 R-SWA 注意力机制,支持 32K 上下文窗口,一次前向推理即可完成几十页文档的转录。其核心卖点是 One-Shot Long-Horizon Parsing,无需分页处理,KV Cache 大小恒定。技术报告提到该模型融合了来自 DeepSeek-OCR 的高压缩编码器,且部分核心贡献者与 DeepSeek 有渊源。AI模型Unlimited OCR百度R-SWAOCR开源模型6 个信源在谈推荐理由:百度搞了个挺牛的 OCR 模型,能一口气读几十页,不像以前那样一页一页循环。开源了,谁都能试试。原文
08:05berryxia@berryxia百度开源了Unlimited OCR模型,采用R-SWA(参考滑动窗口注意力)机制,一次前向推理即可处理32K上下文的文档,数十页PDF无需分块。与传统逐页处理的OCR不同,其KV Cache大小恒定,不随长度增长。模型灵感源于人类抄书行为,仅维护近128个状态。技术报告核心贡献者中,技术总监YY疑为DeepSeek前员工。AI模型Unlimited OCR百度DeepSeekR-SWA文档理解6 个信源在谈推荐理由:百度开源的Unlimited OCR能一口气读完几十页PDF,不用切块,快又准。技术总监YY可能是DeepSeek出走的,有意思。原文
03:24elvis@omarsar0精选Sakana AI推出Fugu Ultra多智能体编排系统,通过单一模型API即可调用。在程序化地形生成(Three.js)测试中,Fugu Ultra一次生成效果与Fable和Mythos相当。该模型规避了出口管制风险,属于前沿能力级别。AI模型SakanaFugu Ultra智能体程序化生成推荐理由:Sakana AI悄悄上了个Fugu Ultra,多智能体编排直接一个API搞定,性能追上Fable和Mythos,还不用怕出口管制,值得试试。原文
02:43SiliconFlowAI@siliconflowaiGLM-5.2 在 Designarena 的 HTML Web Design 排行榜上取得第一,超越了此前长期占据榜首的 Claude Opus 4.6 和 4.7。该模型已通过 SiliconFlow API 提供使用。开发者可以立即调用 GLM-5.2 构建 HTML 网页设计项目。AI模型GLM-5.2Claude OpusSiliconFlowDesignarena编程助手1 个信源在谈推荐理由:HTML 设计排行榜上 GLM-5.2 干掉了 Claude,现在就能用 SiliconFlow 的 API 上手,写网页贼快。原文
02:26LangChain@LangChainAILangChain 宣布其通用开发者工具 dcode 现已支持 GLM 5.2 模型。用户可直接在 dcode 中运行该开源模型,无需额外配置。dcode 是提供商无关的工具,也兼容其他最新的开源模型。详情可查阅 LangChain 文档。AI模型GLM 5.2dcodeLangChain开源模型推荐理由:LangChain 出了个叫 dcode 的工具,现在能跑 GLM 5.2 模型了,而且是开源的,想尝鲜直接上手。原文
00:47berryxia@berryxia精选72°百度在Hugging Face上开源了Unlimited-OCR模型,其核心创新是R-SWA(Reference Sliding Window Attention),让KV Cache保持恒定,避免随页数爆炸。该模型可一次性解析单张图或多页PDF,在OmniDocBench上获得93分,比DeepSeek-OCR高出6个百分点。它取代了传统“分块+拼接”流程,实现端到端长文档理解,输出质量更高。AI模型Unlimited-OCR百度OmniDocBenchDeepSeek-OCROCR5 个信源在谈推荐理由:百度开源了Unlimited-OCR,几百页文档一次搞定,不用分块拼接,速度稳准狠,OmniDocBench上93分压了DeepSeek-OCR一头。原文
00:23AK@_akhaliqPerceptionDLM是一个新提出的多模态扩散语言模型,能够并行地感知图像中的多个区域。该模型结合了扩散模型的生成能力和语言模型的推理能力,支持多区域联合理解。它在一系列视觉定位和区域描述任务上展示了优越性能,但具体基准名称和数值未在原文中提及。AI模型PerceptionDLM多模态扩散语言模型区域感知推荐理由:这是一个新模型,能用多模态扩散语言模型同时理解图片里的多个区域,跟以前的单区域方法不一样。原文
20:53Guillermo Rauch@rauchgSakana 公司发布 Fugu Ultra 模型,通过 Vercel 的 AI Gateway 提供调用。该模型被描述为 Mythos-class(神话级)智能。用户只需一次 API 调用即可访问,背后由多个模型组成。目前已在 Vercel AI Gateway 上线。AI模型SakanaFugu UltraVercelAI Gateway推荐理由:Sakana 的 Fugu Ultra 模型上线 Vercel 了,一次调用就能用上多个模型,号称神话级智能,想尝鲜的可以试试。原文
15:27AI Will@FinanceYF5该视频记录了Mntruell在Compile会议上宣布Cursor新模型的完整过程。视频未透露模型版本号或基准测试结果,只展示了发布现场。观众可通过视频了解新模型的基本定位和功能方向。AI模型CursorMntruellCompile编程助手3 个信源在谈推荐理由:想第一时间知道Cursor新发布什么模型?这是Mntruell在Compile上的完整宣布视频,直接看干货。原文
14:27The Rundown AI@therundownai精选73°日本Sakana AI发布了Fugu和Fugu Ultra模型。Fugu Ultra采用多智能体编排系统,整合多种模型协同工作。在多个基准测试中,Fugu Ultra达到Fable和Mythos模型的性能水平。模型通过单一API提供,声称可规避出口管制风险。AI模型Sakana AIFuguFugu Ultra多智能体推荐理由:Sakana AI搞了个新玩法,用多个小模型组团干活,性能追平Fable和Mythos,还不用怕出口限制,搞AI的值得看看。原文
12:24歸藏(guizang.ai)@op7418Anthropic已训练完成更强版本的Mythos模型,可能命名为Mythos 5.1或Mythos 6。目前不确定是否会公开发布或仅用于内部加速开发。消息称停止发布Fable 5或Mythos 5不会减慢进展,反而释放资源。竞争压力来自开源模型如GLM-5.2,迫使前沿实验室持续训练更强系统。AI模型AnthropicMythosGLM-5.2推理模型开源模型8 个信源在谈推荐理由:有人说Anthropic偷偷训了个更强的Mythos,但可能不对外放。想了解AI前沿动态可以看看。原文
06:54@koltregaskes@koltregaskes据传闻,GPT-5.6将在前端开发方面有显著提升,类似于Claude Design的Codex设计工具。5.6和5.6 Pro版本可能在下周四发布。同时,用户也在期待Sonnet 5和Gemini 3.5 Pro的更新。AI模型GPT-5.6Sonnet 5Gemini 3.5 Pro前端开发编程助手推荐理由:GPT-5.6据说前端开发更强了,还有5.6 Pro,下周四可能发布。原文
03:49@koltregaskes@koltregaskesX用户koltregaskes分享的截图显示,ChatGPT在一段对话中回复需要更多时间进行检查,暗示GPT-5.6可能引入更严格的安全机制。目前OpenAI官方未对此消息确认。GPT-5.6是传闻中的下一代模型,但具体发布时间与功能细节仍未公布。AI模型GPT-5.6OpenAIAI安全10 个信源在谈推荐理由:OpenAI可能推出的GPT-5.6会增加安全检查,想提前了解变化可以看看这个讨论。原文
03:49@koltregaskes@koltregaskesAnthropic正在准备更新Claude Mythos模型,版本可能从当前跳至5.1。升级到版本6的可能性较低,除非Sonnet和Opus也同步升级。目前尚不确定是否公开发布。AI模型AnthropicClaude Mythos5.1模型更新版本升级10 个信源在谈推荐理由:Anthropic又在迭代模型了,这次可能是Mythos 5.1,跟Sonnet和Opus版本联动,不知道会不会公开。原文
00:42@koltregaskes@koltregaskes78°X用户koltregaskes发现字符串"claude-sonnet-5"出现在某个位置,暗示Anthropic可能即将发布新模型。Claude Sonnet系列是Anthropic的中端模型,上一代为Claude Sonnet 4(2024年发布)。本次发现意味着Sonnet 5可能已在内部测试或即将进入公开阶段。目前Anthropic尚未官方确认该模型的存在或发布时间线。AI模型Claude Sonnet 5Anthropic模型更新10 个信源在谈推荐理由:有用户在X上扒到了Claude Sonnet 5的名字,说明Anthropic可能马上要出新模型了,关注Claude的朋友可以看看这个线索。原文
17:54shao__meng@shao__meng社交媒体上发起LLM对比投票,比较GLM-5.2和Gemini 3.5 Flash。投票结果倾向GLM-5.2,用户认为Gemini 3.5 Flash表现不佳。评论指出Google DeepMind自Gemini 3.0多模态发布后缺乏亮眼进展。讨论焦点集中在国产模型与Google模型的性能差距。AI模型GLM-5.2Gemini 3.5 FlashGoogle DeepMind模型对比推理模型推荐理由:看看大家投票选GLM-5.2还是Gemini 3.5 Flash,很多人觉得Gemini近期的模型不太能打。原文
15:25@koltregaskes@koltregaskesGLM-5.2 在 DeepSWE 编程基准上取得 44% 的得分,超过 Kimi-K2.7 Code,成为目前最强的开源模型。不过它的运行成本更高,且每次输出更多 tokens。与封闭模型相比,Claude Fable 5 以 70% 的得分领先,差距明显。AI模型GLM-5.2Kimi-K2.7DeepSWE开源模型代码生成推荐理由:智谱的 GLM-5.2 代码上刚赢了 Kimi 的 K2.7,但更贵输出也更多,离顶级闭源还有距离。原文
15:18AI Will@FinanceYF5精选Anthropic在2月完成新模型Mythos的训练。Mythos悄然改变了整个研发节奏。过去5个月AI能力跃升部分源于Mythos。领先模型正帮助训练下一代模型,该循环已启动。AI模型MythosAnthropic推理模型模型迭代8 个信源在谈推荐理由:Anthropic悄悄练成了Mythos,据说它直接改变了研发节奏,领先模型开始帮训练下一代模型了。原文