02:24Clement Delangue@ClementDelangue精选Kog在HuggingFace上开源了其2B参数模型,该模型此前被用于演示,运行速度达到3000+ tokens每秒。开源模型可供开发者下载和部署,适用于快速推理场景。AI模型KogHuggingFace2B模型开源模型推理速度推荐理由:Kog开源了一个2B模型,每秒能处理3000多个token,适合需要高速推理的任务。原文
12:39小互@imxiaohu精选百度开源的Unlimited OCR模型采用参考滑动窗口注意力(R-SWA)技术,能在32K上下文内一次前向推理处理数十页文档,无需分页。模型仅3B参数、500M激活,显存和算力不随页数增长。传统逐页OCR需要拼接结果,而R-SWA模拟人类连续抄写,始终记忆固定大小的文本。该模型据称基于DeepSeek OCR核心贡献者开发,已在标准长度文档上测试。AI模型Unlimited OCR百度R-SWAOCR开源模型8 个信源在谈推荐理由:百度开源了一款OCR模型,3B参数就能一次处理几十页PDF,不用切页,比传统逐页OCR强太多。原文
09:26Fireworks AI@FireworksAI_HQFireConnect 是 Fireworks 推出的工具,可将 GLM-5.2、Minimax、Qwen、Deepseek、Kimi 等开源模型直接引入 Claude Code、Pi、OpenCode 和 Codex。用户需依次执行 npm 安装 Claude Code、获取 Fireworks API 密钥、运行单行命令安装 FireConnect 并配置密钥。Head of AI Education Sinan Ozdemir 演示了通过 fireconnect claude model select 切换模型的步骤。整个过程无需手动编辑 JSON 或使用 vim。技巧FireConnectClaude Code开源模型编程助手推荐理由:FireConnect 让你在 Claude Code 里直接跑 GLM-5.2 等开源模型,一行命令搞定,不用折腾配置。原文
06:03OpenRouter@OpenRouterAIOpenRouter 宣布提供 GLM 5.2 模型的所有服务商入口,共列出 20 个提供商。其中一条服务线路的推理速度超过 125 tokens/秒。用户可在单一页面比较并选择不同服务商。这标志着 GLM 5.2 的部署生态进一步开放。AI模型GLM 5.2OpenRouter开源模型推理模型高速推理推荐理由:想用 GLM 5.2 但不清楚哪家快?OpenRouter 把 20 个提供商列在一起了,还能直接选超 125 TPS 的那条线。原文
03:18NVIDIA AI@NVIDIAAI精选NVIDIA发布DFlash,一种开源轻量级块扩散模型,专为投机解码设计。在NVIDIA Blackwell硬件上,DFlash可实现高达15倍的推理吞吐量提升,同时保持相同的用户交互响应速度。与传统逐token解码不同,DFlash一次生成整个token块,由主模型并行验证。该方案即插即用,已集成到SGLang、TensorRT-LLM和vLLM等框架中。AI模型DFlashNVIDIABlackwell投机解码开源模型8 个信源在谈推荐理由:NVIDIA开源了DFlash,用块扩散投机解码让Blackwell推理提速15倍,还支持SGLang和vLLM,随手就能用。原文
00:07berryxia@berryxia71°腾讯开源EdgeOne Makers平台,核心是让AI Agent通过一句话自动完成Web应用部署。用户只需告诉Agent“把这个Next.js项目部署了”,系统通过CLI自动执行Git推送、CI/CD触发、边缘函数部署和预览链接生成。平台提供标准化Skill系统,包含边缘函数、云函数、KV存储等模块,支持Node.js、Go、Python三种语言云函数及V8边缘运行时。Claude Code、Cursor、CodeBuddy等AI Agent可直接调用Skill文档操控部署流程。GitHub仓库已开源,集成LangGraph、Claude SDK、OpenAI Agents等主流Agent框架。AI产品EdgeOne Makers腾讯AI Agent云平台开源模型10 个信源在谈推荐理由:腾讯搞了个新玩意EdgeOne Makers,Agent说句话就能自动部署应用,不用再手动点控制台了,开源直接能用。原文
17:33Aravind Srinivas@AravSrinivas精选Perplexity 的 Agent API 新增了对智谱 AI 旗舰模型 GLM-5.2 的支持。GLM-5.2 是目前最强的开源模型之一,在长周期编码和智能体工作流上表现突出。它充分利用了 Perplexity 的 Search as Code 架构,用户通过一次 API 调用即可结合前沿推理与实时程序化搜索。该接口兼容 OpenAI 格式,且 Perplexity 提供第一方定价,无额外加价。AI模型GLM-5.2PerplexityAgent API开源模型智能体10 个信源在谈推荐理由:Perplexity Agent API 现在能调用 GLM-5.2 了,这个模型编码和智能体任务很强,还能边推理边搜索,价格也透明。原文
14:46向阳乔木@vista876°百度发布Unlimited OCR,模拟人类抄书注意力模式,每生成一个token时参考完整图像和提示词,但输出侧仅回看前128个token。KV缓存固定为128长度,避免长文档推理时内存爆炸。在超长文档OCR任务上效果显著,已在GitHub和Hugging Face开源。AI模型UnlimitedOCR百度OCR推理模型开源模型6 个信源在谈推荐理由:百度开源了一个超聪明的OCR方案,用固定128 token缓存模拟人眼抄书,长文档不爆内存,快去试试!原文
14:45向阳乔木@vista8百度近日开源了Unlimited OCR模型,参数量3B但仅需500M激活参数。该模型参考了滑动注意力窗口技术,在OCR任务上取得了出乎意料的好效果。轻量级设计使其更易于部署。AI模型百度Unlimited OCROCR开源模型滑动注意力6 个信源在谈推荐理由:百度刚开源的Unlimited OCR,3B参数只激活500M,效果居然这么强,做OCR的赶紧看看。原文
14:06lmarena.ai@lmarena_aiNVIDIA 的 Cosmos 3 Super 在 Text-to-Image Arena 开放模型排名中位列第8和第11(两个变体),整体排名第49和第54。其中 #8 的 Cosmos-3-Super-Text2Image 与 Flux-2-Klein-9B 和 Qwen Image Prompt Extend 持平。#11 的 Cosmos-3-Super-Text2Image (Agentic) 与 Qwen-Image 和 Ideogram-v3-Quality 等模型持平。这些排名体现了 NVIDIA 对开源生态的贡献。AI模型Cosmos-3-SuperNVIDIAText-to-Image Arena文本到图像开源模型6 个信源在谈推荐理由:NVIDIA 这个开源文生图模型在排行榜上跟 Flux、Qwen 差不多水平,想试试免费好用的生成工具可以关注它。原文
14:03OpenRouter@OpenRouterAIGLM 5.2 自发布以来在 OpenRouter 平台上的 token 消耗占比迅速上升,与早先发布的 DeepSeek V4 形成竞争。OpenRouter 数据显示,GLM 5.2 的开源模型采纳速度超过多数同类产品。目前两者在 token 份额上差距缩小,但 DeepSeek V4 仍占一定优势。行业GLM 5.2DeepSeek V4OpenRouter开源模型token份额推荐理由:OpenRouter晒出了GLM 5.2和DeepSeek V4的token份额对比,GLM 5.2涨得真快,开源模型里能跟DeepSeek掰手腕了。原文
13:55Geek@geekbb精选百度开源了一个基于DeepSeek-OCR升级的视觉语言模型OCR项目,支持一次性解析超长文档。该模型提供两种推理模式:gundam模式用于处理单张图片中的密集文字,base模式适用于多页文档或PDF。项目代码已在GitHub上发布,允许开发者直接使用。AI模型百度DeepSeek-OCR视觉语言模型OCR开源模型推荐理由:百度开源的OCR模型,在DeepSeek-OCR上做了升级,能一次性处理超长文档和密集文字,两种模式很实用。原文
10:33berryxia@berryxia百度开源的 Unlimited OCR 模型采用 R-SWA 注意力机制,支持 32K 上下文窗口,一次前向推理即可完成几十页文档的转录。其核心卖点是 One-Shot Long-Horizon Parsing,无需分页处理,KV Cache 大小恒定。技术报告提到该模型融合了来自 DeepSeek-OCR 的高压缩编码器,且部分核心贡献者与 DeepSeek 有渊源。AI模型Unlimited OCR百度R-SWAOCR开源模型6 个信源在谈推荐理由:百度搞了个挺牛的 OCR 模型,能一口气读几十页,不像以前那样一页一页循环。开源了,谁都能试试。原文
02:26LangChain@LangChainAILangChain 宣布其通用开发者工具 dcode 现已支持 GLM 5.2 模型。用户可直接在 dcode 中运行该开源模型,无需额外配置。dcode 是提供商无关的工具,也兼容其他最新的开源模型。详情可查阅 LangChain 文档。AI模型GLM 5.2dcodeLangChain开源模型推荐理由:LangChain 出了个叫 dcode 的工具,现在能跑 GLM 5.2 模型了,而且是开源的,想尝鲜直接上手。原文
01:03Clement Delangue@ClementDelangueHuggingFace 平台上的公开模型数量即将突破300万个,公开数据集也即将达到100万个。该平台已成为开源AI社区的核心枢纽,模型和数据集数量在过去一年快速翻倍。这一里程碑反映了开源AI生态的持续繁荣。行业HuggingFace开源模型数据集社区里程碑推荐理由:HuggingFace 马上要突破300万模型和100万数据集了,这说明开源AI有多火。看看这个数字,社区力量真强。原文
23:55elvis@omarsar0精选该报告构建了五维分类法(对手方、载荷、交互状态、发现机制、模式灵活性),分析了九个活跃维护的开源智能体协议,包括MCP和A2A。报告发现每个智能体间协议都采用混合载荷与会话状态持久化组合,而去中心化发现机制仍属罕见。该研究映射了当前LLM agent通信层的标准化趋势,为选择通信层提供依据。论文地址:arxiv.org/abs/2606.19135。论文MCPA2A智能体多智能体系统开源模型推荐理由:如果你在选agent通信协议,这篇把MCP、A2A等9个协议的底层模式画清楚了,指出状态化会话是共识,去中心化发现还缺。原文
12:26shao__meng@shao__mengGLM-5.2 在 X 平台被广泛讨论,声称是最强开源模型且接近 Claude Fable 5。作者下载了 Zcode 平台并发现可以免费试用。但第二条消息即遇到使用限制,未充值 Coding Plan 可能无法正常使用。技巧GLM-5.2Zcode开源模型免费试用推荐理由:想了解 GLM-5.2 和 Zcode 的实际体验?这篇分享告诉你免费试用背后的限制原文
12:24歸藏(guizang.ai)@op7418Anthropic已训练完成更强版本的Mythos模型,可能命名为Mythos 5.1或Mythos 6。目前不确定是否会公开发布或仅用于内部加速开发。消息称停止发布Fable 5或Mythos 5不会减慢进展,反而释放资源。竞争压力来自开源模型如GLM-5.2,迫使前沿实验室持续训练更强系统。AI模型AnthropicMythosGLM-5.2推理模型开源模型8 个信源在谈推荐理由:有人说Anthropic偷偷训了个更强的Mythos,但可能不对外放。想了解AI前沿动态可以看看。原文
23:28Harrison Chase@hwchase17社区文章演示了如何借助Deep Agents框架构建一个类似Claude Code的编程智能体。文章特别提到GLM-5.2模型表现强劲,可作为该智能体的底层推理引擎。通过3个步骤即可完成部署,无需从头开发复杂Agent系统。技巧Deep AgentsClaude CodeGLM-5.2智能体开源模型推荐理由:教你用Deep Agents自己搭一个Claude Code同款智能体,还顺带体验GLM-5.2的威力,实操性很强。原文
15:25@koltregaskes@koltregaskesGLM-5.2 在 DeepSWE 编程基准上取得 44% 的得分,超过 Kimi-K2.7 Code,成为目前最强的开源模型。不过它的运行成本更高,且每次输出更多 tokens。与封闭模型相比,Claude Fable 5 以 70% 的得分领先,差距明显。AI模型GLM-5.2Kimi-K2.7DeepSWE开源模型代码生成推荐理由:智谱的 GLM-5.2 代码上刚赢了 Kimi 的 K2.7,但更贵输出也更多,离顶级闭源还有距离。原文
06:55ollama@ollamaOllama 转发了 Aaron Levie 的观点,指出开放权重模型在特定任务上已取得 SOTA 结果,并在编码等部分领域接近前沿水平。Levie 强调,开放权重模型与前沿模型之间的边际差距若能保持而非扩大,将创造更多 AI 应用价值。他还提到,使用更便宜或针对特定任务微调的开放模型可优化成本,同时前沿模型仍可用于规划、编排等复杂工作。行业Ollamaopen weights开源模型AI成本具体任务微调推荐理由:Ollama 分享了 Levie 对开放权重模型的乐观看法:这些模型成本更低、表现接近前沿,还能针对性微调,对 AI 应用层是大利好。原文
03:54Suhail@Suhail精选Z.ai推出GLM-5.2开源模型,采用MIT开放权重。该模型支持1M上下文窗口,在Terminal-Bench 2.1基准上得分81.0,仅比Claude Opus 4.8低几分。Perplexity CEO此前指出,中国已拥有最强开源模型DeepSeek,且美国开发者正基于其构建应用。GLM-5.2的发布进一步表明开源AI竞赛已非理论。AI模型GLM-5.2Z.aiDeepSeek开源模型推理模型推荐理由:Z.ai刚刚放出了GLM-5.2,MIT开源、100万上下文、跑分81.0,跟Claude Opus 4.8差距很小,做开源模型的得看看。原文
00:53elvis@omarsar0精选GLM-5.2 在图形设计能力上据称达到 Opus 级别,同时在长期运行任务中表现良好。其训练引入了反奖励破解模块,用于解决强化学习中常见的奖励破解问题,例如模型走捷径、变懒、意图偏差等。该模块有助于提升编码代理在长周期任务中的可靠性与效果。GLM-5.2 是一个开源开放权重模型。AI模型GLM-5.2奖励破解开源模型设计长期任务推荐理由:GLM-5.2 据称设计和长任务都接近 Opus,关键是加了个反奖励破解机制,让模型更靠谱。原文
10:54shao__meng@shao__mengGLM 5.2 开源后在 X 平台获得多位国外 AI 博主称赞。智谱港股股价近期飙升,市值已超过 MiniMax 并接近小米。作者提到智谱内部运营问题和自身充值体验,但认为模型够强仍是核心。AI模型GLM 5.2智谱开源模型港股推荐理由:智谱开源了 GLM 5.2,国外博主都在夸,股价还涨到快赶上小米了,模型实力真的能打。原文
03:36Andrew Ng@AndrewYNg精选73°Anthropic发布了其Mythos模型的变体Claude Fable 5,并施加了包括禁止用于构建竞争LLM技术在内的额外限制。Anthropic还曾暗中降低Fable 5对LLM研究者的性能,在争议后改为透明执行,但仍拒绝用最新能力帮助AI研究者。随后美国政府利用商务部权力对Mythos和Fable实施出口管制,要求任何外国国民使用需许可证,导致Anthropic全球禁用Fable。Andrew Ng评论称Anthropic利用安全论调阻碍竞争者,而恐惧营销反而促使政府加强管制。行业AnthropicClaude Fable 5出口管制AI安全开源模型10 个信源在谈推荐理由:Anthropic一边用Claude Fable 5的“安全”理由限制开发者,一边被美国政府反手出口管制,Andrew Ng分析这暴露了封闭平台的不可靠性。原文
02:37Allen AI (Ai2)@allen_aiAI Squared 和 Domyn 两家公司利用 Allen AI 完全开源的 Olmo 语言模型系列,在金融、医疗和公共部门等受监管行业构建自定义模型。Olmo 模型提供完整开放性,允许企业根据行业法规进行合规微调和使用。该案例展示了开源模型在敏感领域实现私有化部署的具体路径。技巧OlmoAI SquaredDomynAllen AI开源模型推荐理由:金融医疗这种严监管行业,看看两家公司怎么直接拿开源模型Olmo改造成自己的,挺有参考价值。原文
01:34@atomic_chat_hq@atomic_chat_hqKiloCode是一款被300万以上开发者使用的代码助手,现在可通过Atomic Chat在开源模型上本地运行。所有操作均在设备端完成,无需云端依赖,保证完全隐私。该服务免费且开源,支持代码编写、调试和构建。AI产品KiloCodeAtomic Chat开源模型编程助手本地AI推荐理由:KiloCode现在能直接用本地开源模型跑了,完全免费还保护隐私,3M+开发者都在用。原文
23:57Thomas Wolf@Thom_Wolf开源模型生态欢迎新手尝试Opus 4.8级别的模型。GLM-5.2是ZAI org发布的开放权重模型,可通过Hugging Face页面使用。多个供应商竞争价格,智能体价格便宜。模型可本地运行、微调并构建商业应用,无需许可。HuggingChat提供免费聊天界面。AI模型GLM-5.2Hugging Face开源模型本地部署微调推荐理由:GLM-5.2达到Opus 4.8水平,免费、可本地跑、可微调,比闭源灵活还便宜,快试试!原文
18:40Together AI@togethercomputeTogetherAI用Kimi K2.7 Code和Claude Fable 5各生成12个落地页。Kimi的成本仅为Claude的1/16,质量表现接近。通过设计MCP服务器提供视觉上下文后,Kimi效果更佳。这表明开源模型在落地页生成工作流中已是高性价比的实用选择。AI模型Kimi K2.7 CodeClaude Fable 5开源模型MCP/工具代码模型10 个信源在谈推荐理由:想低预算做落地页?试试Kimi K2.7 Code,便宜16倍效果不输Claude Fable 5,尤其配合MCP服务器更稳。原文
18:39Together AI@togethercomputeTogether Compute 测试了闭源和开源模型构建小型可玩游戏的能力。结果显示,开源模型成本更低、速度更快,生成游戏质量接近闭源模型。例如,Opus 4.8 成本是 MiniMax M3 的 15 倍,GPT-5.5 是 Nemotron Ultra 的 10 倍,而 Kimi K2.7 Code 比 Opus 4.8 便宜 7 倍。AI模型Opus 4.8MiniMax M3GPT-5.5开源模型游戏生成5 个信源在谈推荐理由:Together Compute 实测:闭源模型贵几倍,开源做小游戏又快又便宜,质量还接近,想省钱就选开源。原文
18:38Together AI@togethercomputeDecagonAI 通过与 Together AI 合作,将语音代理每轮对话成本降低近6倍,同时保持实时语音所需的低延迟。他们从闭源模型迁移到微调的开源模型,实现 p95 模型延迟低于400ms。采用自定义投机解码和提示缓存技术,并在 NVIDIA Blackwell 上优化服务部署。模型更新频率达到每周甚至每日,体现了从封闭 API 到开放模型的转变。行业DecagonAITogether AINVIDIA Blackwell语音代理开源模型6 个信源在谈推荐理由:DecagonAI 把语音成本砍到原来的1/6,延迟还压到400ms以下,实时语音项目可以参考他们迁移开源模型的做法。原文
16:39歸藏(guizang.ai)@op7418唐老师与马斯克在推特上讨论国内开源版本何时能达到Fable 5级别模型的标准。马斯克回应称“不会那么久”,暗示可能早于2027年。该对话引发对国内开源模型进展加速的预期。目前尚无具体时间表或模型细节。行业Fable 5马斯克开源模型国内AI进展5 个信源在谈推荐理由:马斯克说国内开源Fable 5级别模型不用等到2027年,唐老师跟进爆料,这波节奏值得盯一下。原文
12:51Cohere@cohere精选Cohere宣布其首个开源智能体编码模型的4-bit量化版本已可用。该量化版模型体积显著缩小,可在Mac上本地运行。用户可通过链接获取模型权重。此次发布使得开发者能够更便捷地在个人设备上运行智能体编码模型。AI模型Cohere4-bit量化智能体编码模型开源模型推荐理由:Cohere把自己最新的编程智能体模型压缩到4-bit,Mac上就能跑,本地开发效率直接拉满!原文
12:42Fireworks AI@FireworksAI_HQJeremy Howard在X平台上称赞Zai_org的GLM 5.2模型,称其至少与Opus 4.8和GPT 5.5一样优秀。他指出该模型速度极快、成本低廉且回答不冗长,在处理长上下文时表现非常出色。Howard表示从未见过如此优秀的开源权重模型。AI模型GLM 5.2Zai_orgOpus 4.8GPT 5.5开源模型3 个信源在谈推荐理由:想试试媲美顶级闭源模型的开源模型吗?GLM 5.2又快又便宜,长上下文超强,看看Jeremy Howard怎么夸的。原文
06:25Clement Delangue@ClementDelangueHugging Face CEO Clement Delangue认为,事后API护栏无法消除模型的危险能力,只能隐藏在脆弱的接口后面,容易被越狱(jailbroken)。他建议不要训练高风险能力,除非有强评估、理由和遏制措施;采用分阶段发布(staged release),从可信测试者到更广泛访问,并开放发布以透明和问责。他呼吁大力支持开源AI,缩小封闭实验室和政府之间的能力差距;推动独立评估,而非信任黑盒API;赋予执法、法院、监管者、审计员、记者和公民社会强大的AI工具来检测和追究非法使用。行业AI安全开源模型独立评估分阶段发布API护栏推荐理由:Hugging Face CEO提出一个务实的AI安全路线:别只靠事后护栏,要加强独立评估、分阶段发布和开源生态。原文
04:25Clement Delangue@ClementDelangue精选Poolside 发布了其最新模型 Laguna M.1,拥有 256K 上下文长度。该模型采用 Apache 2.0 许可,权重已开放至 Hugging Face。包括基础版和微调版检查点可供下载。AI模型PoolsideLaguna M.1Hugging Face开源模型长上下文2 个信源在谈推荐理由:Poolside 把最强的 Laguna M.1 模型完全开放了,256K 上下文,Apache 2.0 许可,直接去 Hugging Face 下载权重用。原文
03:09Sebastian Raschka@rasbt73°GLM-5.2是智谱发布的最新开放权重模型,基于GLM-5和GLM-5.1架构,复用了DeepSeek V3.2的Multi-head Latent Attention(MLA)和DeepSeek Sparse Attention(DSA)机制。新增的IndexShare机制在每四层运行一次完整索引器,后续三层复用选中的token索引,使100万token推理成本大幅降低。目前GLM-5.2在开放权重模型中表现最佳。AI模型GLM-5.2DeepSeek V3.2IndexShare推理模型开源模型2 个信源在谈推荐理由:智谱的GLM-5.2开放权重模型,用DeepSeek V3.2的注意力机制加上自己的IndexShare,把1M长上下文推理搞便宜了,值得看看。原文
03:04vLLM@vllm_project精选Poolside 发布开源智能体编程模型 Laguna M.1,采用 70 层稀疏 MoE 架构,总参数量 225B,每 token 激活 23B,支持 256K 上下文。模型使用 256 个专家,top-k=16 路由,专为长程智能体编程设计。支持工具调用间交错推理,可每请求切换,采用 Apache 2.0 许可。vLLM v0.21.0 已提供 Day-0 支持。AI模型Laguna M.1Poolside开源模型编程助手智能体2 个信源在谈推荐理由:Poolside 刚开源了 Laguna M.1,225B 参数的智能体编程模型,256K 上下文,vLLM 已原生支持,想玩 agentic coding 的可以试试。原文
01:33SiliconFlowAI@siliconflowai精选Z.ai 的 GLM 5.2 在编码基准 CodeArena 上排名第一。每百万 token 输入缓存/输入/输出价格为 0.26/1.40/4.40 美元,支持 1M 上下文长度。其编码性能与 Opus 4.8 相当,并提供 max 和 high 两种推理模式。该模型已完全开源,可通过 SiliconFlow 的 T+0 合作获取。AI模型GLM 5.2Z.aiCodeArenaSiliconFlow开源模型推荐理由:Z.ai 的 GLM 5.2 在编码竞技场拿了第一,价格比 Opus 便宜,还有 1M 上下文,编程党可以白嫖开源版。原文
00:16宝玉@dotey一条推文表达对Mythos级别开源模型的期待,该推文获得1次转发和9次点赞。目前尚无具体发布信息或基准成绩。行业Mythos开源模型推荐理由:网友在推特上表达对Mythos开源模型的期待,已有1转发9点赞原文