01:17Simon Willison’s Weblog(博客/媒体)精选DeepReinforce 发布 Ornith-1.0,一款 MIT 许可的开源模型,基于 Gemma 4 和 Qwen 3.5 预训练。提供 9B Dense、31B Dense、35B MoE 和 397B MoE 四种规格。在编码基准上达到同尺寸开源模型 SOTA。作者在 LM Studio 上测试 35B Q4_K_M GGUF 版本,能流畅运行代理工具调用并处理代码定位任务。AI模型Ornith-1.0DeepReinforceGemma 4Qwen 3.5开源模型1 个信源在谈推荐理由:DeepReinforce 新出的开源编码模型,基于 Gemma 4 和 Qwen 3.5,在代理编码任务上表现不错,LM Studio 就能跑,值得试试。原文
16:27Pandaily@contact@pandaily.com (Pandaily)精选73°DeepSeek 与北京大学联合开发的 DSpark 推理系统获得 PyTorch 核心维护者 Dmytro Dzhulgakov 的详细技术分析。他重点称赞 DSpark 的半并行草稿(semi-parallel drafting)机制,能提升推理吞吐量。分析指出该系统达到生产级工程水平(production-grade engineering),在特定负载下相比基线有显著加速。这一评测为开源推理系统提供了高含金量的第三方验证。AI模型DeepSeekDSparkPyTorch推理模型开源模型推荐理由:PyTorch 核心大佬亲自下场拆解 DeepSeek 的 DSpark,说它半并行草稿很牛、工程落地扎实,搞推理优化的必看。原文
13:51Together AI@togethercompute精选随着Token使用量爆发式增长,模型选择已从技术决策变为产品策略。团队正在测试GLM-5.2等新模型,追求前沿质量与更好的Token经济学。Together AI正在构建面向开源模型未来的推理层,以提供更可控的成本、数据和部署选项。行业GLM-5.2Together AI推理层开源模型Token经济学推荐理由:团队开始用GLM-5.2替换闭源模型?Together AI的推理层让开源模型更可控,想省钱又保质量可以看看。原文
13:51Together AI@togethercompute精选智谱AI的GLM-5.2模型在Together AI平台展示了端到端代码修复能力,可读取issue、推理场景并自动生成补丁。一年前这类任务还被认为是闭源模型(如GPT-4)的专属领域,如今开源模型已能胜任。该模型未公布具体基准分数,但实际演示表明其编程推理能力接近闭源水平。AI模型GLM-5.2Together AI推理模型编程助手开源模型推荐理由:开源模型GLM-5.2能自己读代码问题、推理并修复,以前只有闭源模型才能做到,现在用Together AI就能跑。原文
13:49阶跃星辰 Stepfun@Stepfun_AI精选Step 3.7 Flash 是开源多模态推理模型,现已在 DeepInfra API 上线。该模型支持私有端点部署,适用于专用负载场景。它专为智能体编码、工具使用、搜索和视觉工作流设计。开发者可通过 DeepInfra 的 API 直接调用。AI模型Step 3.7 FlashDeepInfra多模态推理模型开源模型推荐理由:Step 3.7 Flash 开源多模态推理模型刚上线 DeepInfra,支持私有部署,适合智能体编程和视觉任务,开发者可以试试。原文
00:01Clement Delangue@ClementDelangue精选Hugging Face CEO Clement Delangue认为,当前最危险的AI系统是闭源前沿API模型(如通过编程助手分发的LLM),它们由巨头秘密构建、完全黑箱、控制力集中且分发到数亿用户。而开源模型风险低几个数量级:易于分析、能力较弱、传播更可控,且保护者与攻击者平等获取。监管前沿API只需针对少数巨头,成本低且容易执行;监管开源则会伤害小企业、研究者、大学等群体,并降低透明度。行业Hugging Face开源模型AI监管前沿模型推荐理由:Hugging Face CEO直言政府该管闭源API而不是开源模型,点出了监管争论中被忽略的黑箱风险。原文
16:03Decoder@Jonathan Kemper精选新浪微博发布开源模型VibeThinker-3B,仅30亿参数。在数学和编程基准上,它匹配了DeepSeek V3.2和Kimi K2.5,后两者参数规模大333倍。模型通过多阶段后训练实现高性能。研究人员假设:逻辑推理可压缩进小模型,但广泛世界知识不行。AI模型VibeThinker-3B新浪推理模型开源模型推荐理由:30亿参数的小模型推理能力居然能打千亿级大模型,新浪VibeThinker-3B在数学和编程上很强,而且开源了。原文
13:01marktechpost@Asif Razzaq精选Liquid AI 发布了 LFM2.5-230M,这是其最小的 230M 参数开源权重模型。该模型在 Galaxy S25 Ultra 上达到 213 tok/s,在 Raspberry Pi 5 上为 42 tok/s。基于 LFM2 架构,它专注于工具使用和数据提取,在指令遵循上击败了 Qwen3.5-0.8B 和 Gemma 3 1B 等更大模型。模型支持 llama.cpp、MLX、vLLM、SGLang 和 ONNX 框架。AI模型LFM2.5-230MLiquid AI开源模型设备端推理推理框架1 个信源在谈推荐理由:Liquid AI 出了个超小模型 LFM2.5-230M,手机跑 213 tokens 每秒,树莓派也能跑 42,指令遵循还比 Qwen3.5-0.8B 和 Gemma 3 1B 强。原文
07:07Suhail@Suhail精选Hamish Ivison等人发布了Tmax,一个基于强化学习的开源终端智能体模型。在默认设置和65k token预算下,Tmax优于之前的开源终端使用工作。团队公开了所有训练数据、模型权重和rollouts,方便复现和进一步研究。AI模型TmaxRLterminal agent开源模型智能体推荐理由:Tmax把终端智能体的RL训练配方全开源了,65k token里就跑赢之前的工作,想自己训智能体的可以抄作业。原文
05:01ollama@ollama精选Ollama 宣布支持运行 Ornith 1.0 系列模型,包括 9B、31B Dense、35B MoE 和 397B MoE 四个版本。该模型在 SWE-Bench verified 上达到 82.4,Terminal-Bench 2.1 得分 77.5,多语言 SWE-Bench 得分 78.9。它基于 Gemma4 和 Qwen3.5 后训练,采用强化学习联合优化 scaffold 和解决方案。所有模型以 MIT 许可证开源,支持商业和研究用途。AI模型OllamaOrnithSWE-Bench编程助手开源模型2 个信源在谈推荐理由:Ollama 现在可以直接跑 Ornith 编程智能体了,从 9B 到 397B 都有,SWE-Bench 拿了 82.4 分,本地搞智能体编码超方便。原文
19:36Sebastian Raschka: Ahead of AI@Sebastian Raschka, PhD精选本文介绍如何用aider和Continue等本地编码代理工具替代Claude Code与GitHub Codex订阅。这些工具可搭配Ollama部署的Llama 3和DeepSeek Coder等开源模型。本地运行能保护代码隐私,并节省每月订阅费用。作者给出了从安装Ollama到连接模型的完整配置步骤。技巧Claude CodeCodexaider编程助手开源模型推荐理由:想省掉Claude Code的月费?Sebastian手把手教你用本地开源模型加aider和Continue自己搭编码代理,便宜又安全。原文
13:06lmarena.ai@lmarena_ai精选72°GLM-5.2 (Max) 在 Code Arena 前端排行榜上获得第2名,比 Claude Opus 4.7 (Thinking) 高出 29 分。在 React 子榜单排名第2,HTML 子榜单第4。在品牌营销、数据与分析、消费产品等6个子类别中均位列第一。该模型是开源模型中对 Kimi-K2.6 和 Minimax-M3 优势最大的。在社区投票的单次前端编码测试中展示了10个对比案例。AI模型GLM-5.2Code ArenaClaude Opus 4.8开源模型编程助手2 个信源在谈推荐理由:GLM-5.2 在社区投票的编码竞技场上压过 Claude Opus,你可以在前端任务中试试它的单次生成效果。原文
08:51Viking@vikingmute精选Ornith-1.0 系列开源模型发布,专门用于 agentic coding,参数从9B Dense到397B MoE全覆盖。在 Terminal-Bench 2.1 上得分77.5,SWE-Bench verified 82.4,NL2Repo 48.2。397B MoE模型在多个基准上超过 Claude Opus 4.7。模型采用自改进训练策略,利用强化学习同时生成解决方案和 task-specific scaffold。基于 gemma4 和 qwen3.5 后训练,MIT 许可开源。AI模型Ornith-1.0gemma4qwen3.5开源模型编程助手3 个信源在谈推荐理由:Ornith-1.0 开源了从9B到397B的编程模型,在SWE-Bench等基准上超越Claude Opus 4.7,还能自己优化任务框架。原文
01:24lmarena.ai@lmarena_ai精选Zai_org的GLM系列在Code Arena: Frontend基准上持续增长,GLM-4.6得分1408,GLM-5.2 (Max)达到1595,超越Opus 4.8并逼近Claude Fable 5的1665分。GLM-5.2 (Max)是该实验室最强的编码模型,在HTML/React真实任务上缩小了与前沿实验室的差距。该模型为开源发布。AI模型GLMZai_orgCode Arena前端编码开源模型推荐理由:Zai_org的GLM-5.2开源模型在前端编码上超过了Opus,离领先的Claude Fable只差一点,值得试试原文
17:27Stanford AI Lab@StanfordAILab精选Stanford AI Lab发布OpenThoughts-Agent-v2和OpenThinkerAgent-32B,两者均基于Qwen-3开源数据。在计算控制比较中,该模型在全部训练规模下领先,并在7个agent基准测试上平均得分44.8%。模型在终端使用和编码任务上表现突出,且泛化能力强。AI模型OpenThoughts-Agent-v2Qwen-3Stanford AI Lab开源模型智能体推荐理由:斯坦福开源了新agent模型,基于Qwen-3在7个基准上平均44.8%,小模型也能打,值得一试。原文
14:45Fireworks AI@FireworksAI_HQ精选Fireworks AI 与 Harvey 合作研究发现,将前沿闭源模型(如 Opus 4.8)作为顾问代理,与微调的开源工作代理结合,在三个基准测试中均取得更优结果。相比全部使用 Opus 4.8,该混合方案成本降低40-67%。该方法简单部署即可提升效果,为模型调用提供新思路。AI模型Fireworks AIHarveyOpus 4.8开源模型推理模型1 个信源在谈推荐理由:Fireworks AI 的实验证明,把闭源大模型当参谋、开源模型当打手,效果更好还省40%-67%的钱,值得关注。原文
09:30Jerry Liu@jerryjliu0精选Unlimited OCR是百度开源的OCR模型,总参数量3B,仅500M激活。它在表格解析和阅读顺序方面表现优秀,在OmniDocBench v1.5和v1.6上达到SOTA。核心创新是Reference Sliding Window Attention(R-SWA),能保持恒定KV缓存大小,单次前向传递处理40+页文档。与PaddleOCR-VL-1.6对比显示,它在语义格式和图表方面略有不足。AI模型Unlimited OCRBaiduPaddleOCR-VL-1.6OCR开源模型7 个信源在谈推荐理由:百度开源了Unlimited OCR,3B参数却只有500M激活,表格解析超强,能一次性读完40页文档,比PaddleOCR-VL-1.6强在表格和阅读顺序上。试试看?原文
02:24Clement Delangue@ClementDelangue精选Kog在HuggingFace上开源了其2B参数模型,该模型此前被用于演示,运行速度达到3000+ tokens每秒。开源模型可供开发者下载和部署,适用于快速推理场景。AI模型KogHuggingFace2B模型开源模型推理速度推荐理由:Kog开源了一个2B模型,每秒能处理3000多个token,适合需要高速推理的任务。原文
12:39小互@imxiaohu精选百度开源的Unlimited OCR模型采用参考滑动窗口注意力(R-SWA)技术,能在32K上下文内一次前向推理处理数十页文档,无需分页。模型仅3B参数、500M激活,显存和算力不随页数增长。传统逐页OCR需要拼接结果,而R-SWA模拟人类连续抄写,始终记忆固定大小的文本。该模型据称基于DeepSeek OCR核心贡献者开发,已在标准长度文档上测试。AI模型Unlimited OCR百度R-SWAOCR开源模型8 个信源在谈推荐理由:百度开源了一款OCR模型,3B参数就能一次处理几十页PDF,不用切页,比传统逐页OCR强太多。原文
03:18NVIDIA AI@NVIDIAAI精选NVIDIA发布DFlash,一种开源轻量级块扩散模型,专为投机解码设计。在NVIDIA Blackwell硬件上,DFlash可实现高达15倍的推理吞吐量提升,同时保持相同的用户交互响应速度。与传统逐token解码不同,DFlash一次生成整个token块,由主模型并行验证。该方案即插即用,已集成到SGLang、TensorRT-LLM和vLLM等框架中。AI模型DFlashNVIDIABlackwell投机解码开源模型8 个信源在谈推荐理由:NVIDIA开源了DFlash,用块扩散投机解码让Blackwell推理提速15倍,还支持SGLang和vLLM,随手就能用。原文
17:33Aravind Srinivas@AravSrinivas精选Perplexity 的 Agent API 新增了对智谱 AI 旗舰模型 GLM-5.2 的支持。GLM-5.2 是目前最强的开源模型之一,在长周期编码和智能体工作流上表现突出。它充分利用了 Perplexity 的 Search as Code 架构,用户通过一次 API 调用即可结合前沿推理与实时程序化搜索。该接口兼容 OpenAI 格式,且 Perplexity 提供第一方定价,无额外加价。AI模型GLM-5.2PerplexityAgent API开源模型智能体10 个信源在谈推荐理由:Perplexity Agent API 现在能调用 GLM-5.2 了,这个模型编码和智能体任务很强,还能边推理边搜索,价格也透明。原文
13:55Geek@geekbb精选百度开源了一个基于DeepSeek-OCR升级的视觉语言模型OCR项目,支持一次性解析超长文档。该模型提供两种推理模式:gundam模式用于处理单张图片中的密集文字,base模式适用于多页文档或PDF。项目代码已在GitHub上发布,允许开发者直接使用。AI模型百度DeepSeek-OCR视觉语言模型OCR开源模型推荐理由:百度开源的OCR模型,在DeepSeek-OCR上做了升级,能一次性处理超长文档和密集文字,两种模式很实用。原文
23:55elvis@omarsar0精选该报告构建了五维分类法(对手方、载荷、交互状态、发现机制、模式灵活性),分析了九个活跃维护的开源智能体协议,包括MCP和A2A。报告发现每个智能体间协议都采用混合载荷与会话状态持久化组合,而去中心化发现机制仍属罕见。该研究映射了当前LLM agent通信层的标准化趋势,为选择通信层提供依据。论文地址:arxiv.org/abs/2606.19135。论文MCPA2A智能体多智能体系统开源模型推荐理由:如果你在选agent通信协议,这篇把MCP、A2A等9个协议的底层模式画清楚了,指出状态化会话是共识,去中心化发现还缺。原文
03:54Suhail@Suhail精选Z.ai推出GLM-5.2开源模型,采用MIT开放权重。该模型支持1M上下文窗口,在Terminal-Bench 2.1基准上得分81.0,仅比Claude Opus 4.8低几分。Perplexity CEO此前指出,中国已拥有最强开源模型DeepSeek,且美国开发者正基于其构建应用。GLM-5.2的发布进一步表明开源AI竞赛已非理论。AI模型GLM-5.2Z.aiDeepSeek开源模型推理模型推荐理由:Z.ai刚刚放出了GLM-5.2,MIT开源、100万上下文、跑分81.0,跟Claude Opus 4.8差距很小,做开源模型的得看看。原文
00:53elvis@omarsar0精选GLM-5.2 在图形设计能力上据称达到 Opus 级别,同时在长期运行任务中表现良好。其训练引入了反奖励破解模块,用于解决强化学习中常见的奖励破解问题,例如模型走捷径、变懒、意图偏差等。该模块有助于提升编码代理在长周期任务中的可靠性与效果。GLM-5.2 是一个开源开放权重模型。AI模型GLM-5.2奖励破解开源模型设计长期任务推荐理由:GLM-5.2 据称设计和长任务都接近 Opus,关键是加了个反奖励破解机制,让模型更靠谱。原文
03:36Andrew Ng@AndrewYNg精选73°Anthropic发布了其Mythos模型的变体Claude Fable 5,并施加了包括禁止用于构建竞争LLM技术在内的额外限制。Anthropic还曾暗中降低Fable 5对LLM研究者的性能,在争议后改为透明执行,但仍拒绝用最新能力帮助AI研究者。随后美国政府利用商务部权力对Mythos和Fable实施出口管制,要求任何外国国民使用需许可证,导致Anthropic全球禁用Fable。Andrew Ng评论称Anthropic利用安全论调阻碍竞争者,而恐惧营销反而促使政府加强管制。行业AnthropicClaude Fable 5出口管制AI安全开源模型10 个信源在谈推荐理由:Anthropic一边用Claude Fable 5的“安全”理由限制开发者,一边被美国政府反手出口管制,Andrew Ng分析这暴露了封闭平台的不可靠性。原文
12:51Cohere@cohere精选Cohere宣布其首个开源智能体编码模型的4-bit量化版本已可用。该量化版模型体积显著缩小,可在Mac上本地运行。用户可通过链接获取模型权重。此次发布使得开发者能够更便捷地在个人设备上运行智能体编码模型。AI模型Cohere4-bit量化智能体编码模型开源模型推荐理由:Cohere把自己最新的编程智能体模型压缩到4-bit,Mac上就能跑,本地开发效率直接拉满!原文
04:25Clement Delangue@ClementDelangue精选Poolside 发布了其最新模型 Laguna M.1,拥有 256K 上下文长度。该模型采用 Apache 2.0 许可,权重已开放至 Hugging Face。包括基础版和微调版检查点可供下载。AI模型PoolsideLaguna M.1Hugging Face开源模型长上下文2 个信源在谈推荐理由:Poolside 把最强的 Laguna M.1 模型完全开放了,256K 上下文,Apache 2.0 许可,直接去 Hugging Face 下载权重用。原文
03:04vLLM@vllm_project精选Poolside 发布开源智能体编程模型 Laguna M.1,采用 70 层稀疏 MoE 架构,总参数量 225B,每 token 激活 23B,支持 256K 上下文。模型使用 256 个专家,top-k=16 路由,专为长程智能体编程设计。支持工具调用间交错推理,可每请求切换,采用 Apache 2.0 许可。vLLM v0.21.0 已提供 Day-0 支持。AI模型Laguna M.1Poolside开源模型编程助手智能体2 个信源在谈推荐理由:Poolside 刚开源了 Laguna M.1,225B 参数的智能体编程模型,256K 上下文,vLLM 已原生支持,想玩 agentic coding 的可以试试。原文
01:33SiliconFlowAI@siliconflowai精选Z.ai 的 GLM 5.2 在编码基准 CodeArena 上排名第一。每百万 token 输入缓存/输入/输出价格为 0.26/1.40/4.40 美元,支持 1M 上下文长度。其编码性能与 Opus 4.8 相当,并提供 max 和 high 两种推理模式。该模型已完全开源,可通过 SiliconFlow 的 T+0 合作获取。AI模型GLM 5.2Z.aiCodeArenaSiliconFlow开源模型推荐理由:Z.ai 的 GLM 5.2 在编码竞技场拿了第一,价格比 Opus 便宜,还有 1M 上下文,编程党可以白嫖开源版。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……