06:35vLLM@vllm_projectvLLM 社区正在将 DeepSeek 的 DSpark 推测解码算法集成到 vLLM 推理引擎中。DSpark 是一种推测解码算法,能显著提升大语言模型的推理速度。该集成旨在为所有 vLLM 用户带来更快的推理性能,无需额外配置。目前社区正在积极开发中,预计将提升 vLLM 的吞吐量并降低延迟。AI模型vLLMDeepSeekDSpark推理加速开源模型推荐理由:vLLM 社区正在把 DeepSeek 的 DSpark 算法加进来,推理速度能再上一个台阶,用 vLLM 的朋友可以期待了。原文
03:07@koltregaskes@koltregaskesEthan Mollick根据Artificial Analysis的AA-Briefcase分数,绘制了AI模型在复杂多周咨询任务上的表现趋势。AA-Briefcase测试模型处理电子表格和策略规划等可交付成果。GLM-5.2等开源模型目前达到的水平,与闭源模型三个月前的分数一致。高端闭源模型仍保持明显领先,但差距在缩小。AI模型GLM-5.2AA-Briefcase开源模型智能体基准测试推荐理由:开源模型GLM-5.2在AA-Briefcase智能体基准上只差闭源三个月了,做复杂任务时值得试试看。原文
03:06@koltregaskes@koltregaskes79°DeepSeek v4 将于 7 月中旬进入通用可用(GA)阶段,部分用户已收到相关邮件通知。该版本带来更多功能优化和性能改进。具体改进细节尚未完全公开,但用户可期待更优的模型能力。AI模型DeepSeek v4DeepSeek开源模型推理模型推荐理由:DeepSeek v4 马上 GA 了,7 月中旬上线,性能有优化,想尝鲜的可以关注。原文
17:55Yangyi@Yangyixxxx用户认为FunASR模型在大部分场景下可用,精度偶尔不足。建议套用LLM进行修复,可解决绝大多数问题。其被评价为中国版Whisper中性价比最高的方案。AI模型FunASRASR语音识别LLM开源模型推荐理由:有实测用户说FunASR比Whisper更值,精度不够时加个LLM就能补上,做中文语音识别可以试试。原文
13:59Ate-a-Pi@svpino中国AI公司纷纷发布自己的SOTA(State-of-the-Art)模型,但所有公司都选择将其开源。与美国的封闭模式不同,中国企业在激烈竞争的同时,将模型权重和代码公开分享给全球社区。这种独特的生态让外界看到中国AI发展的另一条路径。行业中国开源模型SOTAAI生态推荐理由:中国AI公司都在卷开源,跟美国完全不一样,看看他们怎么一边竞争一边分享的。原文
13:52EleutherAI@AiEleutherEleutherAI在ICML 2024会议上发布了参会指南。指南包含了他们在会议期间的展位和演讲安排。参会者可通过链接获取详细位置信息。技巧EleutherAIICML开源模型活动指南推荐理由:EleutherAI发了他们在ICML的定位指南,想去现场找他们的可以看看,免得错过。原文
13:51Together AI@togethercompute精选随着Token使用量爆发式增长,模型选择已从技术决策变为产品策略。团队正在测试GLM-5.2等新模型,追求前沿质量与更好的Token经济学。Together AI正在构建面向开源模型未来的推理层,以提供更可控的成本、数据和部署选项。行业GLM-5.2Together AI推理层开源模型Token经济学推荐理由:团队开始用GLM-5.2替换闭源模型?Together AI的推理层让开源模型更可控,想省钱又保质量可以看看。原文
13:51Together AI@togethercompute精选智谱AI的GLM-5.2模型在Together AI平台展示了端到端代码修复能力,可读取issue、推理场景并自动生成补丁。一年前这类任务还被认为是闭源模型(如GPT-4)的专属领域,如今开源模型已能胜任。该模型未公布具体基准分数,但实际演示表明其编程推理能力接近闭源水平。AI模型GLM-5.2Together AI推理模型编程助手开源模型推荐理由:开源模型GLM-5.2能自己读代码问题、推理并修复,以前只有闭源模型才能做到,现在用Together AI就能跑。原文
13:49阶跃星辰 Stepfun@Stepfun_AI精选Step 3.7 Flash 是开源多模态推理模型,现已在 DeepInfra API 上线。该模型支持私有端点部署,适用于专用负载场景。它专为智能体编码、工具使用、搜索和视觉工作流设计。开发者可通过 DeepInfra 的 API 直接调用。AI模型Step 3.7 FlashDeepInfra多模态推理模型开源模型推荐理由:Step 3.7 Flash 开源多模态推理模型刚上线 DeepInfra,支持私有部署,适合智能体编程和视觉任务,开发者可以试试。原文
13:49Ethan Mollick@emollickGLM-5.2是一款开源模型,其性能不及GPT-5.5和Opus 4.8,更远不及Mythos。但它表现扎实,表明开源模型持续追赶前沿。当前开源权重已触及GPT-5.2水平,在该能力区间表现显著。这一进展说明开源模型正在缩小与闭源前沿的差距。AI模型GLM-5.2GPT-5.5Opus 4.8Mythos开源模型推荐理由:GLM-5.2虽然没追上GPT-5.5,但开源模型又往前迈了一大步,能力提升明显,值得关注。原文
06:18Gary Marcus@GaryMarcusGLM 5.2 被称作开源界的 Claude 时刻,在 Databricks 平台上需求惊人。Yuchen Jin 指出,该模型遵循已知公式,导致技术壁垒消失、市场趋同、价格战开始,利润率趋小或为负。越来越多公司将转向基于开源模型进行后训练并拥有权重。GaryMarcus 认为这是其三年来论证的无技术护城河、价格战、低利润率趋势的最终体现。AI模型GLM开源模型价格战DatabricksAI市场推荐理由:GLM 5.2 开源版火了,Databricks 上抢着用,价格战要来了,想用低成本模型得看看这个趋势。原文
00:01Clement Delangue@ClementDelangue精选Hugging Face CEO Clement Delangue认为,当前最危险的AI系统是闭源前沿API模型(如通过编程助手分发的LLM),它们由巨头秘密构建、完全黑箱、控制力集中且分发到数亿用户。而开源模型风险低几个数量级:易于分析、能力较弱、传播更可控,且保护者与攻击者平等获取。监管前沿API只需针对少数巨头,成本低且容易执行;监管开源则会伤害小企业、研究者、大学等群体,并降低透明度。行业Hugging Face开源模型AI监管前沿模型推荐理由:Hugging Face CEO直言政府该管闭源API而不是开源模型,点出了监管争论中被忽略的黑箱风险。原文
07:07Suhail@Suhail精选Hamish Ivison等人发布了Tmax,一个基于强化学习的开源终端智能体模型。在默认设置和65k token预算下,Tmax优于之前的开源终端使用工作。团队公开了所有训练数据、模型权重和rollouts,方便复现和进一步研究。AI模型TmaxRLterminal agent开源模型智能体推荐理由:Tmax把终端智能体的RL训练配方全开源了,65k token里就跑赢之前的工作,想自己训智能体的可以抄作业。原文
05:01ollama@ollama精选Ollama 宣布支持运行 Ornith 1.0 系列模型,包括 9B、31B Dense、35B MoE 和 397B MoE 四个版本。该模型在 SWE-Bench verified 上达到 82.4,Terminal-Bench 2.1 得分 77.5,多语言 SWE-Bench 得分 78.9。它基于 Gemma4 和 Qwen3.5 后训练,采用强化学习联合优化 scaffold 和解决方案。所有模型以 MIT 许可证开源,支持商业和研究用途。AI模型OllamaOrnithSWE-Bench编程助手开源模型2 个信源在谈推荐理由:Ollama 现在可以直接跑 Ornith 编程智能体了,从 9B 到 397B 都有,SWE-Bench 拿了 82.4 分,本地搞智能体编码超方便。原文
04:49OpenRouter@OpenRouterAIOpenRouter 最新洞察文章指出,四个开源权重模型(未公开具体名称)已达到能驱动真实智能体管道的水平。文章分析了为何公司在6月选择这些模型,强调它们在自主任务执行中的表现。该观察基于 OpenRouter 平台的实际使用数据。行业OpenRouter智能体开源模型推荐理由:OpenRouter 发博说四个开源模型已经能跑真实 agent 流程了,搞智能体的朋友可以看看为什么公司选它们。原文
00:49Geek@geekbb73°DeepSeek 在 Pro Max 模式下于多个编码/工程基准取得领先成绩:LiveCodeBench 93.5%、Codeforces Rating 3206、SWE Verified 80.6%,超越 GPT-5.4、Gemini 3.1 Pro、Claude Opus 4.6 等闭源模型。这些结果来自 X 用户 @geekbb 的推文,并关联到 DeepSeek 的 Hugging Face 仓库。目前该模型尚未开放本地部署,引发社区期待。AI模型DeepSeekPro Max编码基准开源模型推荐理由:DeepSeek 拿 Pro Max 模式在 LiveCodeBench 等三大编码基准上直接碾压 GPT-5.4 和 Claude Opus 4.6,分数拉满,但还没开放下载,先来围观一下。原文
21:54AK@_akhaliqhf-claude 工具允许用户在 Claude Code 中切换超过100个开源模型,包括 GLM 5.2、MiniMax-M3 和 DeepSeek v4 Pro。这一集成扩展了 Claude Code 的模型选择范围,用户无需离开 Claude Code 即可利用不同开源模型的能力。该功能主要面向需要灵活使用多种模型的开发者。目前该工具已在 X 上获得 1895 次浏览。AI产品hf-claudeClaude CodeGLM 5.2MiniMax-M3开源模型4 个信源在谈推荐理由:想在 Claude Code 里用别的模型?hf-claude 能直接集成 100+ 开源模型,包括 GLM 5.2 和 DeepSeek v4 Pro,很方便。原文
13:13elvis@omarsar084°OpenAI 宣布了 GPT-5.6 系列,包括前沿模型 Sol、均衡模型 Terra 以及快速廉价模型 Luna。目前仅提供有限预览,少数用户可访问。评论者担忧这种策略不利于行业,呼吁开源AI取胜。AI模型GPT-5.6OpenAISolTerraLuna开源模型10 个信源在谈推荐理由:OpenAI 刚出了三个 GPT-5.6 模型,有强有快有便宜,但只给少数人用,引起争议。原文
13:06lmarena.ai@lmarena_ai精选72°GLM-5.2 (Max) 在 Code Arena 前端排行榜上获得第2名,比 Claude Opus 4.7 (Thinking) 高出 29 分。在 React 子榜单排名第2,HTML 子榜单第4。在品牌营销、数据与分析、消费产品等6个子类别中均位列第一。该模型是开源模型中对 Kimi-K2.6 和 Minimax-M3 优势最大的。在社区投票的单次前端编码测试中展示了10个对比案例。AI模型GLM-5.2Code ArenaClaude Opus 4.8开源模型编程助手2 个信源在谈推荐理由:GLM-5.2 在社区投票的编码竞技场上压过 Claude Opus,你可以在前端任务中试试它的单次生成效果。原文
12:53lmarena.ai@lmarena_aiAgent Arena排行榜已正式上线,用户可通过链接访问页面查看详情。排行榜支持按开放模型或实验室(lab)进行筛选过滤。目前该页面已有400次浏览,由xgo.ing提供技术支持。AI模型Agent Arena智能体评测基准开源模型实验室推荐理由:想看看谁家的智能体最强?Agent Arena排行榜刚上线,可以按开源模型和实验室筛选,挺方便。原文
12:45elvis@omarsar0作者认为开源模型与前沿闭源模型同等重要,并提出了一个结合使用的框架:租用前沿模型的推理和智能能力,同时通过开源模型掌握上下文和知识,并利用开源模型作为验证器和评判器。这一策略让用户既能享受前沿模型的强大推理,又能保持对上下文和信息的控制权。该框架提供了一种实用的模型组合思路。技巧开源模型推理模型模型集成推荐理由:一个实用的使用策略:把前沿模型当脑子,开源模型当知识库,自己掌握上下文。原文
23:47Ate-a-Pi@svpinoSantiago Valenzuela指出Claude Tag的粘性极高,会吸收公司全部信息。若停止付费,用户将被锁定无法获取数据。他呼吁采用开源方案,避免被单一AI公司绑架。开源能提供灵活切换模型和迁移数据的自由。行业Claude Tag开源模型AI安全厂商锁定2 个信源在谈推荐理由:一句话敲警钟——别被Claude Tag这类闭源方案锁死,用开源才能随时换模型、带走数据。原文
22:42Gary Marcus@GaryMarcusUBS调查显示,60%监控AI预算的企业已开始转向更便宜的模型和开源中国模型。企业面临极端账单,有用户每月花费高达35,000美元,团队超出配额200%,部分公司从5个AI内部工具削减至2个。企业通过模型路由策略,将简单任务分配给便宜模型,如Qwen、DeepSeek、MiniMax、GLM、Kimi,而保留高级模型用于推理、编程和长上下文任务。这些中国开源模型可以本地运行或通过云目录使用,符合企业成本曲线。行业UBSDeepSeekQwenMiniMax开源模型成本优化企业AI应用推荐理由:大厂AI账单太高了,UBS说60%的企业已经在换更便宜的模型,像DeepSeek、Qwen这些中国开源模型成了新选择。想省钱的企业可以看看这个趋势。原文
18:00AI Will@FinanceYF5一位独立研究者(沃尔玛应届程序员)用单张RTX 3090 Ti、零经费完成两项扩散模型研究,被SIGGRAPH 2026录用。InfiniteDiffusion实现无限图像生成,支持随机访问、可复现、可并行、零存储。Terrain Diffusion是首个学习型程序化地形生成器,单卡速度比卫星飞行快9倍,仅需1.5GB显存。该研究已发布Minecraft mod,代码已开源。AI模型InfiniteDiffusionTerrain Diffusion图像生成程序化地形生成开源模型推荐理由:一个人用一张3090 Ti发SIGGRAPH,InfiniteDiffusion无限图像生成、Terrain Diffusion比卫星快9倍,代码开源,快去试试Minecraft mod。原文
09:54Gary Marcus@GaryMarcusRamez Naam在推文中警告,若前沿AI仅由少数美国公司掌控并受美国政府意志左右,将带来高反乌托邦风险。他认为应促进激烈竞争、开源模型(open weight models)以及不受白宫控制的AI发展。Gary Marcus转发了这一观点,引发对AI权力集中风险的讨论。行业Ramez NaamGary Marcus前沿AI开源模型AI治理推荐理由:Ramez Naam和Gary Marcus在聊一个严肃话题:前沿AI被少数美国公司垄断,受政府支配,有反乌托邦风险。他们呼吁开源和竞争,值得看看。原文
08:52berryxia@berryxia美国政府 reportedly 计划亲自审批谁能使用GPT-5.6,OpenAI仅向一小部分合作伙伴提供有限预览。Commerce Secretary Lutnick亲自警告OpenAI不要擅自发布,接近事实上的许可制。Yann LeCun此前警告,以安全为由限制AI系统会阻碍智能民主化。他主张开源才是让AI普及的正确路径。当最强闭源模型被政府按客户审批时,开源模型成为对抗技术集中控制的实际路径。行业GPT-5.6OpenAI美国政府Yann LeCun开源模型监管10 个信源在谈推荐理由:美国商务部要管GPT-5.6的客户审批,开源模型成了对抗监管集中化的解法。Yann LeCun的观点值得看看。原文
08:51Viking@vikingmute精选Ornith-1.0 系列开源模型发布,专门用于 agentic coding,参数从9B Dense到397B MoE全覆盖。在 Terminal-Bench 2.1 上得分77.5,SWE-Bench verified 82.4,NL2Repo 48.2。397B MoE模型在多个基准上超过 Claude Opus 4.7。模型采用自改进训练策略,利用强化学习同时生成解决方案和 task-specific scaffold。基于 gemma4 和 qwen3.5 后训练,MIT 许可开源。AI模型Ornith-1.0gemma4qwen3.5开源模型编程助手3 个信源在谈推荐理由:Ornith-1.0 开源了从9B到397B的编程模型,在SWE-Bench等基准上超越Claude Opus 4.7,还能自己优化任务框架。原文
01:24lmarena.ai@lmarena_ai精选Zai_org的GLM系列在Code Arena: Frontend基准上持续增长,GLM-4.6得分1408,GLM-5.2 (Max)达到1595,超越Opus 4.8并逼近Claude Fable 5的1665分。GLM-5.2 (Max)是该实验室最强的编码模型,在HTML/React真实任务上缩小了与前沿实验室的差距。该模型为开源发布。AI模型GLMZai_orgCode Arena前端编码开源模型推荐理由:Zai_org的GLM-5.2开源模型在前端编码上超过了Opus,离领先的Claude Fable只差一点,值得试试原文
01:15Hugging Face@huggingfaceHugging Face 通过直播演示如何在本机部署和运行开源 AI 模型。教程覆盖了从模型下载、环境配置到推理执行的完整流程,无需依赖云端服务。适合希望离线使用 LLaMA、Mistral 等模型的开发者。技巧Hugging Face开源模型本地部署推理推荐理由:想自己跑开源模型?Hugging Face 这场直播手把手教你在本地部署,省去云端费用和延迟。原文
23:57Gary Marcus@GaryMarcusAlice预测未来2年内AI股票泡沫崩溃,市场将出现类似2008年的大规模修正。大部分AI公司倒闭,但云提供商和芯片制造商可能幸存。Anthropic和OpenAI等推理公司可能被政府救助否则违约。AI应用集中在聊天机器人、设备端助手(苹果)和医疗影像,主要由开源或设备端模型驱动。教育领域AI使用降低学生质量,学校转向课堂纸笔考试。行业AnthropicOpenAI开源模型设备端模型10 个信源在谈推荐理由:一位读者做出了具体AI行业预测,从泡沫到公司倒闭、从开源主导到教育影响,观点尖锐,值得一读。原文
17:27Stanford AI Lab@StanfordAILab精选Stanford AI Lab发布OpenThoughts-Agent-v2和OpenThinkerAgent-32B,两者均基于Qwen-3开源数据。在计算控制比较中,该模型在全部训练规模下领先,并在7个agent基准测试上平均得分44.8%。模型在终端使用和编码任务上表现突出,且泛化能力强。AI模型OpenThoughts-Agent-v2Qwen-3Stanford AI Lab开源模型智能体推荐理由:斯坦福开源了新agent模型,基于Qwen-3在7个基准上平均44.8%,小模型也能打,值得一试。原文
17:26berryxia@berryxiaUnsloth团队将GLM-5.2模型压缩至1-bit量化版本,在Mac Studio M3 Ultra(256GB RAM)上实现约21 tok/s的推理速度。该量化模型在创意输出任务(如HTML/设计生成)上,能与Claude Opus和GPT-5.5正面对比且不落下风。这显示极端量化后的大模型仍能保留较强表现,展示了开源模型通过优化缩小与闭源前沿模型在实际可用性上的差距。AI模型UnslothGLM-5.2量化开源模型本地部署推荐理由:Unsloth把GLM-5.2压到1-bit,Mac Studio上跑21 tok/s,创意性居然不输Claude Opus,本地部署党有福了。原文
14:45Fireworks AI@FireworksAI_HQ精选Fireworks AI 与 Harvey 合作研究发现,将前沿闭源模型(如 Opus 4.8)作为顾问代理,与微调的开源工作代理结合,在三个基准测试中均取得更优结果。相比全部使用 Opus 4.8,该混合方案成本降低40-67%。该方法简单部署即可提升效果,为模型调用提供新思路。AI模型Fireworks AIHarveyOpus 4.8开源模型推理模型1 个信源在谈推荐理由:Fireworks AI 的实验证明,把闭源大模型当参谋、开源模型当打手,效果更好还省40%-67%的钱,值得关注。原文
11:36AI Will@FinanceYF5Reflection 与 SpaceX 签署了一项价值 63 亿美元的算力协议。根据协议,Reflection 将立即获得 GB300 资源用于训练开源模型,并从 2026 年 7 月 1 日起至 2029 年每月向 SpaceX 支付 1.5 亿美元。该协议由 CNBC 首次披露,涉及 SpaceX 在 AI 算力领域的重大商业合作。行业SpaceXReflection算力协议GB300开源模型3 个信源在谈推荐理由:SpaceX 和 Reflection 签了 63 亿美元的大单,提供 GB300 算力给训练开源模型,从 2026 年每月付 1.5 亿,挺大的动静。原文
09:30Jerry Liu@jerryjliu0精选Unlimited OCR是百度开源的OCR模型,总参数量3B,仅500M激活。它在表格解析和阅读顺序方面表现优秀,在OmniDocBench v1.5和v1.6上达到SOTA。核心创新是Reference Sliding Window Attention(R-SWA),能保持恒定KV缓存大小,单次前向传递处理40+页文档。与PaddleOCR-VL-1.6对比显示,它在语义格式和图表方面略有不足。AI模型Unlimited OCRBaiduPaddleOCR-VL-1.6OCR开源模型7 个信源在谈推荐理由:百度开源了Unlimited OCR,3B参数却只有500M激活,表格解析超强,能一次性读完40页文档,比PaddleOCR-VL-1.6强在表格和阅读顺序上。试试看?原文
07:59Fireworks AI@FireworksAI_HQFireworks AI 与 Cursor 合作,让用户在 Cursor 中即可切换至最新的开源前沿模型 GLM 5.2,无需更换编程工具。该模型在多项评估中获得提升,具体基准成绩见原文链接。这意味着开发者可以轻松尝试 GLM 5.2 的代码能力,而无需离开日常使用的 AI 编程助手。AI模型GLM 5.2CursorFireworks AI开源模型编程助手6 个信源在谈推荐理由:Fireworks 和 Cursor 联手,让你直接在 Cursor 里换用最新的 GLM 5.2 模型,省去切换工具的麻烦。原文
02:24Clement Delangue@ClementDelangue精选Kog在HuggingFace上开源了其2B参数模型,该模型此前被用于演示,运行速度达到3000+ tokens每秒。开源模型可供开发者下载和部署,适用于快速推理场景。AI模型KogHuggingFace2B模型开源模型推理速度推荐理由:Kog开源了一个2B模型,每秒能处理3000多个token,适合需要高速推理的任务。原文
12:39小互@imxiaohu精选百度开源的Unlimited OCR模型采用参考滑动窗口注意力(R-SWA)技术,能在32K上下文内一次前向推理处理数十页文档,无需分页。模型仅3B参数、500M激活,显存和算力不随页数增长。传统逐页OCR需要拼接结果,而R-SWA模拟人类连续抄写,始终记忆固定大小的文本。该模型据称基于DeepSeek OCR核心贡献者开发,已在标准长度文档上测试。AI模型Unlimited OCR百度R-SWAOCR开源模型8 个信源在谈推荐理由:百度开源了一款OCR模型,3B参数就能一次处理几十页PDF,不用切页,比传统逐页OCR强太多。原文
09:26Fireworks AI@FireworksAI_HQFireConnect 是 Fireworks 推出的工具,可将 GLM-5.2、Minimax、Qwen、Deepseek、Kimi 等开源模型直接引入 Claude Code、Pi、OpenCode 和 Codex。用户需依次执行 npm 安装 Claude Code、获取 Fireworks API 密钥、运行单行命令安装 FireConnect 并配置密钥。Head of AI Education Sinan Ozdemir 演示了通过 fireconnect claude model select 切换模型的步骤。整个过程无需手动编辑 JSON 或使用 vim。技巧FireConnectClaude Code开源模型编程助手推荐理由:FireConnect 让你在 Claude Code 里直接跑 GLM-5.2 等开源模型,一行命令搞定,不用折腾配置。原文
06:03OpenRouter@OpenRouterAIOpenRouter 宣布提供 GLM 5.2 模型的所有服务商入口,共列出 20 个提供商。其中一条服务线路的推理速度超过 125 tokens/秒。用户可在单一页面比较并选择不同服务商。这标志着 GLM 5.2 的部署生态进一步开放。AI模型GLM 5.2OpenRouter开源模型推理模型高速推理推荐理由:想用 GLM 5.2 但不清楚哪家快?OpenRouter 把 20 个提供商列在一起了,还能直接选超 125 TPS 的那条线。原文