23:49阶跃星辰 Stepfun@Stepfun_AI精选StepFun 的 Step 3.7 Flash 模型在 Claw-Eval General 基准测试中取得第二名的成绩,该基准用于评估自主智能体。模型在多步执行和长程任务鲁棒性上表现强劲,排名仅次于 Claude Opus 4.6。这一结果显示其在真实世界智能体工作负载中的潜力。AI模型Step 3.7 FlashClaw-Eval General智能体推理模型推荐理由:StepFun 的 Step 3.7 Flash 在智能体基准 Claw-Eval General 排第二,仅次于 Claude Opus 4.6,多步执行和长程任务都强,感兴趣可以看看。原文
16:27Pandaily@contact@pandaily.com (Pandaily)精选73°DeepSeek 与北京大学联合开发的 DSpark 推理系统获得 PyTorch 核心维护者 Dmytro Dzhulgakov 的详细技术分析。他重点称赞 DSpark 的半并行草稿(semi-parallel drafting)机制,能提升推理吞吐量。分析指出该系统达到生产级工程水平(production-grade engineering),在特定负载下相比基线有显著加速。这一评测为开源推理系统提供了高含金量的第三方验证。AI模型DeepSeekDSparkPyTorch推理模型开源模型推荐理由:PyTorch 核心大佬亲自下场拆解 DeepSeek 的 DSpark,说它半并行草稿很牛、工程落地扎实,搞推理优化的必看。原文
13:51Together AI@togethercompute精选智谱AI的GLM-5.2模型在Together AI平台展示了端到端代码修复能力,可读取issue、推理场景并自动生成补丁。一年前这类任务还被认为是闭源模型(如GPT-4)的专属领域,如今开源模型已能胜任。该模型未公布具体基准分数,但实际演示表明其编程推理能力接近闭源水平。AI模型GLM-5.2Together AI推理模型编程助手开源模型推荐理由:开源模型GLM-5.2能自己读代码问题、推理并修复,以前只有闭源模型才能做到,现在用Together AI就能跑。原文
13:49阶跃星辰 Stepfun@Stepfun_AI精选Step 3.7 Flash 是开源多模态推理模型,现已在 DeepInfra API 上线。该模型支持私有端点部署,适用于专用负载场景。它专为智能体编码、工具使用、搜索和视觉工作流设计。开发者可通过 DeepInfra 的 API 直接调用。AI模型Step 3.7 FlashDeepInfra多模态推理模型开源模型推荐理由:Step 3.7 Flash 开源多模态推理模型刚上线 DeepInfra,支持私有部署,适合智能体编程和视觉任务,开发者可以试试。原文
16:03Decoder@Jonathan Kemper精选新浪微博发布开源模型VibeThinker-3B,仅30亿参数。在数学和编程基准上,它匹配了DeepSeek V3.2和Kimi K2.5,后两者参数规模大333倍。模型通过多阶段后训练实现高性能。研究人员假设:逻辑推理可压缩进小模型,但广泛世界知识不行。AI模型VibeThinker-3B新浪推理模型开源模型推荐理由:30亿参数的小模型推理能力居然能打千亿级大模型,新浪VibeThinker-3B在数学和编程上很强,而且开源了。原文
13:09pandaily@contact@pandaily.com (Pandaily)精选73°DeepSeek 在获 70 亿美元融资后发布首篇论文,提出 DSpark 推测解码框架,在无需额外训练的情况下将大模型生成速度提升 85%。该框架通过轻量级草稿模型配合验证机制加速推理,在多个基准测试中达到与原始模型相当的质量。DSpark 支持即插即用,可适配现有 DeepSeek 系列模型,显著降低延迟。AI模型DeepSeekDSpark推理模型速度优化推荐理由:DeepSeek 刚发了 DSpark,跑大模型生成能快 85%,还是即插即用的。搞推理加速的朋友可以关注。原文
21:12LMSYS Org (SGLang)@lmsysorg精选英伟达与智谱AI合作,发布了基于GLM-5.2的NVFP4量化检查点。该模型为744B参数混合专家架构(40B活跃参数),专注于推理和编码任务。NVFP4量化通过NVIDIA Model Optimizer实现,在降低内存占用的同时保持前沿推理性能。模型还支持稀疏注意力和IndexShare索引器,实现高效长上下文处理。目前已在Blackwell/Grace Blackwell上通过SGLang提供首日支持。AI模型GLM-5.2NVFP4NVIDIASGLang推理模型5 个信源在谈推荐理由:英伟达把GLM-5.2压缩成NVFP4,内存省一大截,推理编码在Blackwell上直接跑,SGLang第一时间就能用。原文
21:12LMSYS Org (SGLang)@lmsysorg精选Liquid AI 发布了 LFM2.5-230M 模型,参数规模仅 230M,是其最小模型。该模型基于 LFM2 架构,专为设备端部署设计,推理速度极快。它可在云端 GPU 和低成本 CPU 上运行,并支持工具调用和结构化数据提取。性能超过两倍参数量的模型,且已获 SGLang 的 Day 0 支持。AI模型LFM2.5-230MLiquid AISGLang推理模型设备端部署推荐理由:Liquid AI 新出的 230M 小模型,跑得飞快,还能干工具调用的活,比两倍大的模型还强。原文
13:54vLLM@vllm_project精选NVIDIA发布GLM-5.2的NVFP4检查点,在Blackwell GPU上相比FP8内存占用降低一半。该模型在推理、编码和长上下文基准测试中保持与FP8相同的准确率。用户可通过vLLM直接加载运行:vllm serve nvidia/GLM-5.2-NVFP4。AI模型GLM-5.2NVFP4vLLMNVIDIA推理模型4 个信源在谈推荐理由:想省显存又不想降精度?GLM-5.2的NVFP4版在vLLM上线了,比FP8省一半内存,推理编码长文本都稳。原文
13:28lmarena.ai@lmarena_ai精选Agent Arena通过代码编写、幻灯片制作等真实任务评估模型性能。Opus 4.8 Thinking每会话消耗较少token,质量提升+9.2%;Fable达到+14.1%的最高质量。GPT-5.5系列模型(+6.2%至+8.6%)以更少token超越前沿。Gemini-3.5 Flash消耗token最多但效果不佳,Grok Build 0.1消耗20K+ token却出现负提升。AI模型Agent ArenaOpusFableGPT-5.5推理模型推荐理由:想找token性价比高的模型?Agent Arena告诉你Opus和Fable有多能打,GPT-5.5也很省token。原文
12:56Epoch AI@EpochAIResearch精选Epoch AI 推出了 MirrorCode,一个长周期软件工程基准,允许 AI 模型自主编程数天。最佳模型(如 GPT-4、Claude 3.5)在部分任务上表现达到人类工程师数周的工作量。该基准包含超过 50 个复杂编程任务,每个任务需要多步代码修改和调试。结果显示,当前 AI 在处理持续数小时的工程任务时仍面临挑战,但进步显著。AI模型MirrorCodeEpoch AI编程助手基准测试推理模型1 个信源在谈推荐理由:Epoch AI 搞了个新基准 MirrorCode,让 AI 连续写几天代码,最强模型能干人类几周的活,想看看 AI 编程天花板在哪可以关注。原文
12:36OpenRouter@OpenRouterAI精选OpenRouter 发布了新的 MCP(Model Context Protocol),使智能体能够实时获取最新模型信息。该功能允许 agent 根据当前任务自动挑选、定价并测试最适合的模型,不再依赖六个月前的训练数据。用户可通过视频演示看到 agent 如何动态执行模型选择流程。这一更新解决了智能体在模型调用时信息滞后的问题。AI产品OpenRouterMCP智能体模型选择推理模型推荐理由:OpenRouter 出了个 MCP,让你的智能体能自己挑最合适的模型,还能实时定价测试,不用瞎猜了。原文
23:48Ate-a-Pi@svpino精选Apodex-1.0-H 是一种全新范式的深度研究模型,发布 open-weight 的 Apodex-1.0-mini 以及 0.8B、2B、4B 的 Smol 系列。模型原生像子代理团队工作:主代理分解查询,按需生成异步工作的专业子代理(研究、验证、事实核查、审计)。它通过 generate→verify→revise 循环动态改进答案,每一轮基于自身弱点评分并重写。验证过程使用独立子代理团队在多个类别上打分,避免自检盲区。您可在 HuggingFace 获取开放权重版本。AI模型Apodex-1.0-HApodex-1.0-miniSmol智能体推理模型推荐理由:Apodex 开了个新思路,模型不再单打独斗,而是训练出内部团队自己拆任务、检查答案、动态改稿。有开源版可以试试。原文
16:55Geek@geekbb精选NVIDIA 基于智谱 GLM-5.2 模型量化出 NVFP4 精度版本,命名为 nvidia/GLM-5.2-NVFP4。该模型通过 Hugging Face 免费层级 API 提供,限制为每小时 300 次或每天 1,000 次请求。作者认为其性能至少应优于 deepseek-v4-flash。AI模型nvidia/GLM-5.2-NVFP4智谱NVIDIAHugging Face推理模型4 个信源在谈推荐理由:NVIDIA 把智谱的 GLM-5.2 量化成 NVFP4 精度,放 Hugging Face 上免费调,还能白嫖,日常推理够用了。原文
11:01AI Will@FinanceYF5精选Jayden Teoh提出Next-Latent Prediction(NextLat),一种自监督学习方法。该方法教Transformer预测下一个隐状态而非直接预测token。NextLat使模型形成紧凑的世界模型,在推理和规划任务上表现更好。通过自speculative decoding,推理速度最高提升3.3倍。AI模型NextLatTransformer推理模型自监督学习加速推理推荐理由:Transformer预测隐状态而不是token能加速3.3倍,还能形成世界模型。Jayden Teoh的新框架值得看看。原文
10:45OpenRouter@OpenRouterAI精选OpenRouter 宣布 GLM-5.2 提供商正在优化推理速度。新增 wafter_ai 和 FireworksAI_HQ 两个快速变体。设置模型为 "z-ai/glm-5.2:nitro" 可根据实时流量自动切换到最快提供商。该功能无需手动切换,持续使用最佳性能。技巧GLM-5.2OpenRouterwafer_aiFireworksAI_HQ推理模型推荐理由:OpenRouter 出的省心用法:设成 nitro 模式,GLM-5.2 自动走最快的推理服务商,不用自己选。原文
08:52Hugging Face: Blog(博客/媒体)精选HuggingFace推出新功能:只需一条命令即可在HF Jobs上启动vLLM推理引擎。vLLM是一个高性能、低延迟的推理框架,支持多种GPU和自定义模型。该功能简化了从模型托管到服务部署的流程,无需手动配置容器或基础设施。用户可以快速部署LLaMA、Mistral等开源模型。技巧vLLMHuggingFaceHF Jobs推理模型部署推荐理由:HuggingFace出了新招:一行命令就能跑vLLM服务器,省去了手动配置的麻烦,适合快速部署自己的模型。原文
04:59elvis@omarsar0精选推文讨论动态工作流适用于少数用例,被视为测试时计算(TTC)的新范式。作者指出动态工作流在爬山式研究实验中表现强劲,且通过精心规划和提高推理水平可获更好结果。文章强调验证器/评审器对结果至关重要,组合不同的编码代理可取得更优效果。当需要从不同代理(如LLM委员会)获取多元视角时,动态工作流非常有用,但前沿模型尚不擅长优化地即时生成测试平台。提到了Mythos等新型模型可能更善于代理编排,且需要更多TTC基准来评估动态工作流的有效性。技巧动态工作流测试时计算推理模型智能体Mythos推荐理由:如果你在做代理编排或研究测试时计算,这条推文给出了非常实用的观察,比如什么时候该用动态工作流、如何用好验证器,还提到了Mythos这类新模型。原文
14:45Fireworks AI@FireworksAI_HQ精选Fireworks AI 与 Harvey 合作研究发现,将前沿闭源模型(如 Opus 4.8)作为顾问代理,与微调的开源工作代理结合,在三个基准测试中均取得更优结果。相比全部使用 Opus 4.8,该混合方案成本降低40-67%。该方法简单部署即可提升效果,为模型调用提供新思路。AI模型Fireworks AIHarveyOpus 4.8开源模型推理模型1 个信源在谈推荐理由:Fireworks AI 的实验证明,把闭源大模型当参谋、开源模型当打手,效果更好还省40%-67%的钱,值得关注。原文
10:48AI Will@FinanceYF5精选LatentMAS提出让多智能体在隐空间直接传递推理状态,跳过文字编解码。该方法在多个基准上准确率提升13.3%,推理速度提高4.3倍,token用量减少83.7%。LatentMAS无需额外训练,可直接插入现有LLM使用,入选ICML 2026 Spotlight论文。AI模型LatentMAS智能体ICML推理模型多智能体推荐理由:这个新方法让多智能体能悄悄交换推理状态,不用写文字,又快又省token,直接插进现有LLM就能用。原文
22:40阿里通义 Qwen@Alibaba_Qwen精选Qwen发布Paradigm II,一种基于世界建模的Agent基础模型。它通过单轮环境预测直接测试于多轮工具调用任务,无需Agent强化学习或任务特定调优。在7项基准上均取得提升,域内Terminal-Bench 2.0提升6.3%、SWE-Bench提升3.4%、WideSearch提升12.8%。域外基准Claw-Eval提升11.3%、QwenClawBench提升9.7%、BFCL v4提升9.0%。世界建模将'先预测后行动'内化为可迁移的推理模式。AI模型QwenParadigm II推理模型智能体世界模型推荐理由:Qwen做了个新Agent模型Paradigm II,不用额外训练就在终端、编码、搜索和工具调用任务上全涨分,尤其没见过的任务也管用。原文
15:24Stanford AI Lab@StanfordAILab精选斯坦福团队提出SPIRAL框架,通过强化学习让LLM在测试时自动协调顺序推理、并行采样和结果聚合。与传统只优化单链推理的训练方法不同,SPIRAL使用set RL训练模型生成对聚合器集体有用的多个候选答案,并用标准RL优化聚合器从这些候选合成改进答案。该方法使所有测试时计算维度(长链、并行样本、聚合)端到端可学习,缩小训练与部署的差距。AI模型SPIRALLLM强化学习推理模型测试时计算扩展推荐理由:斯坦福团队发了SPIRAL,让LLM训练时就学会并行采样和聚合答案,不是只会单链思考,更符合实际推理场景。原文
14:40marktechpost@Sana Hassan精选71°本文通过GLM-5.2的OpenAI兼容API搭建了完整工作流,包括安全加载API密钥和创建可复用聊天封装。演示了思考努力控制、流式推理、函数调用以及工具使用代理的实现。还展示了结构化JSON输出和长上下文检索功能,并记录了token消耗与成本核算。技巧GLM-5.2推理模型函数调用长上下文8 个信源在谈推荐理由:这篇教程手把手教你用GLM-5.2 API实现推理控制、函数调用和检索,代码可直接复用。原文
02:51marktechpost@Asif Razzaq精选73°Sakana AI 推出 Sakana Fugu,一种编排模型,可将用户任务动态路由至可替换的前沿 LLM 池。其增强版 Fugu Ultra 在多个编码、推理和智能体基准测试中取得领先成绩。该模型通过选择最适合的模型来提升任务效率,无需用户手动切换。AI模型Sakana AISakana Fugu编排模型智能体推理模型1 个信源在谈推荐理由:Sakana AI 搞了个 Fugu 编排模型,能自动在多个前沿 LLM 之间切换最优选择,在编码和推理基准上表现很突出。原文
15:18marktechpost@Asif Razzaq精选MoonMath AI 开源了一个基于 HIP 的注意力内核,针对 AMD MI300X GPU 进行了优化。该内核采用单指令汇编包装器和八波流水线架构,在所有形状和舍入模式下均击败了 AMD 官方实现的 AITER v3。基准测试结果显示,新内核在 MI300X 上的性能显著领先,未出现任何退化情况。AI模型MoonMathAMD MI300XHIPAITER v3推理模型推荐理由:MoonMath 开源了一个注意力内核,能在 AMD MI300X 上全面碾压官方 AITER v3,速度更快,所有形状都更强,值得跑推理的人试试。原文
15:18AI Will@FinanceYF5精选Anthropic在2月完成新模型Mythos的训练。Mythos悄然改变了整个研发节奏。过去5个月AI能力跃升部分源于Mythos。领先模型正帮助训练下一代模型,该循环已启动。AI模型MythosAnthropic推理模型模型迭代8 个信源在谈推荐理由:Anthropic悄悄练成了Mythos,据说它直接改变了研发节奏,领先模型开始帮训练下一代模型了。原文
03:54Suhail@Suhail精选Z.ai推出GLM-5.2开源模型,采用MIT开放权重。该模型支持1M上下文窗口,在Terminal-Bench 2.1基准上得分81.0,仅比Claude Opus 4.8低几分。Perplexity CEO此前指出,中国已拥有最强开源模型DeepSeek,且美国开发者正基于其构建应用。GLM-5.2的发布进一步表明开源AI竞赛已非理论。AI模型GLM-5.2Z.aiDeepSeek开源模型推理模型推荐理由:Z.ai刚刚放出了GLM-5.2,MIT开源、100万上下文、跑分81.0,跟Claude Opus 4.8差距很小,做开源模型的得看看。原文
10:15Pandaily@contact@pandaily.com (Pandaily)精选Infinigence的Agentic MaaS平台在六个月内Token调用量增长超过20倍。推理计算支出首次超过训练,成为主要成本驱动。公司定位为芯片与模型之间的中立基础设施层。这反映了中国AI基础设施层对推理算力的巨大需求。行业InfinigenceAgentic MaaS智能体推理模型算力基础设施推荐理由:Infinigence半年token涨了20倍,推理比训练还烧钱,它想当芯片和模型的中间商,值得看看。原文
08:47Sakana AI@SakanaAILabs精选Sakana AI 今日发布其首个商业产品 Sakana Marlin。它是一个自主商业研究助手,只需输入研究主题,便能自主运行约8小时,形成假设、收集信息并验证发现。最终输出结构化幻灯片和数十页的研究报告。Marlin 基于长视野推理和 AB-MCTS 方法,并融合了 Sakana AI 在日本的行业部署经验。产品提供按次付费、Pro、团队和企业计划。AI产品Sakana AIMarlin智能体推理模型推荐理由:Sakana AI 出了个叫 Marlin 的助手,给它一个主题就能自己研究8小时出报告,按次付费没月费,适合做深度商业分析。原文
14:42Simon Willison@simonw精选Jeremy Howard 称 GLM 5.2 是开放权重模型中的奇迹,性能至少与 Opus 4.8 和 GPT 5.5 持平。它速度快、成本低、输出简洁,且擅长长上下文处理。该模型由 Zai_org 发布,目前尚未在 Groq 或 Cerebras 等超快推理提供商上运行,但社区期待其部署。AI模型GLM-5.2Zai_org开放权重推理模型推荐理由:GLM 5.2 开放权重、性能比肩闭源顶尖模型,还便宜又快,写代码或处理长文档会很顺手。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……