02:49Hugging Face: Blog(博客/媒体)精选Allen AI 发布 DiScoFormer,一种基于 Transformer 的架构,同时学习任意数据分布的密度函数和得分函数。传统方法如 NICE、MAF、ResFlow 需分别建模或使用归一化流,DiScoFormer 通过单一模型完成且无需显式归一化。在 2D 环形、高维高斯混合等多个基准分布上,DiScoFormer 的密度估计和得分误差均低于这些基线。该论文已被 NeurIPS 2024 接收,代码和预训练模型已在 GitHub 开源。AI模型DiScoFormerAllen AITransformer密度估计生成模型推荐理由:Allen AI 搞了个新模型 DiScoFormer,一个 Transformer 既能算密度又能算得分,比 NICE 这些老方法误差更低。想省事搞密度估计的可以看看。原文
01:17Simon Willison’s Weblog(博客/媒体)精选DeepReinforce 发布 Ornith-1.0,一款 MIT 许可的开源模型,基于 Gemma 4 和 Qwen 3.5 预训练。提供 9B Dense、31B Dense、35B MoE 和 397B MoE 四种规格。在编码基准上达到同尺寸开源模型 SOTA。作者在 LM Studio 上测试 35B Q4_K_M GGUF 版本,能流畅运行代理工具调用并处理代码定位任务。AI模型Ornith-1.0DeepReinforceGemma 4Qwen 3.5开源模型1 个信源在谈推荐理由:DeepReinforce 新出的开源编码模型,基于 Gemma 4 和 Qwen 3.5,在代理编码任务上表现不错,LM Studio 就能跑,值得试试。原文
23:49阶跃星辰 Stepfun@Stepfun_AI精选StepFun 的 Step 3.7 Flash 模型在 Claw-Eval General 基准测试中取得第二名的成绩,该基准用于评估自主智能体。模型在多步执行和长程任务鲁棒性上表现强劲,排名仅次于 Claude Opus 4.6。这一结果显示其在真实世界智能体工作负载中的潜力。AI模型Step 3.7 FlashClaw-Eval General智能体推理模型推荐理由:StepFun 的 Step 3.7 Flash 在智能体基准 Claw-Eval General 排第二,仅次于 Claude Opus 4.6,多步执行和长程任务都强,感兴趣可以看看。原文
16:27Pandaily@contact@pandaily.com (Pandaily)精选73°DeepSeek 与北京大学联合开发的 DSpark 推理系统获得 PyTorch 核心维护者 Dmytro Dzhulgakov 的详细技术分析。他重点称赞 DSpark 的半并行草稿(semi-parallel drafting)机制,能提升推理吞吐量。分析指出该系统达到生产级工程水平(production-grade engineering),在特定负载下相比基线有显著加速。这一评测为开源推理系统提供了高含金量的第三方验证。AI模型DeepSeekDSparkPyTorch推理模型开源模型推荐理由:PyTorch 核心大佬亲自下场拆解 DeepSeek 的 DSpark,说它半并行草稿很牛、工程落地扎实,搞推理优化的必看。原文
13:51Together AI@togethercompute精选Together Compute推出ParallelKernelBench开放基准测试,专门评估LLM编写多GPU内核的难度。该基准基于50个真实CUDA通信问题,性能取决于通过NVLink高效移动数据。测试结果将于6月30日在aiDotEngineer World's Fair上由Simran Arora分享。AI模型ParallelKernelBenchTogether ComputeCUDANVLink基准测试推荐理由:Together Compute搞了个ParallelKernelBench,专门测LLM能不能写好复杂的多GPU内核,比单GPU难多了,感兴趣的话可以去现场听分享。原文
13:51Together AI@togethercompute精选ParallelKernelBench评估了LLMs编写多GPU内核的能力,包含87个来自Megatron-LM、DeepSpeed、DeepEP、TensorRT-LLM、NeMo-RL等真实代码库的问题。测试结果显示LLMs在单GPU内核上表现良好,但在多GPU场景下完全失败。该研究由Willy Chan等人完成,揭示了当前LLM在多GPU编程中的核心缺陷。AI模型ParallelKernelBenchMegatron-LMDeepSpeed多GPU基准测试推荐理由:新基准ParallelKernelBench发现,LLM写单GPU代码还行,但多个GPU一起就瞎了。想看看AI编程到底卡在哪?原文
13:51Together AI@togethercompute精选智谱AI的GLM-5.2模型在Together AI平台展示了端到端代码修复能力,可读取issue、推理场景并自动生成补丁。一年前这类任务还被认为是闭源模型(如GPT-4)的专属领域,如今开源模型已能胜任。该模型未公布具体基准分数,但实际演示表明其编程推理能力接近闭源水平。AI模型GLM-5.2Together AI推理模型编程助手开源模型推荐理由:开源模型GLM-5.2能自己读代码问题、推理并修复,以前只有闭源模型才能做到,现在用Together AI就能跑。原文
13:50阿里云 Alibaba Cloud@alibaba_cloud精选在 Flink Forward Asia Shenzhen 2026 上,阿里巴巴云研究员冯王提到,AI 时代模型与数据共同决定智能体质量。Apache Flink 升级为 Agentic Streaming for AI,并与 Agentic Lake 协同,构建面向 AI 的原生数据基础设施。该架构支持实时代理工作流,为下一代智能体提供统一数据底座。AI模型Apache FlinkAgentic StreamingAgentic Lake阿里巴巴流处理推荐理由:阿里巴巴把 Apache Flink 改造成专门给 AI 智能体用的实时流处理引擎,和 Agentic Lake 搭着用,比传统批处理更适合 Agent 场景。原文
13:50阶跃星辰 Stepfun@Stepfun_AI精选StepFun 发布 Step 3.7 Flash 模型,专为高效智能体工作负载设计。该模型具备原生多模态理解、强智能体编程能力、可靠工具调用以及网页与视觉搜索工作流。模型已通过 Novita Labs 在 OpenRouter 平台上提供。StepFun 称这是为生产级 AI 智能体打造的高效方案。AI模型Step 3.7 FlashStepFunNovita LabsOpenRouter智能体推荐理由:StepFun 刚出了 Step 3.7 Flash,专为智能体打造的模型,多模态、能编程、会搜图搜网页,现在就能在 OpenRouter 上试。原文
13:49阶跃星辰 Stepfun@Stepfun_AI精选Step 3.7 Flash 是开源多模态推理模型,现已在 DeepInfra API 上线。该模型支持私有端点部署,适用于专用负载场景。它专为智能体编码、工具使用、搜索和视觉工作流设计。开发者可通过 DeepInfra 的 API 直接调用。AI模型Step 3.7 FlashDeepInfra多模态推理模型开源模型推荐理由:Step 3.7 Flash 开源多模态推理模型刚上线 DeepInfra,支持私有部署,适合智能体编程和视觉任务,开发者可以试试。原文
13:49Microsoft AI@MicrosoftAI精选微软推出新编程模型 MAI-Code-1-Flash,在真实 GitHub Copilot 环境中训练,具备高速和 token 高效特性。该模型可通过 VS Code 的 Copilot Chat 完成规划、构建、运行和测试。演示中,它从单个 frost banner 生成完整季节性快照并通过测试,耗时几分钟,成本仅几美分。AI模型MAI-Code-1-FlashMicrosoft编程助手代码生成GitHub Copilot推荐理由:微软出了个新模型 MAI-Code-1-Flash,直接在 Copilot 里跑,能自动把草图变成完整测试通过的代码,又快又便宜。原文
13:49Jasper AI@heyjasperai精选72°Jasper Research 宣布推出 MONET 数据集,从 29 亿张图片中精炼出 1.049 亿张高质量样本,成为全球最大的开放文本-图像数据集。该数据集采用 Apache 2.0 许可,可免费商用。同时发布的 nano-t2i 方案支持在单张 GPU 上训练有竞争力的文生图模型。AI模型MONETJasper Researchnano-t2iApache 2.0多模态推荐理由:Jasper Research 放出了 MONET 数据集,有 1 亿多张图,免费商用,还能用 nano-t2i 在单卡上训练模型,做文生图的值得试试。原文
13:09vLLM@vllm_project精选vLLM-Omni TTS团队针对Qwen3-TTS、VoxCPM2、Higgs Audio V3、Fish Speech S2 Pro四种TTS模型分别设计了不同的优化策略。对Qwen3-TTS通过解耦连接器分块和批处理Stage-0解码预处理,在H20×2上音频吞吐量提升61.5%,P99延迟减半。VoxCPM2采用whole-forward torch.compile和CFM/LocDiT解码尾部跨请求批处理,音频吞吐量提升172%。Higgs Audio V3将多码本解码状态机迁移到GPU驻留张量,实现2.7倍加速。Fish Speech S2 Pro为纯解码路径设计了模型特定的q_len=1 Triton注意力内核。AI模型vLLMQwen3-TTSVoxCPM2Higgs Audio V3Fish Speech S2 Pro语音合成推理优化推荐理由:vLLM团队分享了优化四种主流TTS模型服务的具体技巧,包括性能提升数据和实现细节,对部署TTS服务很有参考价值。原文
01:31vLLM@vllm_project精选百度Unlimited-OCR现已集成到vLLM推理框架中,基于Reference Sliding Window Attention(R-SWA)机制实现恒定KV缓存,避免内存暴涨和速度下降。该模型能在32K上下文预算下一次性转录40+页文档,且编辑距离极低。在6K输出token场景下,推理速度比DeepSeek-OCR快35%,GPU内存和吞吐量保持恒定。AI模型Unlimited-OCRBaiduvLLMOCRR-SWA1 个信源在谈推荐理由:百度开源了Unlimited-OCR,在vLLM上跑,能一次性解析整本书,内存不涨,比DeepSeek-OCR快35%,做文档OCR的好东西。原文
00:21berryxia@berryxia精选73°DeepSeek开源了DSpark投机解码框架,用于推理优化。DSpark通过并行backbone加顺序Markov head解决传统投机解码的后缀衰减问题,并引入置信度调度和负载感知调度器。在DeepSeek-V4生产环境中,单用户生成速度比MTP-1基线快60-85%,不同场景吞吐提升1.5x到5x。开源内容包括DeepSeek-V4-Pro-DSpark和DeepSeek-V4-Flash-DSpark模型checkpoint以及MIT协议的DeepSpec训练代码。AI模型DeepSeekDSparkDeepSeek-V4投机解码推理优化推荐理由:DeepSeek开源了DSpark框架,能让你的V4模型推理提速60%以上,且不影响质量。它解决了投机解码在真实部署中的难题,已经稳定跑在生产环境。原文
18:27Decoder@Maximilian Schreiner精选普林斯顿大学研究团队创建了CEO-Bench基准测试,要求AI代理在模拟环境中经营一家软件公司500天。测试结果显示,大多数参与模型最终破产,仅三个AI模型的资本高于初始资金。令人意外的是,一个简单的、不依赖AI的规则启发式方法几乎击败了所有AI模型。该测试揭示了当前AI在长期决策与资源管理方面的局限性。AI模型CEO-BenchPrinceton智能体基准测试AI代理推荐理由:普林斯顿大学用500天模拟测试AI经营公司,结果大部分亏钱,一个非AI规则反而更稳。看看哪三个模型赚钱了。原文
16:03Decoder@Jonathan Kemper精选新浪微博发布开源模型VibeThinker-3B,仅30亿参数。在数学和编程基准上,它匹配了DeepSeek V3.2和Kimi K2.5,后两者参数规模大333倍。模型通过多阶段后训练实现高性能。研究人员假设:逻辑推理可压缩进小模型,但广泛世界知识不行。AI模型VibeThinker-3B新浪推理模型开源模型推荐理由:30亿参数的小模型推理能力居然能打千亿级大模型,新浪VibeThinker-3B在数学和编程上很强,而且开源了。原文
13:09pandaily@contact@pandaily.com (Pandaily)精选73°DeepSeek 在获 70 亿美元融资后发布首篇论文,提出 DSpark 推测解码框架,在无需额外训练的情况下将大模型生成速度提升 85%。该框架通过轻量级草稿模型配合验证机制加速推理,在多个基准测试中达到与原始模型相当的质量。DSpark 支持即插即用,可适配现有 DeepSeek 系列模型,显著降低延迟。AI模型DeepSeekDSpark推理模型速度优化推荐理由:DeepSeek 刚发了 DSpark,跑大模型生成能快 85%,还是即插即用的。搞推理加速的朋友可以关注。原文
13:01marktechpost@Asif Razzaq精选Liquid AI 发布了 LFM2.5-230M,这是其最小的 230M 参数开源权重模型。该模型在 Galaxy S25 Ultra 上达到 213 tok/s,在 Raspberry Pi 5 上为 42 tok/s。基于 LFM2 架构,它专注于工具使用和数据提取,在指令遵循上击败了 Qwen3.5-0.8B 和 Gemma 3 1B 等更大模型。模型支持 llama.cpp、MLX、vLLM、SGLang 和 ONNX 框架。AI模型LFM2.5-230MLiquid AI开源模型设备端推理推理框架1 个信源在谈推荐理由:Liquid AI 出了个超小模型 LFM2.5-230M,手机跑 213 tokens 每秒,树莓派也能跑 42,指令遵循还比 Qwen3.5-0.8B 和 Gemma 3 1B 强。原文
12:39berryxia@berryxia精选Google Research在2024年ICML发布了时间序列基础模型TimesFM,2025年9月推出2.5版本。参数从500M降至200M,上下文从2048扩展到16K,新增30M分位数预测头可输出10%-90%置信区间。该模型在跨领域数据上预训练后,能零样本预测任意新序列。2026年4月增加通过HuggingFace Transformers和PEFT的LoRA微调能力。TimesFM已集成BigQuery ML、Google Sheets和Vertex AI,开源版本可用两行Python代码调用。AI模型TimesFMGoogle Research时间序列预测预训练模型零样本推荐理由:Google搞了个时间序列神器TimesFM,零样本预测,参数200M一张GPU就能跑,还能在Google Sheets里用,pip install两行代码搞定,做预测的别错过。原文
07:07Suhail@Suhail精选Hamish Ivison等人发布了Tmax,一个基于强化学习的开源终端智能体模型。在默认设置和65k token预算下,Tmax优于之前的开源终端使用工作。团队公开了所有训练数据、模型权重和rollouts,方便复现和进一步研究。AI模型TmaxRLterminal agent开源模型智能体推荐理由:Tmax把终端智能体的RL训练配方全开源了,65k token里就跑赢之前的工作,想自己训智能体的可以抄作业。原文
05:01ollama@ollama精选Ollama 宣布支持运行 Ornith 1.0 系列模型,包括 9B、31B Dense、35B MoE 和 397B MoE 四个版本。该模型在 SWE-Bench verified 上达到 82.4,Terminal-Bench 2.1 得分 77.5,多语言 SWE-Bench 得分 78.9。它基于 Gemma4 和 Qwen3.5 后训练,采用强化学习联合优化 scaffold 和解决方案。所有模型以 MIT 许可证开源,支持商业和研究用途。AI模型OllamaOrnithSWE-Bench编程助手开源模型2 个信源在谈推荐理由:Ollama 现在可以直接跑 Ornith 编程智能体了,从 9B 到 397B 都有,SWE-Bench 拿了 82.4 分,本地搞智能体编码超方便。原文
21:12LMSYS Org (SGLang)@lmsysorg精选英伟达与智谱AI合作,发布了基于GLM-5.2的NVFP4量化检查点。该模型为744B参数混合专家架构(40B活跃参数),专注于推理和编码任务。NVFP4量化通过NVIDIA Model Optimizer实现,在降低内存占用的同时保持前沿推理性能。模型还支持稀疏注意力和IndexShare索引器,实现高效长上下文处理。目前已在Blackwell/Grace Blackwell上通过SGLang提供首日支持。AI模型GLM-5.2NVFP4NVIDIASGLang推理模型5 个信源在谈推荐理由:英伟达把GLM-5.2压缩成NVFP4,内存省一大截,推理编码在Blackwell上直接跑,SGLang第一时间就能用。原文
21:12LMSYS Org (SGLang)@lmsysorg精选Liquid AI 发布了 LFM2.5-230M 模型,参数规模仅 230M,是其最小模型。该模型基于 LFM2 架构,专为设备端部署设计,推理速度极快。它可在云端 GPU 和低成本 CPU 上运行,并支持工具调用和结构化数据提取。性能超过两倍参数量的模型,且已获 SGLang 的 Day 0 支持。AI模型LFM2.5-230MLiquid AISGLang推理模型设备端部署推荐理由:Liquid AI 新出的 230M 小模型,跑得飞快,还能干工具调用的活,比两倍大的模型还强。原文
18:57IT之家(博客/媒体)精选鹏城云脑Ⅲ系统搭载华为OceanStor A800存储,在IO500 Full List和Research List双榜登顶,总分603,334.58分,带宽8,291.11 GiB/s,元数据性能43,903,983.64 kIOP/s,综合性能较历史最高纪录提升2.8倍。测试使用664个计算节点、79,680个并行进程,通过13项测试。华为OceanStor A800基于对等全互联架构与数控分离设计,单框吞吐量达500GB/s,支持512个控制器扩展。AI模型鹏城云脑Ⅲ华为OceanStor A800IO500高性能计算分布式存储推荐理由:华为OceanStor A800让鹏城云脑Ⅲ在IO500上总分冲到60万,是旧纪录的2.8倍,存储性能天花板又抬高了。原文
13:54vLLM@vllm_project精选NVIDIA发布GLM-5.2的NVFP4检查点,在Blackwell GPU上相比FP8内存占用降低一半。该模型在推理、编码和长上下文基准测试中保持与FP8相同的准确率。用户可通过vLLM直接加载运行:vllm serve nvidia/GLM-5.2-NVFP4。AI模型GLM-5.2NVFP4vLLMNVIDIA推理模型4 个信源在谈推荐理由:想省显存又不想降精度?GLM-5.2的NVFP4版在vLLM上线了,比FP8省一半内存,推理编码长文本都稳。原文
13:28lmarena.ai@lmarena_ai精选Agent Arena通过代码编写、幻灯片制作等真实任务评估模型性能。Opus 4.8 Thinking每会话消耗较少token,质量提升+9.2%;Fable达到+14.1%的最高质量。GPT-5.5系列模型(+6.2%至+8.6%)以更少token超越前沿。Gemini-3.5 Flash消耗token最多但效果不佳,Grok Build 0.1消耗20K+ token却出现负提升。AI模型Agent ArenaOpusFableGPT-5.5推理模型推荐理由:想找token性价比高的模型?Agent Arena告诉你Opus和Fable有多能打,GPT-5.5也很省token。原文
13:06lmarena.ai@lmarena_ai精选72°GLM-5.2 (Max) 在 Code Arena 前端排行榜上获得第2名,比 Claude Opus 4.7 (Thinking) 高出 29 分。在 React 子榜单排名第2,HTML 子榜单第4。在品牌营销、数据与分析、消费产品等6个子类别中均位列第一。该模型是开源模型中对 Kimi-K2.6 和 Minimax-M3 优势最大的。在社区投票的单次前端编码测试中展示了10个对比案例。AI模型GLM-5.2Code ArenaClaude Opus 4.8开源模型编程助手2 个信源在谈推荐理由:GLM-5.2 在社区投票的编码竞技场上压过 Claude Opus,你可以在前端任务中试试它的单次生成效果。原文
12:56Epoch AI@EpochAIResearch精选Epoch AI 推出了 MirrorCode,一个长周期软件工程基准,允许 AI 模型自主编程数天。最佳模型(如 GPT-4、Claude 3.5)在部分任务上表现达到人类工程师数周的工作量。该基准包含超过 50 个复杂编程任务,每个任务需要多步代码修改和调试。结果显示,当前 AI 在处理持续数小时的工程任务时仍面临挑战,但进步显著。AI模型MirrorCodeEpoch AI编程助手基准测试推理模型1 个信源在谈推荐理由:Epoch AI 搞了个新基准 MirrorCode,让 AI 连续写几天代码,最强模型能干人类几周的活,想看看 AI 编程天花板在哪可以关注。原文
12:23Decoder@Matthias Bastian精选Epoch AI 发布新基准 MirrorCode,测试 AI 模型能否在无原始代码时重建完整程序。Claude Opus 4.7 以 56% 的解决率领先,曾在 14 小时内重建 16,000 行工具包。个别模型为单个 MirrorCode 任务连续运行 19 天,花费 2,600 美元。所有测试模型在最复杂任务上均失败。AI模型MirrorCodeEpoch AIClaude Opus 4.7代码生成基准测试1 个信源在谈推荐理由:Epoch AI 搞了个新基准 MirrorCode,专测 AI 能不能凭空抄作业。Claude Opus 4.7 解了一半,但最难的题全挂,甚至有个模型烧了 19 天才花掉 2600 刀。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……