全部 AI 动态 · AI 热点

6月29日

13:49

Together AI@togethercompute

GLM-5.2模型已在Together AI平台上架，并通过OpenRouter快速提供服务。Together AI优化推理路径，使模型在长上下文编码和智能体工作负载中每GPU能处理更多token，同时保持低延迟。该模型展现出强劲性能，适合需要高吞吐的复杂任务。

AI模型 GLM-5.2 Together AI OpenRouter 推理模型长上下文

推荐理由：GLM-5.2跑得快，长上下文和智能体场景下Together的优化让token更多更流畅，试试看。

原文

6月24日

09:43

arXiv: DeepSeek@Fengfeng Liang, Yuechen Zhang, Jiaya Jia

精选

Block-GTQ是一种针对RoPE注意力机制的KV缓存量化位分配方法，基于TurboQuant-MSE构建。它在每个层和注意力头上计算RoPE块的能量得分，通过贪心分配整数位宽。在2和3比特每维度仅量化键的实验中，Block-GTQ在10个模型上使每层平均绝对误差降低32-80%，并赢得全部367个层比较。在Llama-3.1-8B-Instruct上以K2V2配置，NIAH六任务平均从70.6提升至97.4，LongBench英文平均从36.87提升至53.31。在DeepSeek-R1-Distill-Qwen-7B上以K3V2配置，AIME 2024/2025得分51.7/37.5，接近fp16的54.2/37.9，而均匀量化降为0.0/0.0。在H800上对Qwen2.5-3B-Instruct实现3.24倍压缩，128K上下文比fp16 FlashAttention2快1.34倍，峰值内存从56.31GB降至19.85GB。

论文 Block-GTQ RoPE KV缓存量化长上下文量化

推荐理由：这篇论文用RoPE感知的位分配方案，在KV缓存量化上显著提升长上下文检索和推理，效果逼平fp16，值得研究量化的朋友细读。

原文

6月23日

14:40

marktechpost@Sana Hassan

精选71°

本文通过GLM-5.2的OpenAI兼容API搭建了完整工作流，包括安全加载API密钥和创建可复用聊天封装。演示了思考努力控制、流式推理、函数调用以及工具使用代理的实现。还展示了结构化JSON输出和长上下文检索功能，并记录了token消耗与成本核算。

技巧 GLM-5.2 推理模型函数调用长上下文

推荐理由：这篇教程手把手教你用GLM-5.2 API实现推理控制、函数调用和检索，代码可直接复用。

原文

6月19日

18:41

Together AI@togethercompute

精选

AI模型 GLM-5.2 Zai_org Together AI 智能体长上下文

推荐理由：GLM-5.2 支持百万级上下文，还能控制推理深度，搞智能体编程和复杂工具链的可以试试。Together AI 上直接用。

原文

04:25

Clement Delangue@ClementDelangue

精选

AI模型 Poolside Laguna M.1 Hugging Face 开源模型长上下文

推荐理由：Poolside 把最强的 Laguna M.1 模型完全开放了，256K 上下文，Apache 2.0 许可，直接去 Hugging Face 下载权重用。

原文

6月17日

23:33

marktechpost@Asif Razzaq

精选

MiniMax 发布 Sparse Attention (MSA) 机制，基于 Grouped Query Attention (GQA) 架构。MSA 包含一个轻量级索引分支，为每个查询和 GQA 组选择 Top-k 键值块；主分支仅关注这些块。在 1M 上下文长度下，每个 token 的注意力计算量减少 28.4 倍。该机制训练在 109B 参数的 MoE 模型上，使用 3T token 预算，下游基准测试中与 GQA 性能相当。

AI模型 MiniMax MSA 稀疏注意力长上下文

推荐理由：MiniMax 搞了个新稀疏注意力 MSA，1M 上下文计算量降 28 倍，准度却一点没掉，适合长文本场景。

原文

23:06

LMSYS Org (SGLang)@lmsysorg

精选

Zai_org 发布了新旗舰模型 GLM-5.2，支持 1M token 长上下文。在 Terminal-Bench 2.1 上，GLM-5.2 得分 81.0，相比 GLM-5.1 的 62.0 提升明显。IndexShare 机制在 1M 上下文下将每 token 的 FLOPs 降低了 2.9 倍，改进的 MTP 将投机解码接受率提升了 20%。该模型在 SGLang 中已获得即日支持。

AI模型 GLM-5.2 Zai_org SGLang 长上下文推理模型

推荐理由：Zai_org 的 GLM-5.2 来了，1M 长上下文拿下了 81.0 的 Terminal-Bench 分数，比上一代高出一截，而且推理效率也优化了，值得上手试试。

原文

11:55

歸藏(guizang.ai)@op7418

74°

智谱 AI 正式发布并开源 GLM-5.2 模型。该模型支持 100 万 token 稳定上下文，并引入思考力度控制能力。架构上采用 IndexShare 机制，每四层稀疏注意力共享 indexer，在百万 token 下将每 token 计算量降低约 2.9 倍。基准测试成绩表现出色，定位处理长周期任务。

AI模型 GLM-5.2 智谱开源模型长上下文推理模型

推荐理由：智谱 GLM-5.2 开源了，百万上下文还能省 2.9 倍算力，做长任务的朋友可以上手试试。

原文

11:36

量子位@十三

智谱AI于2026年6月开源了GLM-5.2模型，支持1M上下文长度。该模型在AI编程评测基准上取得第一，超过此前领先的Fable-5。基于GLM架构的持续优化，GLM-5.2在代码生成任务中展现出更强能力。开源版本已发布在GitHub。

AI模型 GLM-5.2 智谱编程助手开源模型长上下文

推荐理由：智谱开源了GLM-5.2，1M超长上下文，编程能力直接拿下第一，想换编程模型的话可以试试。

原文

08:45

berryxia@berryxia

GLM-5.2 以 MIT 协议免费开源，提供 1M 上下文窗口，重点强化了长程任务的 Agent 能力。在 Coding、Tool use、Reasoning 上相比 GLM-5.1 有明显进步，尤其在需要长时间规划和多步执行的场景。API 价格不变，同时支持 Max 和 High 两种推理模式。社区已在 DeepSWE 等基准上验证其实力，开发者可在本地运行长上下文 Agent。

AI模型 GLM-5.2 开源模型智能体编程助手长上下文

推荐理由：智谱开源了GLM-5.2，MIT协议、1M上下文，编程和Agent任务比上一代强不少，还能本地跑，别错过。

原文

04:01

elvis@omarsar0

72°

Z.ai 宣布推出 GLM-5.2 开源权重模型，MIT 许可发布。其在编码和智能体任务上有显著改进，支持 1M 上下文窗口。提供两种推理等级：GLM-5.2 (max) 和 GLM-5.2 (high)，后者在性能与 token 效率间取得平衡。API 定价与 GLM-5.1 相同，权重已上架 Hugging Face。

AI模型 GLM-5.2 Z.ai 开源模型编码智能体长上下文

推荐理由：Z.ai 发了 GLM-5.2，开源权重、MIT 许可，编码和智能体能力提升明显，还支持 1M 上下文，想玩前沿模型的可以试试。

原文

03:49

ollama@ollama

精选

Z.ai 发布 GLM-5.2，支持 1M token 上下文窗口，专为长程编码和智能体任务设计。提供两种推理模式：GLM-5.2 (max) 和 GLM-5.2 (high)，权重以 MIT 许可开源。现已通过 Ollama 云服务在美国 NVIDIA Blackwell GPU 上可用，API 定价与 GLM-5.1 相同。该模型声称是目前最强开源编码模型。

AI模型 GLM-5.2 Z.ai Ollama 开源模型长上下文

推荐理由：Z.ai 开源了 GLM-5.2，有 1M 上下文窗口，适合写长代码和搭智能体，在 Ollama 上直接就能用，MIT 许可随便玩。

原文

02:17

kimmonismus@kimmonismus

77°

GLM-5.2 以 MIT 许可证开源，权重开放。该模型支持 1M token 上下文窗口。提供 max 和 high 两种推理模式。专门针对大规模部署、自动化研究、性能优化和复杂调试进行训练。API 定价与 GLM-5.1 保持一致。

AI模型 GLM-5.2 智谱开源模型长上下文推理模型

推荐理由：智谱开源了 GLM-5.2，1M 上下文还能选推理模式，做长代码任务更强了。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

12:23

arXiv cs.LG@Mufei Li, Shikun Liu, Dongqi Fu, Haoyu Wang, Yinglong Xia, Hong Li, Hong Yan, Pan Li

KVEraser是一种面向大语言模型KV缓存的编辑方法，旨在高效擦除已处理上下文中的指定片段。该论文提出，直接擦除会导致全局影响，需重新计算后续所有token，成本高昂。KVEraser通过两阶段训练（通用跨度-邻居预训练和任务微调），仅替换被擦除区间的KV状态，保留其余缓存。在1K至32K上下文长度的域内任务中，KVEraser的擦除后性能接近完全重计算，延迟仅增加24%，而完全重计算延迟增加17.6倍。在未见过的长文档问答任务中，KVEraser在有害事实干扰下比近似基线表现更好，速度比完全重计算快3至4倍。

论文 KVEraser KV缓存上下文擦除推理效率长上下文

推荐理由：这篇论文提出KVEraser，能快速从大模型KV缓存中擦除指定内容，不用全部重算，1K-32K长度下延迟只增24%，效果接近重算，适合长上下文场景。

原文

6月15日

14:13

marktechpost@Michal Sutter

79°

Z.ai 于 2026 年 6 月 13 日发布 GLM-5.2，覆盖所有 GLM Coding Plan 层级。该模型支持 100 万 token 的可用上下文窗口，并提供 High 和 Max 两种思考努力级别。GLM-5.2 通过 Anthropic 兼容端点集成到 Claude Code、Cline 和 OpenClaw 等工具中。发布时未公布基准测试结果，MIT 开源权重预计下周发布。

AI模型 Z.ai GLM-5.2 长上下文推理模型开源模型

推荐理由：Z.ai 的 GLM-5.2 支持百万token上下文，还能选思考深度

原文

6月14日

16:18

Pandaily@contact@pandaily.com (Pandaily)

72°

智谱AI宣布将GLM-5.2模型以MIT许可证开源，支持100万token上下文长度。此举直接回应美国针对Anthropic模型的出口限制。GLM-5.2在多项基准测试中表现优异，其开源策略旨在推动国内AI生态发展。

AI模型 GLM-5.2 Zhipu AI 开源模型长上下文 MIT许可证

推荐理由：智谱开源百万token模型

原文

6月12日

22:52

NVIDIA AI@NVIDIAAI

MiniMax 团队发布了 MiniMax M3，这是一个支持文本、图像和视频推理的长上下文多模态模型。模型采用稀疏注意力机制，总参数量约 428B，激活参数仅约 23B，在保持高性能的同时大幅降低了计算成本。该模型已开源权重，可在 Hugging Face 获取，并可通过 NVIDIA 的 GPU 加速端点免费试用。M3 的长上下文能力使其在处理视频、长文档等场景中具有优势。

AI模型 MiniMax M3 多模态模型长上下文开源/仓库

推荐理由：多模态推理模型终于有了高效的开源选择——MiniMax M3 用 23B 激活参数实现长上下文多模态推理，做视频分析或长文档处理的团队可以直接在 NVIDIA 端点免费试，值得关注。

原文

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

12:32

karminski-牙医 (AI工具)@karminski3

精选

FlashMemory 论文提出一种神经内存索引器，能将 DeepSeekV4 的 1M 上下文显存占用从约 10GB 压缩至 1.3GB，且输出准确率反而提升 0.6%。该方法通过预测未来需要的历史片段，按需加载 KVCache，实现注意力降噪。索引器采用解耦训练，无需加载基座模型，训练成本大幅降低。该技术对长文本推理场景具有重大意义，尤其适合资源受限的部署环境。

论文 FlashMemory DeepSeekV4 显存优化长上下文注意力降噪

推荐理由：长文本推理的显存瓶颈被 FlashMemory 大幅缓解，做 LLM 推理优化或部署长上下文模型的团队可以直接参考论文方法，效果甚至比原版更好。

原文

09:13

arXiv cs.AI@Xunhao Lai, Weiqi Xu, Yufeng Yang, Qiaorui Chen, Yang Xu, Lunbin Zeng, Xiaolong Li, Haohai Sun, Haichao Zhu, Vito Zhang, Pengyu Zhao

精选

MiniMax 提出了一种名为 MiniMax Sparse Attention (MSA) 的块级稀疏注意力机制，旨在解决大语言模型在超长上下文（百万级 token）下的计算瓶颈。MSA 基于分组查询注意力（GQA），通过轻量级索引分支对键值块进行评分，并为每个 GQA 组独立选择 Top-k 子集，实现高效的组级稀疏检索。在 109B 参数的多模态模型上，MSA 在 1M 上下文长度下将每 token 注意力计算量减少 28.4 倍，并在 H800 GPU 上实现 14.2 倍预填充和 7.6 倍解码加速。该方法的推理内核已开源，同时发布了基于 MSA 的生产级多模态模型。

论文稀疏注意力长上下文推理加速 MiniMax 开源/仓库

推荐理由：做长上下文推理或 agent 工作流的开发者，终于有了一个能直接部署的稀疏注意力方案——MSA 在 109B 模型上实现 28 倍计算缩减，且内核已开源，值得立刻试跑。

原文

07:01

Together AI@togethercompute

精选

Together AI 团队提出 Untied Ulysses 方法，解决了长上下文训练中的显存瓶颈。传统方法在单节点 8xH100 上训练 Llama 3B 模型时，仅模型参数就会耗尽显存，无法支持 3M token 的上下文长度。新方法通过优化注意力机制，在 8B 和 32B 规模下实现了比先前实现长 25% 的序列训练。这项研究让大模型长上下文训练变得更可行，降低了硬件门槛。

论文长上下文显存优化注意力机制 Together AI 训练效率

推荐理由：长上下文训练一直是显存大户，Untied Ulysses 让单节点就能跑 3M token，做 LLM 训练和推理优化的团队值得关注，能省下不少 GPU 预算。

原文

00:24

SiliconFlowAI@siliconflowai

精选

Google DeepMind 的 Gemma 4 12B 模型已在 SiliconFlow 平台上线，支持 262K 上下文、内置思考、原生工具调用及 140+ 语言。该模型采用无编码器架构，视觉和音频输入直接进入 LLM 主干，降低处理延迟。12B 参数规模但拥有 26B 的“大脑”性能，接近 Google 26B 模型的表现，在多步推理和智能体工作流中表现出色。定价为输入/输出每百万 tokens 0.1/0.3 美元，性价比突出。

AI模型 Gemma 4 智能体多模态长上下文 SiliconFlow

推荐理由：做智能体、长上下文或多模态应用的开发者终于有了一个模型搞定三件事的选择——Gemma 4 12B 在 SiliconFlow 上价格亲民，建议直接上手试试。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

12:57

AI Will@FinanceYF5

88°

Anthropic 的 Claude 5 Fable 模型在 Stripe 的 5000 万行 Ruby 代码库迁移任务中表现出色，将原本需要整支团队耗时两个月的工作压缩至一天完成。该模型在长任务和复杂场景下优势显著，效率、上下文管理能力全面升级，且 token 使用更高效。测试显示，任务越长越复杂，Fable 5 与其他模型的差距越大。这一成果标志着 AI 在大型代码库工程任务中的实用价值迈上新台阶。

AI产品 Claude 5 Fable 代码迁移长上下文效率提升 Stripe

推荐理由：大型代码库迁移是工程团队的噩梦，Fable 5 把两个月压缩成一天，做后端或基础设施的开发者值得关注——这可能是你未来省下整支团队时间的关键工具。

原文

12:12

arXiv cs.LG@Albert Gong, Annabelle Michael Carrell, Raaz Dwivedi, Lester Mackey

精选

研究人员提出了一种名为 Express 的新工具，能将非因果注意力近似转换为因果注意力近似，并保持相同的近似保证。结合最先进的 Thinformer 近似，Express 在因果注意力上实现了已知最佳近似误差，仅需 O(s) 内存和 O(s² log²(n)) 压缩开销。该工具通过高效的 I/O 感知 Triton 实现，在长上下文预填充、KV 缓存压缩、长序列解码等场景中显著超越 FlashAttention 2。这解决了语言模型在长序列处理中的四个关键资源瓶颈。

论文注意力近似因果注意力长上下文 KV缓存压缩 Triton实现

推荐理由：做长上下文语言模型推理优化的团队，Express 能同时提升预填充和解码效率，值得直接集成到现有流水线中。

原文

08:12

08:12Simon Willison’s Weblog（博客/媒体）

88°

Simon Willison 在 Claude Fable 5 发布后第一时间进行了约 5.5 小时的测试。该模型与 Claude Mythos 5 性能相同，但增加了严格的安全护栏，触发时 API 会通知用户并可自动回退到其他模型。Fable 5 拥有 100 万 token 上下文窗口、12.8 万最大输出 token，知识截止于 2026 年 1 月，价格是 Opus 4.8 的两倍。Willison 认为它“感觉很大”，不仅体现在速度和成本上，更在于其知识深度，例如能准确列出他的开源项目。当前挑战已从“模型能做什么”转向“找到它做不了的事”。

AI模型 Claude Fable 5 Claude Mythos 5 安全护栏长上下文推理模型

推荐理由：Claude Fable 5 的“大模型感”让开发者重新思考任务边界——如果你经常用 Claude 处理复杂推理或长上下文任务，这个模型值得一试，但要做好预算准备。

原文

6月9日

10:32

arXiv: DeepSeek@Yan Wang, Qifan Zhang, Jiachen Yu, Tian Liang, Dongyang Ma, Xiang Hu, Zibo Lin, Chunyang Li, Zhichao Wang, Jia Li, Yujiu Yang, Haitao Mi, Dong Yu

精选72°

FlashMemory-DeepSeek-V4 提出了一种名为 Lookahead Sparse Attention (LSA) 的新型推理范式，通过神经记忆索引器预测未来上下文需求，仅保留关键 KV 块在 GPU 内存中。该架构采用解耦训练策略，将索引器作为独立双编码器训练，无需加载主模型。在 LongBench-v2、LongMemEval 等长上下文评测中，LSA 将物理 KV 缓存压缩至全上下文基线的 13.5%，同时下游准确率平均提升 0.6%。在 50 万 token 极端长度下，物理 KV 缓存开销降低超过 90%，且不损害模型核心推理能力。

论文稀疏注意力长上下文 KV缓存压缩 DeepSeek-V4 推理效率

推荐理由：LSA 解决了超长上下文推理的 GPU 内存瓶颈，做长文档分析或大规模序列建模的团队可以直接参考其稀疏注意力方案，显著降低部署成本。

原文

6月8日

09:35

arXiv cs.AI@Zhixuan Liang, Yuxiao Chen, Yurong You, Peter Karkus, Wenhao Ding, Boyi Li, Alexander Popov, Yan Wang, Maximilian Igl, Yiming Li, Danfei Xu, Nikolai Smolyanskiy, Boris Ivanovic, Ping Luo, Marco Pavone

针对自动驾驶中视觉-动作模型处理长时序上下文时计算开销过大的问题，本文提出 COMPACT-VA 框架。它基于条件 VQ-VAE 实现规划对齐的令牌压缩，将扩展上下文压缩为有限表示，同时保留决策关键信息。该方法在训练时利用未来轨迹蒸馏规划意图，推理时从压缩观测中预测意图，并与压缩记忆拼接后输入策略网络进行端到端优化。在动态场景下，COMPACT-VA 在相同令牌预算下成功率提升超 6%，并实现 3.3 倍加速和 2.7 倍内存缩减。

论文自动驾驶令牌压缩 VQ-VAE 长上下文规划对齐

推荐理由：自动驾驶长上下文处理的计算瓶颈终于有了架构兼容的解决方案——COMPACT-VA 无需修改骨干网络即可压缩令牌，做端到端自动驾驶的团队值得关注其 3.3 倍加速效果。

原文

6月5日

12:06