09:43arXiv: DeepSeek@Fengfeng Liang, Yuechen Zhang, Jiaya Jia精选Block-GTQ是一种针对RoPE注意力机制的KV缓存量化位分配方法,基于TurboQuant-MSE构建。它在每个层和注意力头上计算RoPE块的能量得分,通过贪心分配整数位宽。在2和3比特每维度仅量化键的实验中,Block-GTQ在10个模型上使每层平均绝对误差降低32-80%,并赢得全部367个层比较。在Llama-3.1-8B-Instruct上以K2V2配置,NIAH六任务平均从70.6提升至97.4,LongBench英文平均从36.87提升至53.31。在DeepSeek-R1-Distill-Qwen-7B上以K3V2配置,AIME 2024/2025得分51.7/37.5,接近fp16的54.2/37.9,而均匀量化降为0.0/0.0。在H800上对Qwen2.5-3B-Instruct实现3.24倍压缩,128K上下文比fp16 FlashAttention2快1.34倍,峰值内存从56.31GB降至19.85GB。论文Block-GTQRoPEKV缓存量化长上下文量化推荐理由:这篇论文用RoPE感知的位分配方案,在KV缓存量化上显著提升长上下文检索和推理,效果逼平fp16,值得研究量化的朋友细读。原文
14:40marktechpost@Sana Hassan精选71°本文通过GLM-5.2的OpenAI兼容API搭建了完整工作流,包括安全加载API密钥和创建可复用聊天封装。演示了思考努力控制、流式推理、函数调用以及工具使用代理的实现。还展示了结构化JSON输出和长上下文检索功能,并记录了token消耗与成本核算。技巧GLM-5.2推理模型函数调用长上下文8 个信源在谈推荐理由:这篇教程手把手教你用GLM-5.2 API实现推理控制、函数调用和检索,代码可直接复用。原文
18:41Together AI@togethercompute精选Zai_org 推出其最新旗舰开源模型 GLM-5.2,支持 1M token 长上下文,可灵活调整推理思考力度。该模型在智能体编程任务上表现更强,现已通过 Together AI 提供推理服务,专为长上下文和工具密集型智能体工作负载优化。AI模型GLM-5.2Zai_orgTogether AI智能体长上下文推荐理由:GLM-5.2 支持百万级上下文,还能控制推理深度,搞智能体编程和复杂工具链的可以试试。Together AI 上直接用。原文
04:25Clement Delangue@ClementDelangue精选Poolside 发布了其最新模型 Laguna M.1,拥有 256K 上下文长度。该模型采用 Apache 2.0 许可,权重已开放至 Hugging Face。包括基础版和微调版检查点可供下载。AI模型PoolsideLaguna M.1Hugging Face开源模型长上下文2 个信源在谈推荐理由:Poolside 把最强的 Laguna M.1 模型完全开放了,256K 上下文,Apache 2.0 许可,直接去 Hugging Face 下载权重用。原文
23:33marktechpost@Asif Razzaq精选MiniMax 发布 Sparse Attention (MSA) 机制,基于 Grouped Query Attention (GQA) 架构。MSA 包含一个轻量级索引分支,为每个查询和 GQA 组选择 Top-k 键值块;主分支仅关注这些块。在 1M 上下文长度下,每个 token 的注意力计算量减少 28.4 倍。该机制训练在 109B 参数的 MoE 模型上,使用 3T token 预算,下游基准测试中与 GQA 性能相当。AI模型MiniMaxMSA稀疏注意力长上下文推荐理由:MiniMax 搞了个新稀疏注意力 MSA,1M 上下文计算量降 28 倍,准度却一点没掉,适合长文本场景。原文
23:06LMSYS Org (SGLang)@lmsysorg精选Zai_org 发布了新旗舰模型 GLM-5.2,支持 1M token 长上下文。在 Terminal-Bench 2.1 上,GLM-5.2 得分 81.0,相比 GLM-5.1 的 62.0 提升明显。IndexShare 机制在 1M 上下文下将每 token 的 FLOPs 降低了 2.9 倍,改进的 MTP 将投机解码接受率提升了 20%。该模型在 SGLang 中已获得即日支持。AI模型GLM-5.2Zai_orgSGLang长上下文推理模型推荐理由:Zai_org 的 GLM-5.2 来了,1M 长上下文拿下了 81.0 的 Terminal-Bench 分数,比上一代高出一截,而且推理效率也优化了,值得上手试试。原文
03:49ollama@ollama精选Z.ai 发布 GLM-5.2,支持 1M token 上下文窗口,专为长程编码和智能体任务设计。提供两种推理模式:GLM-5.2 (max) 和 GLM-5.2 (high),权重以 MIT 许可开源。现已通过 Ollama 云服务在美国 NVIDIA Blackwell GPU 上可用,API 定价与 GLM-5.1 相同。该模型声称是目前最强开源编码模型。AI模型GLM-5.2Z.aiOllama开源模型长上下文10 个信源在谈推荐理由:Z.ai 开源了 GLM-5.2,有 1M 上下文窗口,适合写长代码和搭智能体,在 Ollama 上直接就能用,MIT 许可随便玩。原文
12:32karminski-牙医 (AI工具)@karminski3精选FlashMemory 论文提出一种神经内存索引器,能将 DeepSeekV4 的 1M 上下文显存占用从约 10GB 压缩至 1.3GB,且输出准确率反而提升 0.6%。该方法通过预测未来需要的历史片段,按需加载 KVCache,实现注意力降噪。索引器采用解耦训练,无需加载基座模型,训练成本大幅降低。该技术对长文本推理场景具有重大意义,尤其适合资源受限的部署环境。论文FlashMemoryDeepSeekV4显存优化长上下文注意力降噪推荐理由:长文本推理的显存瓶颈被 FlashMemory 大幅缓解,做 LLM 推理优化或部署长上下文模型的团队可以直接参考论文方法,效果甚至比原版更好。原文
09:13arXiv cs.AI@Xunhao Lai, Weiqi Xu, Yufeng Yang, Qiaorui Chen, Yang Xu, Lunbin Zeng, Xiaolong Li, Haohai Sun, Haichao Zhu, Vito Zhang, Pengyu Zhao精选MiniMax 提出了一种名为 MiniMax Sparse Attention (MSA) 的块级稀疏注意力机制,旨在解决大语言模型在超长上下文(百万级 token)下的计算瓶颈。MSA 基于分组查询注意力(GQA),通过轻量级索引分支对键值块进行评分,并为每个 GQA 组独立选择 Top-k 子集,实现高效的组级稀疏检索。在 109B 参数的多模态模型上,MSA 在 1M 上下文长度下将每 token 注意力计算量减少 28.4 倍,并在 H800 GPU 上实现 14.2 倍预填充和 7.6 倍解码加速。该方法的推理内核已开源,同时发布了基于 MSA 的生产级多模态模型。论文稀疏注意力长上下文推理加速MiniMax开源/仓库推荐理由:做长上下文推理或 agent 工作流的开发者,终于有了一个能直接部署的稀疏注意力方案——MSA 在 109B 模型上实现 28 倍计算缩减,且内核已开源,值得立刻试跑。原文
07:01Together AI@togethercompute精选Together AI 团队提出 Untied Ulysses 方法,解决了长上下文训练中的显存瓶颈。传统方法在单节点 8xH100 上训练 Llama 3B 模型时,仅模型参数就会耗尽显存,无法支持 3M token 的上下文长度。新方法通过优化注意力机制,在 8B 和 32B 规模下实现了比先前实现长 25% 的序列训练。这项研究让大模型长上下文训练变得更可行,降低了硬件门槛。论文长上下文显存优化注意力机制Together AI训练效率推荐理由:长上下文训练一直是显存大户,Untied Ulysses 让单节点就能跑 3M token,做 LLM 训练和推理优化的团队值得关注,能省下不少 GPU 预算。原文
00:24SiliconFlowAI@siliconflowai精选Google DeepMind 的 Gemma 4 12B 模型已在 SiliconFlow 平台上线,支持 262K 上下文、内置思考、原生工具调用及 140+ 语言。该模型采用无编码器架构,视觉和音频输入直接进入 LLM 主干,降低处理延迟。12B 参数规模但拥有 26B 的“大脑”性能,接近 Google 26B 模型的表现,在多步推理和智能体工作流中表现出色。定价为输入/输出每百万 tokens 0.1/0.3 美元,性价比突出。AI模型Gemma 4智能体多模态长上下文SiliconFlow7 个信源在谈推荐理由:做智能体、长上下文或多模态应用的开发者终于有了一个模型搞定三件事的选择——Gemma 4 12B 在 SiliconFlow 上价格亲民,建议直接上手试试。原文
12:12arXiv cs.LG@Albert Gong, Annabelle Michael Carrell, Raaz Dwivedi, Lester Mackey精选研究人员提出了一种名为 Express 的新工具,能将非因果注意力近似转换为因果注意力近似,并保持相同的近似保证。结合最先进的 Thinformer 近似,Express 在因果注意力上实现了已知最佳近似误差,仅需 O(s) 内存和 O(s² log²(n)) 压缩开销。该工具通过高效的 I/O 感知 Triton 实现,在长上下文预填充、KV 缓存压缩、长序列解码等场景中显著超越 FlashAttention 2。这解决了语言模型在长序列处理中的四个关键资源瓶颈。论文注意力近似因果注意力长上下文KV缓存压缩Triton实现推荐理由:做长上下文语言模型推理优化的团队,Express 能同时提升预填充和解码效率,值得直接集成到现有流水线中。原文
10:32arXiv: DeepSeek@Yan Wang, Qifan Zhang, Jiachen Yu, Tian Liang, Dongyang Ma, Xiang Hu, Zibo Lin, Chunyang Li, Zhichao Wang, Jia Li, Yujiu Yang, Haitao Mi, Dong Yu精选72°FlashMemory-DeepSeek-V4 提出了一种名为 Lookahead Sparse Attention (LSA) 的新型推理范式,通过神经记忆索引器预测未来上下文需求,仅保留关键 KV 块在 GPU 内存中。该架构采用解耦训练策略,将索引器作为独立双编码器训练,无需加载主模型。在 LongBench-v2、LongMemEval 等长上下文评测中,LSA 将物理 KV 缓存压缩至全上下文基线的 13.5%,同时下游准确率平均提升 0.6%。在 50 万 token 极端长度下,物理 KV 缓存开销降低超过 90%,且不损害模型核心推理能力。论文稀疏注意力长上下文KV缓存压缩DeepSeek-V4推理效率推荐理由:LSA 解决了超长上下文推理的 GPU 内存瓶颈,做长文档分析或大规模序列建模的团队可以直接参考其稀疏注意力方案,显著降低部署成本。原文
12:06arXiv cs.AI@Yutao Sun, Yanqi Zhang, Li Dong, Jianyong Wang, Furu Wei精选本文提出跨层稀疏注意力(CLSA),一种基于KV共享架构(如YOCO)的新方法。核心创新在于不仅共享KV缓存,还共享路由索引——单个索引器计算一次token级top-k选择,结果跨层复用,既保留了细粒度选择性,又分摊了路由开销。实验显示,在128K上下文下,CLSA实现最高7.6倍解码加速和17.1倍整体吞吐提升,同时保持模型质量。这为长上下文LLM提供了一种兼顾效率与质量的架构方案。论文稀疏注意力长上下文推理加速KV缓存YOCO推荐理由:长上下文推理的瓶颈终于有了系统级解法——CLSA通过共享路由索引同时加速预填充、缓存和解码,做LLM推理优化的团队值得看看这个架构思路。原文
10:02pandaily@contact@pandaily.com (Pandaily)精选76°中国科学技术大学(USTC)研究人员开源了一种创新的智能体驱动长上下文训练范式,该范式通过智能体引导的数据生成和训练策略,显著提升了长上下文处理效率。实验表明,一个30亿参数的模型在长上下文任务上达到了与阿里巴巴Qwen3-235B模型相当的性能,而参数量仅为后者的八分之一。这一突破降低了长上下文模型训练的门槛,为资源有限的团队提供了高效方案。该范式已开源,有望推动长上下文AI应用的普及。论文长上下文智能体开源/仓库训练范式USTC推荐理由:中科大用30B模型打平235B的长上下文能力,做长上下文训练的团队可以直接复用这套开源范式,省下大量算力和数据成本。原文
18:53岚叔@lufzzliz精选76°MiniMax 发布新一代旗舰模型 M3,面向 coding agent、长上下文和多模态任务。M3 支持 1M 上下文,核心技术创新是 MiniMax Sparse Attention (MSA),通过稀疏注意力将 KV 分块并精确选取相关块,大幅降低长上下文计算成本。在 1M 上下文下,每 token 计算量仅为上一代的 1/20,prefill 提速 9 倍以上,decode 提速 15 倍以上。M3 支持文本、图片、视频输入,将长上下文、工具调用、多模态理解和持续执行能力整合,明确押注 agentic coding 场景。AI模型MiniMax-M3稀疏注意力长上下文Agentic Coding多模态6 个信源在谈推荐理由:M3 的稀疏注意力解决了长上下文推理的成本痛点,做 coding agent 和自动化任务的开发者可以直接关注——1M 上下文下计算量骤降 95%,意味着更长的任务链也能跑得动。原文
15:16pandaily@contact@pandaily.com (Pandaily)精选83°MiniMax 发布了其旗舰模型 M3,声称这是国内首个将前沿编码、智能体能力、100 万 token 上下文窗口和原生多模态处理整合在单一架构中的 AI 模型。M3 模型在多项基准测试中表现出色,尤其在长文本理解和复杂任务执行方面。该模型支持同时处理文本、图像、音频等多种输入,并具备强大的代码生成和工具调用能力。MiniMax 表示 M3 旨在为开发者和企业提供更高效、更全面的 AI 解决方案。AI模型MiniMaxM3多模态长上下文智能体推荐理由:MiniMax M3 将 1M 上下文、多模态和智能体能力打包进一个模型,做长文本处理或多模态应用的开发者可以直接用它替代多个模型组合,省心又高效。原文
14:50歸藏(guizang.ai)@op7418精选76°MiniMax 正式发布大版本模型升级 MiniMax M3,核心亮点包括标配 1M 超长上下文、采用新的 MSA(MoE with Segment-wise Attention)稀疏注意力架构,以及从训练起就融合了文本、图片、视频和桌面操作的原生多模态能力。MSA 架构在 100 万上下文下每 token 计算量仅为上一代的约 1/20,大幅提升可落地性。API 价格同步更新,小于 512k 的 API 限时五折(7 天)。模型权重和技术报告将在约 10 天后开源。AI模型MiniMax M3长上下文稀疏注意力多模态API6 个信源在谈推荐理由:MiniMax M3 把长上下文、稀疏注意力和多模态融合做到了一个模型里,而且计算效率大幅提升,做 Agent 开发、多模态应用或长文档处理的团队可以直接用 API 试试,价格也很友好。原文
11:11OpenRouter@OpenRouterAI精选76°MiniMax-M3 是一款前沿开源权重模型,已在 OpenRouter 平台上线。它集成了 100 万 token 的超长上下文窗口、顶尖的编程与智能体能力,以及原生支持图像和视频的多模态处理。该模型在编码和智能体任务上表现卓越,同时保持了开源特性,为开发者和研究者提供了强大的工具。其 1M token 上下文窗口尤其适合处理长文档、复杂代码库和多模态数据融合场景。AI模型MiniMax-M3开源模型长上下文多模态编程助手6 个信源在谈推荐理由:MiniMax-M3 把长上下文、强编码和多模态塞进一个开源模型里,做复杂智能体或长文档处理的团队可以直接在 OpenRouter 上试,省去自己部署的麻烦。原文
09:06NVIDIA AI@NVIDIAAI精选76°NVIDIA 宣布推出 Step 3.7 Flash 模型,这是一个 198B 参数的混合专家(MoE)模型,但仅需 11B 活跃参数即可运行,大幅降低推理成本。该模型支持 256K 上下文长度,并原生支持图像和视频输入。即日起可在 build.nvidia.com 上通过 GPU 加速端点使用,也可通过 NVIDIA NIM 微服务部署,并支持使用 NeMo 框架进行微调。这一发布标志着 NVIDIA 在高效大模型领域的重要进展,尤其适合需要多模态理解和长上下文处理的应用场景。AI模型Step 3.7 FlashNVIDIAMoE多模态长上下文5 个信源在谈推荐理由:198B 参数但仅 11B 活跃,推理效率极高,做多模态应用或长文档处理的团队可以直接在 NVIDIA 平台试用,省成本又省心。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……
11:59arXiv cs.LG@Kevin Y. Li, Asher Trockman, Ananda Theertha Suresh, Ziteng Sun精选72°Oryx 是一种新型混合架构,能在序列处理中灵活切换注意力(用于长上下文检索)和线性循环(用于高效生成),解决了传统模型在效率和长上下文能力之间的权衡。该模型在 1.4B 参数规模下,平均语言建模任务性能比单一混合器基线提升至少 0.7 个百分点。在检索任务中,即使仅用不到 10% 的 token 运行注意力模式,Oryx 也能达到与 Transformer 基线相当的性能。Oryx 的关键创新是让不同混合器共享至少 90% 的参数,从而在共享内部表示上高效切换。这项工作表明注意力与线性循环模型可以共享表示,为序列轴上的混合设计提供了新方向。论文混合架构注意力机制线性循环模型长上下文Oryx推荐理由:Oryx 解决了长上下文检索与高效生成的矛盾,做序列建模或大模型架构的开发者可以直接参考其共享参数设计思路,值得关注。原文
10:40rohanpaul_ai@rohanpaul_ai精选研究发现,长时间运行的语言智能体如果定期暂停并整合记忆,性能会更好。当前Transformer模型随着上下文增长,注意力机制需要检查更多历史token,导致推理变慢且成本增加。论文提出在模型中引入“睡眠阶段”:暂停推理,多次重读近期上下文,将有用信息写入固定大小的记忆层,然后清空短期注意力缓存。这样,模型在睡眠时进行额外计算,而正常推理仍保持单次前向传播的高效。实验表明,睡眠时间越长,模型在需要深度推理的复杂任务上表现越好,尤其当旧信息已不在注意力缓存中时。论文智能体长上下文记忆整合注意力机制推理模型推荐理由:长时运行智能体终于有了解决上下文膨胀问题的思路——做Agent或长链推理的开发者值得关注,它可能改变你处理长期记忆的方式。原文
11:44arXiv cs.AI@Sangyun Lee, Sean McLeish, Tom Goldstein, Giulia Fanti精选论文提出一种类似睡眠的记忆巩固机制,让 Transformer 模型在长上下文任务中表现更好。模型在推理过程中定期将近期上下文转换为持久化的快速权重,并清除键值缓存,类似生物体的睡眠过程。在睡眠阶段,模型对积累的上下文进行多次离线循环处理,通过局部学习规则更新状态空间模型(SSM)块中的快速权重。在合成任务(如元胞自动机、多跳图检索)和数学推理任务上,该方法显著优于普通 Transformer 和 SSM-注意力混合模型。增加睡眠时长 N 能持续提升性能,尤其在需要深层推理的样本上效果最明显。论文Transformer长上下文记忆巩固推理模型状态空间模型1 个信源在谈推荐理由:这项研究给长上下文推理带来了新思路——用类似睡眠的离线巩固机制解决注意力瓶颈,做长链推理或复杂数学问题的开发者值得关注,尤其适合处理超长上下文的场景。原文
04:37rohanpaul_ai@rohanpaul_ai精选72°阿里巴巴与南京大学联合发表论文,提出RTPurbo方法,通过轻量级适配将百万token预填充速度提升9.36倍(对比FlashAttention-2)。该方法发现训练好的全注意力模型已存在隐藏稀疏结构,无需重新训练。RTPurbo识别出少数需要远距离token的注意力头,其余头聚焦邻近文本,并使用16维索引器快速定位关键token。在长上下文基准和推理任务中,RTPurbo保持接近全注意力的精度,同时实现高达9.36倍加速。这证明长上下文推理中的浪费比表面看起来更有结构性。论文长上下文注意力稀疏化推理加速RTPurboAlibaba推荐理由:长上下文推理的算力瓶颈是AI应用落地的关键障碍,做LLM推理优化或长文档处理的团队可以直接参考RTPurbo的稀疏化思路,无需从头训练模型。原文
11:02arXiv cs.AI@Ali Hatamizadeh, Yejin Choi, Jan Kautz精选72°线性注意力模型通过固定大小的循环状态替代软注意力的无限缓存,但如何高效编辑压缩记忆而不打乱已有关联是难点。现有Delta规则模型使用单一标量门控同时控制擦除旧内容和写入新内容,存在耦合限制。Gated DeltaNet-2提出通道级擦除门控b_t和写入门控w_t,将两者解耦,可退化为KDA和Gated DeltaNet。在1.3B参数、100B FineWeb-Edu tokens训练下,该模型在语言建模、常识推理和检索任务上全面超越Mamba-2、Gated DeltaNet、KDA和Mamba-3。尤其在长上下文RULER基准的多键检索设置中优势显著,代码已开源。论文线性注意力门控机制长上下文开源/仓库推理模型推荐理由:线性注意力研究者终于有了更精细的门控机制——Gated DeltaNet-2把擦除和写入分开控制,做高效长序列建模的团队可以直接复现并对比效果。原文
11:42arXiv: OpenAI@Zhuohan Gu, Qizheng Zhang, Omar Khattab, Samuel Madden精选PEEK 是一种为长上下文 LLM 智能体设计的系统,通过缓存和维护“上下文地图”来提升其在重复外部上下文(如文档库、代码仓库)中的表现。现有方法要么保留智能体的轨迹、被动访问原始材料,要么保留任务级策略,但都忽略了可复用的方向知识(如上下文内容、组织方式、历史有用的实体和模式)。PEEK 通过三个模块(Distiller、Cartographer、Evictor)将推理信号转化为结构化、固定大小的上下文地图,并嵌入智能体提示中。实验显示,PEEK 在长上下文推理和信息聚合任务上比强基线提升 6.3-34.0%,同时减少 93-145 次迭代,成本比最先进的 ACE 框架低 1.7-5.8 倍。在上下文学习任务上,PEEK 的解决率和评分准确率分别提升 6.0-14.0% 和 7.8-12.1%,成本仅为 ACE 的 1.4 倍,且泛化到不同语言模型和智能体架构。论文长上下文智能体缓存策略上下文地图PEEK推荐理由:PEEK 解决了长上下文智能体在重复场景中反复“从头探索”的痛点,做文档分析或代码库维护的开发者可以直接用,能显著降低推理成本并提升准确率。原文
10:44arXiv: DeepSeek@Minxuan Lv, Tiehua Mei, Tanlong Du, Junmin Chen, Zhenpeng Su, Ziyang Chen, Ziqi Wang, Zhennan Wu, Ruotong Pan, jian Liang, Ruiming Tang, Han Li精选GoLongRL 是一个完全开源的长上下文强化学习训练方案,包含 23K 样本的数据集、完整构建流程和训练代码。该方案基于长上下文能力分类法,覆盖 9 种任务类型,每个任务配有自然评估指标,数据来源包括书籍、学术论文和多轮对话等真实文档。在相同 GRPO 设置下,GoLongRL 数据集优于闭源的 QwenLong-L1.5 数据集,且 Qwen3-30B-A3B 模型在长上下文任务上表现接近 DeepSeek-R1-0528 和 Qwen3-235B-A22B。此外,论文提出 TMN-Reweight 方法,通过任务级均值归一化和难度自适应加权,解决异构奖励优化问题,进一步提升平均性能并保持通用能力。论文长上下文强化学习开源/仓库RLVR多任务对齐推荐理由:长上下文 RL 训练的数据构建和奖励设计一直是个难题,GoLongRL 提供了开源数据集和优化方法,做长上下文模型训练的团队可以直接复用,省去大量数据构造工作。原文
14:22arXiv cs.AI@Yuxiang Huang, Nuno M. T. Gonçalves, Federico Alvetreti, Lei Li, Xu Han, Edoardo M. Ponti, André F. T. Martins, Marcos V. Treviso精选72°DashAttention 提出了一种新的分层注意力机制,通过可微分的 α-entmax 变换替代传统 top-k 操作,自适应地为每个查询选择可变数量的关键值块,从而解决了现有方法(如 NSA 和 InfLLMv2)中固定块数和梯度阻断的问题。该方法保持整个层次结构完全可微分,且具有非分散性,提升了长上下文建模能力。实验表明,在 75% 稀疏度下,DashAttention 的准确率与全注意力相当,在高稀疏场景下优于 NSA 和 InfLLMv2。其基于 Triton 的 GPU 实现推理速度甚至超过 FlashAttention-3。DashAttention 为长上下文模型提供了一种高效且经济的方案。论文注意力机制长上下文稀疏注意力可微分LLM推荐理由:长上下文 LLM 的推理成本一直是痛点,DashAttention 用可微分稀疏注意力在保持精度的同时大幅提速,做长文本推理和模型优化的研究者值得关注。原文
11:24arXiv cs.AI@Yasuyuki Okoshi, Hao Mark Chen, Guanxi Lu, Hongxiang Fan, Masato Motomura, Daichi Fujiki精选现代大语言模型依赖长前缀来控制推理行为,但前缀影响会随生成衰减,且注意力计算成本随前缀长度线性增长。现有方法要么压缩前缀但仍需注意力计算,要么通过梯度训练内化前缀但更新困难。本文提出 attention-state memory,一种无训练方法,将前缀与查询 token 的预计算注意力状态外化到轻量级查找表中。在 ManyICLBench 上,LLaMA-3.1-8B 在 1K-8K 内存预算下准确率超过上下文学习,注意力延迟降低 1.36 倍;在 NBA 基准上仅用 20% 内存就超越全注意力 RAG 性能。论文长上下文注意力机制LLM推理无训练方法内存优化推荐理由:长上下文推理的注意力瓶颈终于有了轻量级解法——无训练、可更新、内存高效,做 LLM 推理优化或长文档应用的团队值得关注。原文
01:25berryxia@berryxia精选73°Sebastian Raschka发布《Recent Developments in LLM Architectures》,用可视化方式拆解Gemma 4到DeepSeek V4的硬核优化。文章指出长上下文瓶颈已从“能否支持更多token”转向“如何聪明分配计算”,这些优化已在生产环境落地。正在做长上下文模型、Agent或RAG的团队,这篇文章的视觉图和效率对比特别值得细读。论文长上下文架构优化Gemma 4DeepSeek V4效率对比1 个信源在谈推荐理由:长上下文竞争已从堆token转向架构优化,做Agent或RAG的团队可以从Gemma 4到DeepSeek V4的真实方案中直接借鉴效率提升思路。原文