全部 AI 动态 · AI 热点

6月26日

11:34

arXiv cs.AI@Tinghao Wang, Yichen Guo, Rui Huang, Zheng Lu, Qizhe Zhang, Chenxi Li, Yuan Zhang, Jiajun Cao, Zhirong Shen, Yaosong Du, Guangyan Gan, Wenya Wang, Lin William Cong, Shanghang Zhang

论文提出TOPS方法，从第一原理出发构建Token最优保留集。该方法基于任务相关性、信息覆盖和语义多样性三个原则。在7个MLLM骨干（如LLaVA-NeXT）和14个基准上，TOPS优于此前方法。在LLaVA-NeXT上，去除77.8%视觉token后，7B模型保持100.0%性能，13B模型提升至100.6%。结果表明剪枝冗余token可减轻幻觉。

论文 TOPS LLaVA-NeXT MLLM 视觉token剪枝推理效率

推荐理由：这篇论文的TOPS方法能在剪掉近八成视觉token的同时保持甚至提升模型性能，很实用。

原文

6月23日

12:05

arXiv: DeepSeek@Youyang Yin, Huanhuan Liu, YY, Qunyi Xie, Chaorun Liu, Shiqi Yang, Shaohua Wang, Zhanlong Liu, Hao Zou, Jinyue Chen, Shu Wei, Jingjing Wu, Mingxin Huang, Zhen Wu, Guibin Wang, Tengyu Du, Lei Jia

Unlimited OCR 模型以 DeepSeek OCR 为基线，将所有解码器注意力层替换为 Reference Sliding Window Attention (R-SWA)，使解码过程中 KV 缓存保持恒定，不再随输出长度增长。在标准最大长度 32K 下，Unlimited OCR 可一次性转录数十页文档。相比传统端到端 OCR 模型，Unlimited OCR 解决了长序列中内存和速度下降的问题。R-SWA 是一种通用解析注意力机制，还可应用于 ASR、翻译等任务。代码和权重已在 GitHub 开源。

论文 Unlimited OCR DeepSeek OCR R-SWA OCR 推理效率

推荐理由：百度新出的 Unlimted OCR 用了一种叫 R-SWA 的注意力机制，让它处理几十页文档时不会变慢，内存占用也恒定。想做长文档 OCR 的可以试试。

原文

6月19日

18:43

Together AI@togethercompute

Together AI 在推文中指出，当团队运行数十亿 tokens 时，缓存、吞吐量和服务效率的微小差异会转化为产品级的经济性。以 MiniMax M3 模型为例，该模型在 Together AI 平台上提供前沿品质和开放模型经济学，其服务栈专为规模化设计。这体现了开放模型在生产中的实际成本竞争力。

AI模型 MiniMax M3 Together AI 开放模型推理效率经济性

推荐理由：看看 Together AI 怎么用 MiniMax M3 把开放模型做大，跑几十亿 tokens 还省钱。不是吹概念，是实打实的缓存和吞吐量优化。

原文

01:32

SiliconFlowAI@siliconflowai

精选

MoonshotAI 基于 K2.6 推出了 Kimi K2.7 Code，参数量为 32B 激活/1T 总参数，支持交错思考与多步工具调用。相比 K2.6，推理 token 使用量降低 30%，在编码与指令遵循上表现提升，接近 GPT-5.5 和 Opus 4.8。定价为缓存输入/输入/输出每百万 token 0.19/0.94/4.00 美元。该模型可在 SiliconFlow 上使用。

AI模型 Kimi K2.7 Code MoonshotAI 编码模型推理效率 VLM

推荐理由：想少想多做？K2.7 Code 编码专用，推理开销比 K2.6 低三成，还能对标 GPT-5.5，适合写代码时不用纠结。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

12:23

arXiv cs.LG@Mufei Li, Shikun Liu, Dongqi Fu, Haoyu Wang, Yinglong Xia, Hong Li, Hong Yan, Pan Li

KVEraser是一种面向大语言模型KV缓存的编辑方法，旨在高效擦除已处理上下文中的指定片段。该论文提出，直接擦除会导致全局影响，需重新计算后续所有token，成本高昂。KVEraser通过两阶段训练（通用跨度-邻居预训练和任务微调），仅替换被擦除区间的KV状态，保留其余缓存。在1K至32K上下文长度的域内任务中，KVEraser的擦除后性能接近完全重计算，延迟仅增加24%，而完全重计算延迟增加17.6倍。在未见过的长文档问答任务中，KVEraser在有害事实干扰下比近似基线表现更好，速度比完全重计算快3至4倍。

论文 KVEraser KV缓存上下文擦除推理效率长上下文

推荐理由：这篇论文提出KVEraser，能快速从大模型KV缓存中擦除指定内容，不用全部重算，1K-32K长度下延迟只增24%，效果接近重算，适合长上下文场景。

原文

6月15日

15:24

量子位@思邈

研究团队提出OrcaRouter，一种多模型路由方法。该方法通过动态选择多个小模型协作，在性能上反超了单一大型模型Fable 5。同时大幅降低了推理成本。OrcaRouter的实现验证了多模型集成可行且高效。

AI模型 OrcaRouter Fable 5 多模型路由推理效率

推荐理由：想低成本体验Fable 5级效果？OrcaRouter让一群小模型组队打架，结果更猛，值得一试。

原文

6月12日

21:33

kimi_moonshot@kimi_moonshot

AI模型编程模型开源/仓库推理效率智能体 Kimi

推荐理由：Kimi-K2.7-Code 在编程和智能体任务上显著超越前代，且推理更高效，做 AI 编程或智能体开发的团队可以直接通过 API 或 Kimi Code 试用，值得关注。

原文