全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

07:01

07:01

Together AI@togethercompute

精选

Together AI 团队提出 Untied Ulysses 方法，解决了长上下文训练中的显存瓶颈。传统方法在单节点 8xH100 上训练 Llama 3B 模型时，仅模型参数就会耗尽显存，无法支持 3M token 的上下文长度。新方法通过优化注意力机制，在 8B 和 32B 规模下实现了比先前实现长 25% 的序列训练。这项研究让大模型长上下文训练变得更可行，降低了硬件门槛。

论文长上下文显存优化注意力机制 Together AI 训练效率

推荐理由：长上下文训练一直是显存大户，Untied Ulysses 让单节点就能跑 3M token，做 LLM 训练和推理优化的团队值得关注，能省下不少 GPU 预算。

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月9日

20:29

20:29

rohanpaul_ai@rohanpaul_ai

一篇新论文发现 Transformer 的 Key 和 Value 投影可以共享同一映射，从而将 KV 缓存减少 50%，而困惑度仅上升 3.1%。最佳变体 Q-K=V 保留了 Query 的独立性，使注意力仍具有方向性。结合 GQA 和 MQA 时，缓存削减可达 87.5% 和 96.9%。弱变体 Q=K-V 因对称性不适合因果语言模型，且无缓存节省。该发现挑战了传统 QKV 三投影的必要性，对推理内存优化有重要意义。

论文 Transformer KV 缓存注意力机制推理优化论文

推荐理由：做 LLM 推理优化的团队可以直接参考这个设计——砍掉一半 KV 缓存但几乎不损质量，值得在自家模型上试试。

6月3日

12:49

12:49

rohanpaul_ai@rohanpaul_ai

一篇新论文提出Self-Pruned Key-Value Attention方法，让大语言模型在长文本生成时只保留对后续token有用的历史键值对，从而大幅压缩KV缓存。该方法通过一个小型预测器为每个键值对打分，只保留高分项，同时确保最近token始终保留。模型在训练时通过正常的next-token预测学习剪枝策略，无需手工规则。实验表明，模型通常只保留10%到33.7%的旧键值对，性能接近全注意力，解码速度在长上下文场景下提升2.1到4.6倍。

论文 KV缓存长上下文注意力机制模型压缩 Self-Pruned Key-Value Attention

推荐理由：KV缓存是长上下文推理的瓶颈，这篇论文用自学习剪枝解决了内存爆炸问题，做LLM推理优化或长文本应用的开发者可以直接参考其方法。

5月28日

10:40

10:40

rohanpaul_ai@rohanpaul_ai

精选

研究发现，长时间运行的语言智能体如果定期暂停并整合记忆，性能会更好。当前Transformer模型随着上下文增长，注意力机制需要检查更多历史token，导致推理变慢且成本增加。论文提出在模型中引入“睡眠阶段”：暂停推理，多次重读近期上下文，将有用信息写入固定大小的记忆层，然后清空短期注意力缓存。这样，模型在睡眠时进行额外计算，而正常推理仍保持单次前向传播的高效。实验表明，睡眠时间越长，模型在需要深度推理的复杂任务上表现越好，尤其当旧信息已不在注意力缓存中时。

论文智能体长上下文记忆整合注意力机制推理模型

推荐理由：长时运行智能体终于有了解决上下文膨胀问题的思路——做Agent或长链推理的开发者值得关注，它可能改变你处理长期记忆的方式。

5月27日

01:37

01:37

rohanpaul_ai@rohanpaul_ai

研究发现，长上下文AI模型并非被大量错误信息逐渐削弱，而是仅需10%的误导性段落就能造成近58%的性能损失，这种现象被称为“第一滴墨水效应”。误导信息之所以危险，是因为它们与问题高度相关但错误，在注意力机制中会挤占正确答案的空间。在128K token的Qwen2.5实验中，前10%的硬干扰项解释了97%的干扰压力。这意味着过滤文档时，移除坏内容不如缩短整个上下文有效。该研究对构建长上下文AI系统的开发者具有重要警示意义。

论文长上下文注意力机制误导信息第一滴墨水效应 Qwen2.5

推荐理由：做长上下文AI应用或RAG系统的团队，这个发现会颠覆你对上下文管理的认知——不是堆更多文档就能提升效果，少而精才是关键，建议点开看看具体实验数据。

5月18日

23:14

23:14

AlphaSignal@AlphaSignalAI

精选72°

一篇新论文提出 adVersarial Parameter Decomposition (VPD) 方法，将神经网络权重分解为小型、单一用途的子组件，每个组件处理特定任务（如表情预测或性别识别）。该方法通过对抗性消融训练保留关键行为，并成功分解了跨多头注意力计算——这一难题三年未解。VPD 可扩展到真实四层语言模型，被视为稀疏自编码器的有力竞争者。它允许通过归因图追踪信息流，甚至手动编辑特定行为并预测结果，使模型权重变得可解释。

论文可解释性 VPD 神经网络权重分解注意力机制

推荐理由：VPD 解决了神经网络可解释性长期以来的痛点——权重不可读，做模型调试、安全对齐或研究 AI 内部机制的团队可以直接用这个工具来追踪和编辑模型行为。