AITOP

5月12日

19:11

arXiv: DeepSeek@Emile Anand, Abdullah Ateyeh, Xinyuan Cao, Max Dabagia

45

论文研究了连续潜在上下文（continuous latent context）如何帮助Transformer模型实现在线决策与学习。研究者构造了恒定深度的Transformer，通过少量潜在上下文令牌存储算法状态，成功实现了加权多数算法和Q-learning两种在线决策过程。实验表明，使用多课程目标训练的小型GPT-2风格模型，在长合成在线预测序列上表现优于Qwen-3-14B和DeepSeek-V3等更大更复杂的LLM。该工作为Transformer在需要长期自适应交互的场景中提供了一种简单有效的持续状态机制。

论文在线学习 Transformer 潜在上下文 Q-learning 加权多数算法

推荐理由：该工作通过理论构造和实验验证，说明了连续潜在上下文可作为Transformer在线学习的通用状态载体，为构建能长期自适应交互的轻量级AI系统提供了新思路。