arXiv cs.LG@Christopher Stith, Medha Barath, Vahid Balazadeh, Jesse C. Cresswell, Rahul G. Krishnan精选58因果推断在多个学科中至关重要,但连续治疗设置(干预变量为连续值)的研究远少于二元治疗。本文提出首个针对连续治疗设置的因果基础模型,通过元学习在未见任务上预测因果效应,无需额外训练。模型设计了一种新的数据生成过程先验,生成丰富的因果训练语料,并训练Transformer利用上下文学习从观测数据重建个体治疗-响应曲线。该模型在个体治疗-响应曲线重建任务上达到最先进性能,超越了专门训练的因果模型。论文因果推断基础模型连续治疗Transformer元学习推荐理由:连续治疗效应预测是因果推断的难点,做医疗、经济等领域的因果分析团队可以直接用这个基础模型零样本预测,省去大量模型训练成本。
arXiv cs.AI@Lukas Schelenz, Shobha Rajanna, Denis Gosalci, Lucas Heublein, Jonas Pirkl, Jonathan Ott, Felix Ott, Christopher Mutschler, Tobias Feigl精选58该论文研究了在信号处理管道中预测动态运动(如NBA球员轨迹)的挑战,传统方法如ARIMA和卡尔曼滤波难以处理非线性动态。机器学习方法如LSTM、GNN和Transformer提供了更高灵活性,但常未能显式捕捉时间依赖与上下文交互。实验表明,混合LSTM结合上下文信息在2秒预测范围内实现了最低最终位移误差1.51米,优于TCNN、GAT和Transformer,且所需数据和训练时间更少。研究强调没有单一架构在所有指标上最优,需根据任务选择模型。论文轨迹预测LSTMGNNTransformerNBA推荐理由:做运动轨迹预测或动态系统建模的团队,这篇论文对比了主流模型的实际表现,混合LSTM方案在效率和精度上都有亮点,值得参考。
arXiv cs.LG@Nikolaos Tsalkitzis, Panagiotis P. Filntisis, Petros Maragos, Niki Efthymiou精选45该研究开发了两种基于智能手表的框架用于日常精神病复发检测。第一种通过预测心脏动力学并标记预测与观测特征之间的偏差作为异常指标;第二种采用多任务学习融合睡眠、运动和心脏信号,学习时间感知嵌入并预测测量时机。两种框架均使用Transformer编码器,并通过多层感知机集成估计预测不确定性,输出每日异常分数。研究表明两种框架捕捉互补的生理信号,因此提出后期融合策略,将两者异常信号结合为统一决策分数。在e-Prevention Grand Challenge数据集上,融合模型比竞赛获胜基线相对提升8%。论文精神病复发检测智能手表异常检测多任务学习Transformer推荐理由:精神科医生和数字健康研究者有了更可靠的复发预警工具——融合心脏、运动和睡眠多模态信号,比单一指标更准确。做可穿戴设备健康监测的团队可以直接参考其不确定性估计方法。
arXiv cs.AI@Alireza Nadali, Patrick Cooper, Ashutosh Trivedi, Alvaro Velasquez精选65KV-Fold 是一种无需训练的长上下文推理协议,将键值(KV)缓存视为序列块上的左折叠累加器。模型在处理每个块时,基于累积的缓存进行条件处理,追加新生成的键和值,并将扩展后的缓存传递到下一步,重复这一单步更新过程。该方法在 Llama-3.1-8B 模型上的“大海捞针”基准测试中,在 152 次试验中实现了 100% 的精确匹配检索,覆盖 16K 到 128K 令牌的上下文和最多 511 层的链深度,且仅需单块 40GB GPU 内存。KV-Fold 的递归过程稳定,每步漂移短暂上升后饱和为平坦平台,对数值精度变化不敏感,跨块大小和模型家族表现一致。这项工作表明,冻结的预训练 Transformer 已经支持稳定的 KV 缓存递归形式,为无需架构更改或训练的长上下文推理提供了实用路径。论文长上下文推理KV缓存递归无需训练Transformer推荐理由:KV-Fold 用简单的左折叠思路解决了长上下文推理的内存和精度痛点,做 LLM 推理优化或长文档处理的团队可以直接在现有模型上尝试,无需额外训练。
arXiv: DeepSeek@Emile Anand, Abdullah Ateyeh, Xinyuan Cao, Max Dabagia45论文研究了连续潜在上下文(continuous latent context)如何帮助Transformer模型实现在线决策与学习。研究者构造了恒定深度的Transformer,通过少量潜在上下文令牌存储算法状态,成功实现了加权多数算法和Q-learning两种在线决策过程。实验表明,使用多课程目标训练的小型GPT-2风格模型,在长合成在线预测序列上表现优于Qwen-3-14B和DeepSeek-V3等更大更复杂的LLM。该工作为Transformer在需要长期自适应交互的场景中提供了一种简单有效的持续状态机制。论文在线学习Transformer潜在上下文Q-learning加权多数算法推荐理由:该工作通过理论构造和实验验证,说明了连续潜在上下文可作为Transformer在线学习的通用状态载体,为构建能长期自适应交互的轻量级AI系统提供了新思路。