全部 AI 动态 · AI 热点

6月19日

11:43

arXiv cs.LG@Qingyang Zhu, Eric Karl Oermann, Kyunghyun Cho

该研究提出多任务上下文学习框架用于分层贝叶斯预测推理，将先验信息表示为上下文数据集的前缀。使用Transformer在序列先验和目标任务上训练，学会跨先验家族调整预测。在包含元分布外先验和高维潜在结构的评估中，该方法匹配oracle贝叶斯预测器，速度提升数个数量级。在真实世界时空温度预测基准上验证了实际效果。

论文贝叶斯推理上下文学习多任务学习 Transformer

推荐理由：这篇论文提出多任务贝叶斯ICL框架，速度比传统方法快几个数量级，还能适应新先验，在温度预测上表现很好。

原文

6月17日

10:18

arXiv cs.LG@Takaya Kawakatsu

论文提出结构精炼模块，通过非因果注意力产生序无关的细胞特征。在ICDAR 2019和PubTables-1M两个数据集上，细胞定位和端到端识别一致提升。推理时间减少约3倍。现有方法因自回归解码导致细胞表示顺序依赖，影响全局一致性。新设计实现并行推理，同时每个细胞基于全局上下文。

论文表格识别多任务学习自回归解码非因果注意力

推荐理由：这篇论文解决了表格识别中自回归解码的顺序依赖问题，用非因果注意力让细胞特征序无关，推理快了3倍，识别也更准。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月8日

09:39

arXiv: DeepSeek@Yu Yu, Zhihong Sun, Jia Li, Yao Wan, Chuanyi Li, Hongyu Zhang, Ruyun Wang, Tao Huang, Zhi Jin, Ge Li, Chen Lyu

大型语言模型生成的代码虽语法正确，但运行速度通常远慢于人类优化代码。现有方法通过后迭代优化或微调模型来提升效率，但未能显式编码高效代码的结构模式。为此，研究者提出EffiSkel框架，通过三种互补策略提取并学习效率骨架（抽象的可复用结构模式），并采用多任务学习联合优化代码生成与骨架预测。实验表明，在Mercury基准上，基于DeepSeek-Coder (7B)的EffiSkel相比EffiCoder和CodeDPO，效率比分别提升11.11%和3.71%，平均加速比分别提升0.36和0.22。该工作为提升LLM生成代码的运行时性能提供了新思路。

论文代码生成效率优化结构模式多任务学习 LLM

推荐理由：做代码生成或LLM推理优化的开发者，EffiSkel直接解决了生成代码跑得慢的痛点——不用等后优化，训练时就注入效率骨架，值得关注其开源实现。

原文

5月29日

13:04

arXiv: DeepSeek@S. J. Guo, S. Y. Wang, E. H. Wang, Z. M. Niu, Y. M. Ding

研究人员提出了一种基于大语言模型的多任务学习框架，用于统一描述多个核物理可观测量。通过低秩适配（LoRA）微调预训练的 DeepSeek-R1-1.5B 模型，在保留通用参数的同时引入轻量适配器。该模型在因果语言建模范式下，对实验值与理论值的偏差进行自回归训练，在电荷半径、质量、结合能、分离能和衰变能等七个可观测量的预测上实现了显著精度提升，训练损失在所有任务中下降超过 98%。这项工作展示了基于 LLM 的框架通过结构化先验嵌入，为核物理基础属性的多任务回归提供了一种高效且共享的方法。

论文大语言模型核物理多任务学习 LoRA微调 DeepSeek-R1

推荐理由：核物理研究者终于有了一个统一的多任务预测工具——用 LLM 微调替代传统多模型方案，精度提升显著且效率更高，做核数据分析和理论验证的团队值得关注。

原文

5月14日

13:26

arXiv cs.LG@Nikolaos Tsalkitzis, Panagiotis P. Filntisis, Petros Maragos, Niki Efthymiou

精选

该研究开发了两种基于智能手表的框架用于日常精神病复发检测。第一种通过预测心脏动力学并标记预测与观测特征之间的偏差作为异常指标；第二种采用多任务学习融合睡眠、运动和心脏信号，学习时间感知嵌入并预测测量时机。两种框架均使用Transformer编码器，并通过多层感知机集成估计预测不确定性，输出每日异常分数。研究表明两种框架捕捉互补的生理信号，因此提出后期融合策略，将两者异常信号结合为统一决策分数。在e-Prevention Grand Challenge数据集上，融合模型比竞赛获胜基线相对提升8%。

论文精神病复发检测智能手表异常检测多任务学习 Transformer

推荐理由：精神科医生和数字健康研究者有了更可靠的复发预警工具——融合心脏、运动和睡眠多模态信号，比单一指标更准确。做可穿戴设备健康监测的团队可以直接参考其不确定性估计方法。

原文