11:31
11:31
arXiv cs.LG@Yuhao Shen, Tianyu Liu, Xinyi Hu, Quan Kong, Baolin Zhang, Jun Dai, Jun Zhang, Shuang Ge, Lei Chen, Yue Li, Mingcheng Wan, Cong Wang 投机解码通过草稿-验证范式加速大模型推理,但现有方法构建的庞大草稿树带来严重的显存带宽和计算开销。动态深度剪枝虽能减少延迟,却会丢弃潜在有效候选,导致接受率无法达到稠密树的上限。本文提出Graft框架,将剪枝与检索作为相互增强的操作:剪枝释放计算预算,检索补偿剪枝导致的覆盖损失并恢复接受长度。Graft采用“先剪后接”机制,以近乎零开销将高预测性的检索令牌填入剪枝空位,无需训练且无损。在短上下文、长上下文及大规模模型(如Qwen3-235B)上,Graft实现了最高5.41倍加速,平均加速比EAGLE-3提升21.8%,并初步探索了在非自回归草稿范式中的应用。
推荐理由:做推理加速的团队终于有了一个不牺牲接受率的剪枝方案——Graft用检索补偿剪枝损失,直接提升EAGLE-3 21.8%的加速比,搞LLM部署的值得试试。
11:24
11:24
arXiv cs.LG@Emaad Khwaja, Chris Lettieri, Gerald Woo, Eden Belouadah, Marc Cenac, Guillaume Jarry, Enguerrand Paquin, Xunyi Zhao, Viktoriya Zhukov, Othmane Abou-Amal, Chenghao Liu, Ameet Talwalkar, David Asker Toto 2.0 是一系列开源时间序列基础模型,参数规模从 4M 到 2.5B,展示了单一训练配方即可实现预测质量的可靠提升。该模型家族在 BOOM、GIFT-Eval 和 TIME 三个基准上刷新了最先进水平。研究团队详细描述了架构、训练数据、超参数迁移管道等设计决策。所有五个基础检查点均以 Apache 2.0 许可证开源。这项工作标志着时间序列预测领域正式进入规模扩展时代。
推荐理由:时间序列预测终于有了可扩展的基础模型,做金融、能源、运维等预测任务的团队可以直接用开源权重,值得关注。
10:44
10:44
arXiv: DeepSeek@Minxuan Lv, Tiehua Mei, Tanlong Du, Junmin Chen, Zhenpeng Su, Ziyang Chen, Ziqi Wang, Zhennan Wu, Ruotong Pan, jian Liang, Ruiming Tang, Han Li GoLongRL 是一个完全开源的长上下文强化学习训练方案,包含 23K 样本的数据集、完整构建流程和训练代码。该方案基于长上下文能力分类法,覆盖 9 种任务类型,每个任务配有自然评估指标,数据来源包括书籍、学术论文和多轮对话等真实文档。在相同 GRPO 设置下,GoLongRL 数据集优于闭源的 QwenLong-L1.5 数据集,且 Qwen3-30B-A3B 模型在长上下文任务上表现接近 DeepSeek-R1-0528 和 Qwen3-235B-A22B。此外,论文提出 TMN-Reweight 方法,通过任务级均值归一化和难度自适应加权,解决异构奖励优化问题,进一步提升平均性能并保持通用能力。
推荐理由:长上下文 RL 训练的数据构建和奖励设计一直是个难题,GoLongRL 提供了开源数据集和优化方法,做长上下文模型训练的团队可以直接复用,省去大量数据构造工作。
10:22
10:22
arXiv cs.AI@Meisam Jamshidi Seikavandi, Alice Modica, Anna Obara, Shan Ahmed Shaffi, Fabricio Batista Narcizo, Tanya Ignatenko, Ted Vucurevich, Karim Haddad, Daniel Barratt, Daniel Overholt, Jesper Bunsow Boldt, Paolo Burelli, Andrew Burke Dittberner 现有情感计算与社交信号处理数据集难以支持对同地小组中个体、人际和群体层面的情感耦合分析。研究者推出了GroupAffect-4,包含10组共40名参与者在四种协作任务(信息汇集、谈判、创意生成、公共物品博弈)中的多模态数据。每位参与者佩戴腕式生理传感器、眼动追踪眼镜和近讲麦克风,并收集连续情感自评、任务后问卷、任务结果和大五人格评分,所有数据通过共享时钟对齐。数据集覆盖91%以上的预期生理窗口和98%的眼动窗口,谈判任务的情感操纵检验验证了任务有效性。它定义了15个基准目标,涵盖个体内状态、个体间特质和群体动态三个分析层次,并提供了留一组交叉验证的可行性基线。数据集以BIDS风格结构、Croissant元数据、数据表、每会话质量报告和开源处理脚本发布。
推荐理由:做情感计算、社交信号处理或小组协作研究的团队终于有了一个覆盖个体、人际和群体三层次的高质量多模态数据集,数据完整性和任务效度都经过验证,可以直接用于训练和评估模型。
仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。