12:00
12:00
arXiv cs.AI@Junxia Cui, Haotian Ye, Runchu Tian, Hongcan Guo, Jinya Jiang, Haoru Li, Chaojie Ren, Yiming Huang, Kaijie Zhu, Zhongkai Yu, Kun Zhou, Jingbo Shang 扩散大语言模型(dLLMs)作为自回归(AR)模型的替代方案,通过并行或块解码实现更快推理,但其掩码语言建模公式与标准token级推测解码不兼容。AR模型利用因果掩码实现单次前向验证多个草稿token,而dLLMs依赖掩码token和双向注意力,导致有效上下文随去噪步骤变化,无法直接进行token级推测验证。为此,研究者提出SimSD,一种简单有效的推测解码算法,采用即插即用的掩码策略,为dLLMs提供时间上有效的token级上下文。该方法显式引入草稿模型的参考token,并设计注意力掩码调节其与当前步骤token的交互,使dLLMs能在单次前向前向计算草稿token的有效logits,恢复AR模型的验证能力同时保持dLLMs的并行解码优势。SimSD无需训练,可灵活集成KV缓存和块解码等加速技术,在四个基准测试中实现高达7.46倍的解码吞吐量提升,同时保持甚至改善平均生成质量。
推荐理由:扩散语言模型终于有了实用的推测解码方案,做模型推理加速的团队可以直接集成SimSD,无需额外训练就能获得数倍吞吐提升,值得关注。
11:58
11:58
arXiv cs.AI@Haowen Hou, Zhen Huang, Zheming Liang, Qingyi Si, Chenglin Li, Shuai Dong, Kele Shao, Ruilin Li, Dianyi Wang, Nan Duan, Jiaqi Wang 视频相邻帧通常高度冗余,但现有视频多模态大模型仍将每帧独立编码为RGB图像,导致大量重复视觉token。AdaCodec提出一种预测式视觉编码接口:仅当场景无法从先前上下文预测时才发送完整参考帧,否则仅传输帧间变化(包括运动和预测残差)作为紧凑的P-token。在11个基准测试中,AdaCodec在相同token预算下优于Qwen3-VL-8B逐帧RGB基线;在长视频基准上,仅用1/7预算(32k token)即超越224k基线,并在通用视频基准上提升平均分数,同时将首token延迟从9.26秒降至1.62秒。
推荐理由:做视频理解或多模态模型优化的团队,终于有了一个能大幅降低计算开销而不牺牲性能的方案——AdaCodec用预测式编码直击视频冗余痛点,建议做视频MLLM的开发者直接看论文复现。
11:12
11:12
arXiv cs.AI@Xinyu Che, Junqi Xiong, Yunfei Ge, Xinping Lei, Shihao Li, Hang Yan, Han Li, Yuanxing Zhang, Zhiqi Bai, Jinhua Hao, Ming Sun, Han Li, Jiaheng Liu 网络上有大量多模态、异构、嘈杂的程序性知识,但直接用于智能体执行长周期任务效果不佳。研究者提出 guide-to-skill 学习问题,并发布首个基准 MMG2Skill-Bench。他们设计的闭环框架 MMG2Skill 能将人类指南编译为可编辑技能,在执行时条件化固定视觉语言模型,并通过轨迹级根因反馈持续修正技能。在 GUI 控制、开放游戏和策略卡牌等六个 VLM 骨干上,该方法比基线提升 12.8 到 25.3 个百分点。消融实验表明,直接提示原始指南反而会降低性能,而结构化技能构建和轨迹驱动修正是关键。
推荐理由:做智能体长任务规划的团队终于有了把网络教程变成可执行技能的方案——MMG2Skill 直接解决了指南与技能之间的鸿沟,做 GUI 自动化或游戏 AI 的开发者可以试试这个闭环框架。
11:08
11:08
arXiv cs.AI@Jiaming Wang, Ziteng Feng, Jiangtao Wu, Ruihao Li, Qianqian Xie, Yuxiang Ren, He Zhu, Xueming Han, Fanyu Meng, Junlan Feng, Jiaheng Liu 论文研究深度研究代理在长轨迹中的错误定位问题,指出仅靠最终答案评估无法揭示轨迹中的不可靠部分。作者收集了 2,790 条真实轨迹,通过 LLM 辅助专家标注构建了 TELBench 基准,包含 1,000 个实例用于识别错误跨度。提出 DRIFT 框架,以声明为中心审计代理轨迹,追踪声明并检查证据支持,在多个模型和审计框架上将跨度级错误定位和首次错误准确率提升最多 30 个百分点。该工作为深度研究代理的可靠性提供了过程级视角。
推荐理由:做 AI 代理评估或可靠性研究的团队会感兴趣——DRIFT 框架直接解决了「只看结果不看过程」的盲区,建议点开看看方法细节。
仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。