10:55
10:55
arXiv cs.AI@Zhifei Xie, Zihang Liu, Ze An, Xiaobin Hu, Yue Liao, Ziyang Ma, Dongchao Yang, Mingbao Lin, Deheng Ye, Shuicheng Yan, Chunyan Miao 现有大型音频语言模型(LALM)多为离线处理,而流式音频模型又各自为政,只能处理单一任务(如流式语音识别或语音聊天)。研究者提出 Audio Interaction Model 概念,通过始终在线的“感知-决策-响应”循环,实现实时听音、理解环境并即时反应。他们构建了 Audio-Interaction 统一流式模型,并配套 SoundFlow 框架(含流式数据构建、理解感知训练和异步低延迟推理)以及 260 万条流式语料 StreamAudio-2M。在 8 个基准测试中,该模型在保留主流音频任务性能的同时,解锁了实时 ASR、流式音频指令跟随和主动帮助等离线模型无法实现的能力。
推荐理由:做语音交互或智能助手的团队终于有了一个能同时处理流式对话、环境音和实时指令的统一模型,比拼凑多个专用模型高效太多,做音频 AI 的建议点开看看框架和数据集。
10:37
10:37
arXiv cs.AI@Sheng Jin, Minghao Liu, Yunze Xiao, Zeqi Zhou, Heli Qi, Yifan Yao, Meishu Song, Kaijing Ma, Xuan Zhang, Sicong Jiang, Yizhe Li, Ningshan Ma, Jie Wei, Ziniu Li, Minglai Yang, Bangya Liu, Yiming Liang, Xiao Fang, Qingcheng Zeng, Jiarui Liu, Rui Yang, Shen Yan, Wenhao Huang, Jiaheng Liu, Zihan Wang, Weihao Xuan, Ge Zhang 针对现有LLM知识基准存在的三个问题(学科代表性不足、标注激励不当、排名不稳定),研究者提出了KINA基准,包含899道题目,覆盖261个细粒度学科。该基准通过贪心近似算法确保学科代表性,并设计了锦标赛式奖励机制以提升标注质量。在13个实验室的42个模型评估中,Gemini-3.1-Pro-Preview以53.17%的准确率领先,Claude-Opus-4.6和GPT-5.4紧随其后,整体排名呈现分层结构,远未达到饱和。工具增强平均提升5.17个百分点,但模型间差异显著。该基准还提供了自举排名稳定性统计,避免对相邻排名的过度解读。
推荐理由:KINA 解决了 LLM 知识评估中学科代表性不足和排名不稳定的痛点,做模型评测或研究 LLM 知识边界的团队可以直接用这个基准来更可靠地对比模型,建议点开看看具体的设计和排名细节。
10:35
10:35
arXiv cs.AI@Zhangchen Xu, Junda Chen, Yue Huang, Dongfu Jiang, Jiefeng Chen, Hang Hua, Zijian Wu, Zheyuan Liu, Zexue He, Lichi Li, Shizhe Diao, Jiaxin Pei, Jinsung Yoon, Hao Zhang, Mengdi Wang, Radha Poovendran, Misha Sra, Alex Pentland, Zichen Chen AutoLab 是一个新基准,用于评估 AI 模型在超长周期闭环优化任务中的表现,涵盖系统优化、谜题挑战、模型开发和 CUDA 内核优化四个领域。每个任务从次优基线开始,要求智能体在严格时间预算内通过反复实验和反馈改进。测试 17 个前沿模型后发现,成功的关键不是初始尝试的质量,而是持续迭代和利用经验反馈的能力。Claude Opus 4.6 表现突出,但多数模型过早终止或进展有限。该基准开源,旨在推动长周期自主智能体的研究。
推荐理由:AutoLab 填补了现有基准只测短周期任务的空白,做 AI 智能体研究和开发的团队可以直接用它来测试模型的持久迭代能力,值得关注。
10:58
10:58
arXiv cs.AI@Mahtab Bigverdi, Lindsey Li, Weikai Huang, Yiming Liu, Jaemin Cho, Jieyu Zhang, Tuhin Kundu, Chris Dangjoo Kim, Zelun Luo, Linda Shapiro, Ranjay Krishna 多模态语言模型在空间推理任务中常因无法直接观察关键信息而表现不佳。研究者提出 Imaginative Perception Tokens (IPT),一种中间感知表征,让模型能推断未观察到的空间结构,如从不可见视角看物体、追踪遮挡路径等。在 Perspective Taking、Path Tracing 和 Multiview Counting 三个任务上,IPT 监督显著提升空间推理准确率,在 MVC 上提升 3.4%,且优于文本思维链训练。研究发现文本思维链在空间计算中可能因模态不匹配而降低性能,而 IPT 提供了更有效的监督信号。该方法无需在推理时生成图像,即可产生可解释的中间表征,提升泛化能力。
推荐理由:空间推理是多模态模型的短板,IPT 提供了一种不依赖文本思维链的监督方式,做视觉推理或空间理解的团队可以直接参考论文方法。
10:57
10:57
arXiv cs.AI@Zekun Qi, Xuchuan Chen, Dairu Liu, Chenghuai Lin, Yunrui Lian, Sikai Liang, Zhikai Zhang, Yu Guan, Jilong Wang, Wenyao Zhang, Xinqiang Yu, He Wang, Li Yi 研究团队提出 Humanoid-GPT,一种基于 GPT 风格的因果注意力 Transformer,在 20 亿帧的运动数据上预训练,用于全身控制。与以往受限于数据稀缺和敏捷性-泛化权衡的浅层 MLP 追踪器不同,Humanoid-GPT 统一了所有主要动作捕捉数据集和大量内部录制数据。通过扩展数据和模型容量,该模型能够追踪高度动态的行为,并在未见过的动作和控制任务上实现前所未有的零样本泛化。实验表明,Humanoid-GPT 在零样本泛化和动态复杂运动追踪方面均达到了新的性能水平。
推荐理由:做机器人全身控制和运动追踪的团队终于有了一个能零样本泛化的基础模型——Humanoid-GPT 用 20 亿帧数据训练,直接解决了以往模型在动态场景下泛化差的问题,做仿人机器人或动画生成的开发者值得关注。
10:47
10:47
arXiv cs.AI@Rongzhi Zhang, Rui Feng, Zhihan Zhang, Jingfeng Yang, Qingyu Yin, Xin Liu, Zixuan Zhang, Priyanka Nigam, Bing Yin, Tuo Zhao, Chao Zhang 现有基于评分标准的强化学习(RL)方法将查询分布视为固定,导致开放查询产生模糊评分标准,而狭窄查询又引入无法验证的参考,使训练失去奖励信号。QUBRIC框架通过教师提取关键点将开放查询重写为可评估的场景问题,并利用对比评分生成和可学习性过滤,保留信息丰富的查询-评分对用于GRPO训练。在ArenaHard上,QUBRIC相比SFT基线提升5.5分,且仅用指令跟随数据训练后,在三个未见基准(法律、道德、叙事推理)上平均提升6.3分。这表明联合设计查询与评分标准可使基于评分标准的RL成为严格可验证任务之外的有效补充。
推荐理由:QUBRIC解决了RL在非可验证任务中的核心瓶颈——查询与评分标准不匹配,做RL训练或AI对齐的团队可以直接参考其方法,提升模型在开放推理任务上的表现。
仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。