6月4日
10:56
10:56arXiv cs.AI@Linyao Chen, Qinlao Zhao, Zechen Li, Mingming Li, Likun Ni, Jinyu Chen, Yuhao Yao, Xuan Song, Noboru Koshizuka, Hiroki Kobayashi
AgentMob 提出了一种无需训练的 LLM 驱动智能体框架,用于个体级移动预测。它通过快速路径处理常规出行,对模糊情况则触发迭代工具调用,结合历史轨迹、停留概率和地理证据进行决策。在三个数据集上,AgentMob 在无需训练的 LLM 方法中表现最佳,GPT-5.4 在 BW 数据集上达到 71.42% 的 Acc@1。该方法显著提升了模糊预测的准确性,并提供了决策透明度。代码已开源。
推荐理由:做城市模拟、交通规划或政策分析的团队,终于有了一个无需训练就能解释预测结果的方案——AgentMob 在模糊场景下准确率提升 18%,建议直接试一下开源代码。
10:37
10:37arXiv cs.AI@Sheng Jin, Minghao Liu, Yunze Xiao, Zeqi Zhou, Heli Qi, Yifan Yao, Meishu Song, Kaijing Ma, Xuan Zhang, Sicong Jiang, Yizhe Li, Ningshan Ma, Jie Wei, Ziniu Li, Minglai Yang, Bangya Liu, Yiming Liang, Xiao Fang, Qingcheng Zeng, Jiarui Liu, Rui Yang, Shen Yan, Wenhao Huang, Jiaheng Liu, Zihan Wang, Weihao Xuan, Ge Zhang
精选
针对现有LLM知识基准存在的三个问题(学科代表性不足、标注激励不当、排名不稳定),研究者提出了KINA基准,包含899道题目,覆盖261个细粒度学科。该基准通过贪心近似算法确保学科代表性,并设计了锦标赛式奖励机制以提升标注质量。在13个实验室的42个模型评估中,Gemini-3.1-Pro-Preview以53.17%的准确率领先,Claude-Opus-4.6和GPT-5.4紧随其后,整体排名呈现分层结构,远未达到饱和。工具增强平均提升5.17个百分点,但模型间差异显著。该基准还提供了自举排名稳定性统计,避免对相邻排名的过度解读。
推荐理由:KINA 解决了 LLM 知识评估中学科代表性不足和排名不稳定的痛点,做模型评测或研究 LLM 知识边界的团队可以直接用这个基准来更可靠地对比模型,建议点开看看具体的设计和排名细节。
10:35
10:35arXiv cs.AI@Zhangchen Xu, Junda Chen, Yue Huang, Dongfu Jiang, Jiefeng Chen, Hang Hua, Zijian Wu, Zheyuan Liu, Zexue He, Lichi Li, Shizhe Diao, Jiaxin Pei, Jinsung Yoon, Hao Zhang, Mengdi Wang, Radha Poovendran, Misha Sra, Alex Pentland, Zichen Chen
精选76°
AutoLab 是一个新基准,用于评估 AI 模型在超长周期闭环优化任务中的表现,涵盖系统优化、谜题挑战、模型开发和 CUDA 内核优化四个领域。每个任务从次优基线开始,要求智能体在严格时间预算内通过反复实验和反馈改进。测试 17 个前沿模型后发现,成功的关键不是初始尝试的质量,而是持续迭代和利用经验反馈的能力。Claude Opus 4.6 表现突出,但多数模型过早终止或进展有限。该基准开源,旨在推动长周期自主智能体的研究。
推荐理由:AutoLab 填补了现有基准只测短周期任务的空白,做 AI 智能体研究和开发的团队可以直接用它来测试模型的持久迭代能力,值得关注。
6月3日
11:12
11:12arXiv: OpenAI@Justice Owusu Agyemang, Jerry John Kponyo, Kwame Opuni-Boachie Obour Agyekum, Francisca Adoma Acheampong, Kwame Agyeman-Prempeh Agyekum, James Dzisi Gadze
精选
Entropy Gate 提出了一种基于熵淬火(entropy quenching)的令牌压缩框架,通过为每个令牌计算多因素信息能量,并模拟热力学过程逐步“冻结”低能量令牌,实现近无损压缩。该框架在五种提示类别上达到40-60%的压缩率,同时保持语义保真度(S_E > 0.80)。上下文去重可额外节省50-70%的重复块开销,输出端压缩进一步减少响应冗余。结合外部存储时,代理工作负载的压缩率可达88-96%。该方案无状态、模型无关,可作为兼容OpenAI的HTTP代理部署。

推荐理由:LLM 开发者常被冗长上下文和重复输出浪费大量令牌预算——Entropy Gate 用热力学思路解决了这个痛点,做长上下文推理或代理应用的团队可以直接集成,省令牌就是省成本。
10:57
10:57arXiv cs.AI@Zekun Qi, Xuchuan Chen, Dairu Liu, Chenghuai Lin, Yunrui Lian, Sikai Liang, Zhikai Zhang, Yu Guan, Jilong Wang, Wenyao Zhang, Xinqiang Yu, He Wang, Li Yi
精选
研究团队提出 Humanoid-GPT,一种基于 GPT 风格的因果注意力 Transformer,在 20 亿帧的运动数据上预训练,用于全身控制。与以往受限于数据稀缺和敏捷性-泛化权衡的浅层 MLP 追踪器不同,Humanoid-GPT 统一了所有主要动作捕捉数据集和大量内部录制数据。通过扩展数据和模型容量,该模型能够追踪高度动态的行为,并在未见过的动作和控制任务上实现前所未有的零样本泛化。实验表明,Humanoid-GPT 在零样本泛化和动态复杂运动追踪方面均达到了新的性能水平。
推荐理由:做机器人全身控制和运动追踪的团队终于有了一个能零样本泛化的基础模型——Humanoid-GPT 用 20 亿帧数据训练,直接解决了以往模型在动态场景下泛化差的问题,做仿人机器人或动画生成的开发者值得关注。
10:47
10:47arXiv cs.AI@Areeb Gani, Asal Meskin, Gabrielle Kaili-May Liu, Arman Cohan
精选
该研究提出一个系统框架,用于量化大型推理模型(LRM)在输出长链思维时,其内在置信度与语言表达置信度之间的对齐程度(即忠实校准FC)。研究发现,LRM的推理行为并不会自动提升FC,且针对非推理模型的提示干预在推理场景中无效。不同置信度估计器对同一推理轨迹给出分歧评估,暴露了现有评估方法的脆弱性。这项工作将FC确立为LRM在高风险部署场景下的关键可靠性与对齐目标。
推荐理由:LRM的推理链常被用户视为深思熟虑的证据,但这项研究戳破了这个幻觉——推理行为并不等于置信度表达更可靠。做模型对齐或安全评估的团队值得关注,尤其是那些在医疗、金融等高风险场景部署LRM的开发者,看完会重新审视你的置信度校准策略。

仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。