X·KOLX:arXiv cs.LG (@Minrui Xu, Zilin Wang, Mengyi DENG, Zhiwei Li, Zhicheng Yang, Xiao Zhu, Yinhong Liu, Boyu Zhu, Baiyu Huang, Chao Chen, Heyuan Deng, Fei Mi, Lifeng Shang, Xingshan Zeng, Zhijiang Guo)
EnvFactory是一个全自动框架,解决了Agentic RL中可扩展执行环境缺失和真实训练数据稀缺两大瓶颈。它从真实资源中自主探索并验证有状态、可执行的工具环境,通过拓扑感知采样和校准精炼合成自然的多轮轨迹,生成带有隐式意图的查询。仅用85个已验证环境(远少于此前工作的5倍以上),EnvFactory就生成了2575条SFT和RL轨迹,并在BFCLv3、MCP-Atlas等基准上提升Qwen3系列模型最高15%。该框架完全自动化环境构建和轨迹合成,为Agentic RL提供了可扩展、可扩展且鲁棒的基础。
X·KOLX:arXiv cs.LG (@Rohit Patel, Alexandre Rezende, Steven McClain)
GIM(Grounded Integration Measure)是一个包含 820 道原创问题的新基准,旨在通过要求模型协调多种认知操作(如约束满足、状态跟踪、认知警觉、受众校准)来评估 LLM,而非单纯增加知识难度或抽象推理。该基准使用公共-私有问题拆分以检测数据污染,并基于超过 20 万次模型响应校准了 IRT 模型,提供更稳健的能力估计。研究对 22 个模型和 47 种测试配置进行了全面评估,发现思考预算和量化等家族内配置选择与模型选择同等重要。GIM 解决了现有基准在记忆与能力、推理与实践脱节上的问题,为 LLM 评估提供了新视角。
X·KOLX:arXiv cs.AI (@Yining Hong, Jiageng Liu, Han Yin, Manling Li, Leonidas Guibas, Li Fei-Fei, Jiajun Wu, Yejin Choi)
研究团队提出 ESI-Bench,一个基于 OmniGibson 的具身空间智能基准,涵盖 10 类任务和 29 个子类,要求智能体主动探索而非被动感知。实验发现,主动探索显著优于被动多视角,但大多数失败源于“行动盲视”——错误行动导致错误观察,进而引发级联错误。即使引入 3D 空间理解,不完美的 3D 表示反而比 2D 基线更差。人类研究显示,模型缺乏元认知能力,过早下结论且不修正信念,暴露了感知与行动闭环中的关键鸿沟。
X·KOLX:arXiv cs.AI (@Songsong Yu, Yuxin Chen, Ying Shan, Yanwei Li)
统一多模态模型(UMMs)试图在单一架构中整合视觉理解与视觉生成,但现有训练范式将两者解耦,导致表征空间错位。本文首次系统研究生成式后训练,发现高层语义任务(如图像分割)可作为最优代理,通过提供结构语义来增强视觉感知和生成布局保真度。作者提出语义生成调优(SGT)范式,利用分割作为生成代理对齐多模态能力。机制分析表明SGT改善了特征线性可分性和视觉-文本注意力分配。实验证明SGT在主流基准上持续提升多模态理解和生成保真度。
X·KOLX:arXiv cs.LG (@Lifu Wei, Yinuo Ren, Naichen Shi, Yiping Lu)
URGE(Unbiased Resampling via Girsanov Estimation)是一种无偏、无梯度的推理时缩放算法,用于扩散生成模型。它通过Girsanov测度变换对模拟轨迹进行路径重要性重加权,并定期重采样,无需计算分数、Hessian或PDE。该方法避免了现有技术中的偏差和高计算开销,在合成测试和扩散模型基准上优于现有推理时引导方法,且实现更简单。URGE建立了路径与粒子级序贯蒙特卡洛之间的等价性,确保两种方案产生相同的无偏终端分布。