10:34
10:34
arXiv cs.AI@Xintong Hu, Xuhong Huang, Jinyu Zhang, Yutong Yao, Yuchong Sun, Qiuyue Wang, Mingsheng Li, Sicheng Xie, Yitao Liu, Junhao Chen, Yixuan Chen, Yingming Zheng, Shuai Bai, Tao Yu 现有机器人数据集通常只提供粗粒度的目标级语言描述,缺乏执行细节(如活动臂、接近方向、接触区域),限制了策略的可操控性。FineVLA 提出了一个开放框架,包括数据构建工具、细粒度数据集 FineVLA-Data(47,159 条轨迹)、基准测试、专用 VLM 标注器和可操控策略。实验表明,细粒度监督不仅不牺牲目标级成功率,还能提升 1.4-8.1 个百分点,且与粗粒度指令互补,最佳混合比例(FG:Raw=1:2 至 1:1)在仿真和真实场景中均取得最高性能。细粒度监督在姿态、颜色和接近方向等关键因素上带来最大真实世界增益,建议用细粒度语言补充目标级指令。
推荐理由:做机器人策略学习和 VLA 模型的研究者终于有了可用的细粒度数据框架——FineVLA 不仅开源了 47K 条验证轨迹和基准,还证明了细粒度指令能显著提升操控精度,做双臂操作或仿真迁移的团队可以直接用。
10:29
10:29
arXiv cs.AI@Tamerlan Aghayev, Maxime Elkael, Michele Polese, Minh Dat Nguyen, Gabriele Gemmi, Andrea Lacava, Ali Saeizadeh, Reshma Prasad, Paolo Testolina, Angelo Feraudo, Soumendra Nanda, Pedram Johari, Salvatore D'Oro, Tommaso Melodia GENESIS是一个AI智能体框架,旨在解决6G无线接入网(RAN)研发中六个结构性瓶颈,包括从标准合成代码、一致性测试、现场异常处理、数据驱动优化、新波形原型设计到安全加固。传统LLM在RAN场景中会幻觉API、误读规范,且依赖仿真导致硬件迁移失败。GENESIS通过三个可组合原语(智能体、技能、钩子)和持久知识层SYNAPSE,将意图(如规范条款、遥测异常)转化为经过空中实验验证的解决方案,并回馈到知识库。该框架使能力随运行次数累积,显著压缩R&D周期。
推荐理由:GENESIS解决了6G RAN研发中手动迭代耗时的核心痛点,做通信系统开发或6G标准研究的团队可以直接用这个框架加速从规范到验证的全流程。
10:28
10:28
arXiv cs.AI@Shihao Wang, Shilong Liu, Yuanguo Kuang, Xinyu Wei, Yangzhou Liu, Zhiqi Li, Yunze Man, Guo Chen, Andrew Tao, Guilin Liu, Jan Kautz, Lei Zhang, Zhiding Yu LocateAnything 提出并行框解码(PBD)方法,将边界框和点作为原子单元单步解码,替代传统序列化坐标生成,解决了几何结构耦合性差和推理瓶颈问题。该方法在保持框内几何一致性的同时,显著提升解码吞吐量和定位精度。团队还构建了包含1.38亿训练样本的大规模数据集 LocateAnything-Data,增强数据多样性。实验表明,LocateAnything 在多个基准上实现了速度与精度的新前沿,高IoU定位质量显著提升。这项工作展示了并行解码与大规模数据在统一视觉定位与检测中的互补优势。
推荐理由:做视觉定位或目标检测的开发者,LocateAnything 的并行解码思路能直接提升推理效率,建议关注其开源数据和模型。
仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。