LIME：从自拍视频中学习意图感知的相机运动

精选理由

这篇论文让你知道，给机器人一个语言指令，它就能自己学会怎么转动相机去看你想看的地方——全靠学人类第一人称视频，不用手动标数据。

AI 摘要

该论文提出了一个名为LIME的视觉语言相机运动生成器。它根据当前RGB图像和自然语言意图，预测下一视角的相对目标相机位姿（SE(3)）。为了训练模型，作者从第一人称视频中挖掘多意图相机运动监督信号，配对合理的意图和观察增益描述。LIME结合了自回归的观察增益输出和连续流匹配位姿头，能够联合预测下一视图该展示什么并代表多假设目标视图。实验表明，LIME可从被动的人类视频中学习主动选择相机位姿，用于下游机器人任务。

AI 翻译 · 中文

arXiv cs.LGAutonomous robots often need to move their camera before they can act: to inspect an object, reveal an occluded region, or obtain a view that responds to a user's intent. While vision-language navigation translates instr…

阅读原文