LIME:从自拍视频中学习意图感知的相机运动

LIME: Learning Intent-aware Camera Motion from Egocentric Video

精选理由

这篇论文让你知道,给机器人一个语言指令,它就能自己学会怎么转动相机去看你想看的地方——全靠学人类第一人称视频,不用手动标数据。

AI 摘要

该论文提出了一个名为LIME的视觉语言相机运动生成器。它根据当前RGB图像和自然语言意图,预测下一视角的相对目标相机位姿(SE(3))。为了训练模型,作者从第一人称视频中挖掘多意图相机运动监督信号,配对合理的意图和观察增益描述。LIME结合了自回归的观察增益输出和连续流匹配位姿头,能够联合预测下一视图该展示什么并代表多假设目标视图。实验表明,LIME可从被动的人类视频中学习主动选择相机位姿,用于下游机器人任务。

AI 翻译 · 中文

该论文提出了一个名为LIME的视觉语言相机运动生成器。它根据当前RGB图像和自然语言意图,预测下一视角的相对目标相机位姿(SE(3))。为了训练模型,作者从第一人称视频中挖掘多意图相机运动监督信号,配对合理的意图和观察增益描述。LIME结合了自回归的观察增益输出和连续流匹配位姿头,能够联合预测下一视图该展示什么并代表多假设目标视图。实验表明,LIME可从被动的人类视频中学习主动选择相机位姿,用于下游机器人任务。

arXiv cs.LGAutonomous robots often need to move their camera before they can act: to inspect an object, reveal an occluded region, or obtain a view that responds to a user's intent. While vision-language navigation translates instr