OmniAct:整合规划、记忆与验证的泛模态具身智能体框架

Advancing Omnimodal Embodied Agents from Isolated Skills to Everyday Physical Autonomy

精选理由

他们搞了个新架构,让机器人能自己协调API、物联网和物理动作,干活出错还能自己恢复,20个任务里成功率都比之前高,而且省钱省token。

AI 摘要

OmniAct 提出了一个分层异步架构,将多模态语义规划器、基于事件边界压缩的自适应分层记忆和异步视觉抢占引擎模块化集成,以解决持久自主机器人的跨域工具调用与物理故障恢复问题。在40个真实世界长期任务中,使用两个机器人平台协调四个IoT设备,OmniAct在所有复杂度级别上端到端成功率一致提升,累积超过10万交互token时保持接近线性的token消耗,并让中等规模开源模型达到闭源模型性能。

AI 翻译 · 中文

OmniAct 提出了一个分层异步架构,将多模态语义规划器、基于事件边界压缩的自适应分层记忆和异步视觉抢占引擎模块化集成,以解决持久自主机器人的跨域工具调用与物理故障恢复问题。在40个真实世界长期任务中,使用两个机器人平台协调四个IoT设备,OmniAct在所有复杂度级别上端到端成功率一致提升,累积超过10万交互token时保持接近线性的token消耗,并让中等规模开源模型达到闭源模型性能。

arXiv cs.AIBuilding persistent embodied agents in unstructured environments demands unified orchestration of heterogeneous tools spanning both cyber (APIs, IoT) and physical (manipulation, navigation) domains, coupled with autonomo