Qwen-VLA：统一视觉-语言-动作建模，覆盖多任务、环境与机器人

精选理由

通才机器人模型来了

AI 摘要

Qwen-VLA 是一个统一的视觉-语言-动作模型，旨在跨任务、环境和机器人本体进行泛化。该模型通过融合视觉与语言指令，直接输出机器人动作。在多个基准测试中，Qwen-VLA 展示了优于现有方法的性能，尤其是在零样本泛化场景。其架构基于 ViT-L 视觉编码器和 Qwen2.5 语言基座。

AI 翻译 · 中文

AKQwen-VLA Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments 💬 1 🔄 1 ❤️ 3 👀 393 📊 1 ⚡ Powered by xgo.ing