京东开源实时视频交互模型JoyAI-VL-Interaction，全球首个全栈开源

精选理由

京东开源了JoyAI-VL-Interaction，能实时看视频主动说话，安防、直播都能用，盲评胜率比豆包和Gemini高一大截。

AI 摘要

京东发布并开源了实时视频视觉语言交互模型JoyAI-VL-Interaction，这是全球首个全栈开源的interaction模型和系统，获得vLLM-Omni的day-0原生支持。该模型能持续观察视频流，自主判断何时响应，而非被动等待用户提问。在58个真人盲评案例中，JoyAI-VL-Interaction对比豆包视频通话助手胜率77.6%，对比Gemini视频通话助手胜率87.9%。它支持摄像头、直播流、监控流等多种视频输入，并具备后台智能体委托能力。

AI 翻译 · 中文

IT之家IT之家 6 月 22 日消息，京东官方宣布开源实时视频视觉语言交互模型 JoyAI-VL-Interaction ，这也是全球首个全栈开源的 interaction 模型和系统，并获得 vLLM-Omni 的 day-0 原生支持。官方表示，它让大模型从“一问一答”走向“边看边说” ，开发者基于这套框架，可以快速搭建能持续观察、自主判断、即时响应的实景 AI 助手。据介绍，相比传统模型，JoyAI-VL-Interaction …

阅读原文