精选理由
京东开源了JoyAI-VL-Interaction,能实时看视频主动说话,安防、直播都能用,盲评胜率比豆包和Gemini高一大截。
京东发布并开源了实时视频视觉语言交互模型JoyAI-VL-Interaction,这是全球首个全栈开源的interaction模型和系统,获得vLLM-Omni的day-0原生支持。该模型能持续观察视频流,自主判断何时响应,而非被动等待用户提问。在58个真人盲评案例中,JoyAI-VL-Interaction对比豆包视频通话助手胜率77.6%,对比Gemini视频通话助手胜率87.9%。它支持摄像头、直播流、监控流等多种视频输入,并具备后台智能体委托能力。
AI 翻译 · 中文
京东发布并开源了实时视频视觉语言交互模型JoyAI-VL-Interaction,这是全球首个全栈开源的interaction模型和系统,获得vLLM-Omni的day-0原生支持。该模型能持续观察视频流,自主判断何时响应,而非被动等待用户提问。在58个真人盲评案例中,JoyAI-VL-Interaction对比豆包视频通话助手胜率77.6%,对比Gemini视频通话助手胜率87.9%。它支持摄像头、直播流、监控流等多种视频输入,并具备后台智能体委托能力。
IT之家 6 月 22 日消息,京东官方宣布开源实时视频视觉语言交互模型 JoyAI-VL-Interaction ,这也是全球首个全栈开源的 interaction 模型和系统,并获得 vLLM-Omni 的 day-0 原生支持。 官方表示,它让大模型 从“一问一答”走向“边看边说” ,开发者基于这套框架,可以快速搭建能持续观察、自主判断、即时响应的实景 AI 助手。 据介绍,相比传统模型,JoyAI-VL-Interaction …