想做本地 AI 桌宠或 VTuber Agent 原型的开发者,这个项目把 LLM、语音和 Live2D 串成一条龙,还支持可打断对话,值得直接 fork 折腾。
Open-LLM-VTuber 是一个开源项目,拥有 8.9k stars 和 1.1k forks,最新版本 v1.2.1,v2 正在规划重写。它将 LLM、语音识别、TTS 和 Live2D 集成,实现用户说话后 AI 理解、回复、合成语音并驱动角色开口。支持“可打断”功能:AI 说话时用户可直接插话,前端 VAD 检测到人声即停播,后端取消当前任务并将“被打断”写入上下文。本地运行需要一定硬件基础,推荐 M 系列 Mac、Nvidia GPU 或较新的 AMD GPU(支持 ROCm 更佳),其他 GPU 或强 CPU 也可尝试。噪音处理依赖 VAD 和停麦,适合本地桌宠和 VTuber Agent 原型开发,公网或商用需自行补充鉴权、限流和测试。
Open-LLM-VTuber 是一个开源项目,拥有 8.9k stars 和 1.1k forks,最新版本 v1.2.1,v2 正在规划重写。它将 LLM、语音识别、TTS 和 Live2D 集成,实现用户说话后 AI 理解、回复、合成语音并驱动角色开口。支持“可打断”功能:AI 说话时用户可直接插话,前端 VAD 检测到人声即停播,后端取消当前任务并将“被打断”写入上下文。本地运行需要一定硬件基础,推荐 M 系列 Mac、Nvidia GPU 或较新的 AMD GPU(支持 ROCm 更佳),其他 GPU 或强 CPU 也可尝试。噪音处理依赖 VAD 和停麦,适合本地桌宠和 VTuber Agent 原型开发,公网或商用需自行补充鉴权、限流和测试。
这个开源项目有可以:Open-LLM-VTuber,一个 8.9k stars、1.1k forks 的开源本地 AI VTuber 框架,最新发到 v1.2.1,v2 也在规划重写。 它把 LLM、语音识别、TTS、Live2D 串成一套:你说一段,它听懂、回复、合成语音,再让角色开口。 也支持“可打断”:AI 说话时你直接插话,前端 VAD 检测到人声就停播,后端取消当前任务,把“被打断”写回上下文。 本地跑推荐有点硬件基础:M 系…