browser-use 团队开源 video-use，让 LLM 通过转写文本理解视频并剪辑

精选理由

browser-use 新出开源视频剪辑 Skill，让 AI 代码助手像读文档一样读视频，只靠 12KB 文本，比直接看帧的方案轻量太多。

AI 摘要

browser-use 团队推出开源 Skill「video-use」，面向 Codex、Claude Code 等 AI Coding Agents。核心思路是让 LLM 读取由 ElevenLabs Scribe 转写的约 12KB 文本（含逐词时间戳、说话人分离、音频事件标记）来理解视频，仅在决策点调用 timeline_view.py 生成胶片帧+波形+字幕的 PNG 复合图。技术流水线包含 Transcribe→Pack→Reason→EDL→Render→Self-Eval 六个环节，剪辑基于 ffmpeg 分段提取与无损拼接。项目总结 12 条硬规则，涵盖字幕最后叠加、30ms 淡入淡出、PTS 时移等关键细节。

AI 翻译 · 中文

shao__mengAI 视频剪辑 Skill 分享「video-use」 github.com/browser-use/vi… @browser_use 团队推出的开源 Skill，定位为面向 AI Coding Agents（Codex、Claude Code、Cursor、Hermes Agent 等）的视频剪辑 Skill。它不做传统意义上的 Premiere / CapCut 替代品，它是一套让 LLM 通过 “阅读转写文本 + 按需可视化” 来…

查看原推