browser-use 新出开源视频剪辑 Skill,让 AI 代码助手像读文档一样读视频,只靠 12KB 文本,比直接看帧的方案轻量太多。
browser-use 团队推出开源 Skill「video-use」,面向 Codex、Claude Code 等 AI Coding Agents。核心思路是让 LLM 读取由 ElevenLabs Scribe 转写的约 12KB 文本(含逐词时间戳、说话人分离、音频事件标记)来理解视频,仅在决策点调用 timeline_view.py 生成胶片帧+波形+字幕的 PNG 复合图。技术流水线包含 Transcribe→Pack→Reason→EDL→Render→Self-Eval 六个环节,剪辑基于 ffmpeg 分段提取与无损拼接。项目总结 12 条硬规则,涵盖字幕最后叠加、30ms 淡入淡出、PTS 时移等关键细节。
browser-use 团队推出开源 Skill「video-use」,面向 Codex、Claude Code 等 AI Coding Agents。核心思路是让 LLM 读取由 ElevenLabs Scribe 转写的约 12KB 文本(含逐词时间戳、说话人分离、音频事件标记)来理解视频,仅在决策点调用 timeline_view.py 生成胶片帧+波形+字幕的 PNG 复合图。技术流水线包含 Transcribe→Pack→Reason→EDL→Render→Self-Eval 六个环节,剪辑基于 ffmpeg 分段提取与无损拼接。项目总结 12 条硬规则,涵盖字幕最后叠加、30ms 淡入淡出、PTS 时移等关键细节。
AI 视频剪辑 Skill 分享「video-use」 github.com/browser-use/vi… @browser_use 团队推出的开源 Skill,定位为面向 AI Coding Agents(Codex、Claude Code、Cursor、Hermes Agent 等)的视频剪辑 Skill。它不做传统意义上的 Premiere / CapCut 替代品,它是一套让 LLM 通过 “阅读转写文本 + 按需可视化” 来…