技巧精选

做好字幕SRT,断句和纠错可借助AI,中文断句更难

要做好字幕 SRT,断句最重要,其次是纠正拼写错误。这些可以借助 AI 或者 Agent 来做了。 不过前提是先生成单词级别的时间戳,这样才能在组合后拼回去,现在主流语音识别模型都支持输出 json...

精选理由

做字幕或视频处理的开发者,用AI断句和纠错能大幅提升效率,中文断句的坑和解决方案都讲清楚了,值得实操参考。

AI 摘要

博主dotey分享了利用AI或Agent制作字幕SRT的经验,强调断句和拼写纠错是关键。英文断句简单,通过标点即可切分;中文断句更复杂,因为Whisper生成的中文语音没有标点,且“word”是多个汉字。需要借助大模型断句加标点,再重新对齐时间戳拆分。对于长访谈,需分块处理,避免切分在句子中间。推荐Mac用户使用WhisperKit,支持单词级时间戳和说话人识别。

AI 翻译 · 中文

博主dotey分享了利用AI或Agent制作字幕SRT的经验,强调断句和拼写纠错是关键。英文断句简单,通过标点即可切分;中文断句更复杂,因为Whisper生成的中文语音没有标点,且“word”是多个汉字。需要借助大模型断句加标点,再重新对齐时间戳拆分。对于长访谈,需分块处理,避免切分在句子中间。推荐Mac用户使用WhisperKit,支持单词级时间戳和说话人识别。

宝玉要做好字幕 SRT,断句最重要,其次是纠正拼写错误。这些可以借助 AI 或者 Agent 来做了。 不过前提是先生成单词级别的时间戳,这样才能在组合后拼回去,现在主流语音识别模型都支持输出 json 格式,每个单词都标注清楚start和end的timestamp。 英文断句很简单,只要找标点符号就可以切分成长度合适的。 但中文断句要难一些,中文语音用whisper生成,吐出来的是一大坨没有标点的,并且它的“word”不是一个汉字,而是几