做同声传译或实时翻译系统的团队,终于有了一个在纯解码器 LLM 上跑 AlignAtt 的可行方案,低延迟场景下效果显著,值得参考实现。
AlignAtt4LLM 是 IWSLT 2026 同声传译任务的参赛系统,支持英语到德语、意大利语和中文的实时翻译。它采用同步级联架构:Qwen3-ASR 通过强制对齐生成逐步更新的源文本,Gemma-4 E4B-it 在 MT 侧使用 AlignAtt 策略进行翻译。这是首次将 AlignAtt 应用于纯解码器 LLM,解决了缺少编码器-解码器交叉注意力的问题,通过显式源跨度提示、离线选择翻译专用注意力头、选择性 qk-fast replay 和运行时查询/键捕获实现。在 IWSLT 2026 开发集上,该系统在低延迟(约2秒)和高延迟(低于4秒)场景下,对欧洲目标语言(英译德、英译意)均优于基线,对英译中结果较复杂,但方法不限于 Gemma-4,可复用于更强的翻译解码器 LLM。
AlignAtt4LLM 是 IWSLT 2026 同声传译任务的参赛系统,支持英语到德语、意大利语和中文的实时翻译。它采用同步级联架构:Qwen3-ASR 通过强制对齐生成逐步更新的源文本,Gemma-4 E4B-it 在 MT 侧使用 AlignAtt 策略进行翻译。这是首次将 AlignAtt 应用于纯解码器 LLM,解决了缺少编码器-解码器交叉注意力的问题,通过显式源跨度提示、离线选择翻译专用注意力头、选择性 qk-fast replay 和运行时查询/键捕获实现。在 IWSLT 2026 开发集上,该系统在低延迟(约2秒)和高延迟(低于4秒)场景下,对欧洲目标语言(英译德、英译意)均优于基线,对英译中结果较复杂,但方法不限于 Gemma-4,可复用于更强的翻译解码器 LLM。
We describe AlignAtt4LLM, an IWSLT 2026 simultaneous speech translation system for English to German, Italian, and Chinese. The system is a synchronous cascade: Qwen3-ASR with forced alignment produces an incrementally u…