G^2C-MT:用图引导上下文选择提升文档级机器翻译

G^2C-MT: Graph-Guided Context Selection for Document-Level Machine Translation

精选理由

做文档翻译或长文本处理的团队终于有了不依赖昂贵 LLM 的上下文建模方案——G^2C-MT 用图结构替代暴力检索,翻译质量提升且成本可控,做 NLP 应用的建议点开看看方法细节。

AI 摘要

文档级机器翻译需要捕捉长距离的篇章依赖关系,现有方法缺乏对结构化篇章依赖的显式建模。本文提出 G^2C-MT,将上下文选择视为轻量级篇章图上的结构化路径发现问题,通过将段落表示为节点并建模语义相似度、邻接和关键词重叠关系,再使用深度偏置随机游走采样上下文路径,引导大模型翻译。该方法支持多路径采样,能聚合多样候选翻译以提升鲁棒性。实验表明,G^2C-MT 在 DeepSeek-V3、Gemini-2.5-Flash-lite 和 Qwen-2.5/3 系列等多个大模型上均优于强基线。

AI 翻译 · 中文

文档级机器翻译需要捕捉长距离的篇章依赖关系,现有方法缺乏对结构化篇章依赖的显式建模。本文提出 G^2C-MT,将上下文选择视为轻量级篇章图上的结构化路径发现问题,通过将段落表示为节点并建模语义相似度、邻接和关键词重叠关系,再使用深度偏置随机游走采样上下文路径,引导大模型翻译。该方法支持多路径采样,能聚合多样候选翻译以提升鲁棒性。实验表明,G^2C-MT 在 DeepSeek-V3、Gemini-2.5-Flash-lite 和 Qwen-2.5/3 系列等多个大模型上均优于强基线。

arXiv: DeepSeekEffective document-level machine translation (DocMT) requires capturing long-range discourse dependencies. Recent work has explored retrieval-based and discourse-aware context selection. However, these approaches often l