10:30arXiv: DeepSeek@Baijun Ji, Zixuan Zhou, Xiangyu Duan, Yu Liu, Longbo Sun, Rupu Wei, Bohong Zhao文档级机器翻译需要捕捉长距离的篇章依赖关系,现有方法缺乏对结构化篇章依赖的显式建模。本文提出 G^2C-MT,将上下文选择视为轻量级篇章图上的结构化路径发现问题,通过将段落表示为节点并建模语义相似度、邻接和关键词重叠关系,再使用深度偏置随机游走采样上下文路径,引导大模型翻译。该方法支持多路径采样,能聚合多样候选翻译以提升鲁棒性。实验表明,G^2C-MT 在 DeepSeek-V3、Gemini-2.5-Flash-lite 和 Qwen-2.5/3 系列等多个大模型上均优于强基线。论文文档级翻译图引导上下文篇章建模大模型机器翻译推荐理由:做文档翻译或长文本处理的团队终于有了不依赖昂贵 LLM 的上下文建模方案——G^2C-MT 用图结构替代暴力检索,翻译质量提升且成本可控,做 NLP 应用的建议点开看看方法细节。原文
12:06arXiv: DeepSeek@Boao Kong, Weichen Jia, Engao Zhang, Guohong Li, Yonghan Dong, Yao Wang, Yaoyuan Wang, Yunke Peng, Kun Yuan低精度训练在降低大模型训练成本的同时,常因少数算子的数值不稳定导致训练失败。论文提出GNMR(梯度范数与均值比)轻量控制器,通过比较当前梯度范数与历史均值,并结合Δ-GNMR检测短窗口内的突变,在固定预算和锁定间隔内执行恢复操作,无需改变数值格式或底层实现。在激活量化、DeepSeek式训练和LLaMA-2 13B微调等场景中,GNMR以稀疏的恢复动作保持高保真质量。该方法为低精度训练提供了一种后端无关的稳定性控制方案。论文低精度训练训练稳定性GNMR大模型量化推荐理由:低精度训练是降低大模型成本的关键,但数值不稳定常让训练白费。GNMR用轻量控制解决了这个痛点,做大规模训练或量化训练的团队值得关注,可以直接集成到现有流程中。原文
11:08arXiv cs.AI@Xiang Li, Jiwei Wei, Ke Liu, Yitong Qin, Jinyu Guo, Malu Zhang, Peng Wang, Yang YangeMoT 提出了一种名为“演化思维记忆”的新框架,将推理轨迹视为动态演化的记忆而非静态模板,以解决大模型在多步推理中的幻觉和数值计算问题。该框架包含三个核心模块:记忆腐蚀机制(强化高效用推理结构并衰减低频结构)、符号锚定引擎(利用 Python 进行确定性计算,类似人类使用计算器)以及一致性驱动精炼过程(对齐神经推理与符号结果,减少逻辑偏差)。在 Game of 24 任务上,eMoT 达到 100% 准确率,比基线提升 17.6%;在 GSM8K、ASDiv、SVAMP 和 MGSM 等数学推理基准上也有持续改进。即使使用轻量级模型,eMoT 也优于依赖大规模模型的方法,表明性能提升主要来自框架的推理控制而非模型规模。论文推理模型记忆机制符号锚定数学推理大模型推荐理由:eMoT 解决了大模型在多步推理中容易出错和产生幻觉的痛点,做推理增强或数学推理的开发者可以直接参考其记忆腐蚀和符号锚定机制,值得一试。原文
15:58arXiv cs.AI@Zijun Jia, Yuanchang Ye, Sen Jia, Yiyao Qian, Haoning Wang, Baojie Chen, Diyin Tang, Jinsong Yu, Zhiyuan Wang精选BalanceRAG 提出了一种针对级联检索增强生成(RAG)系统的联合风险校准方法。传统级联RAG会先尝试仅用大模型回答,不确定时再启用RAG,但各阶段独立校准可能过于保守。BalanceRAG 将阈值对视为二维网格上的操作点,通过序贯图形测试识别安全操作点,实现系统级错误率控制。该方法支持多风险校准,能在保证风险水平的同时保留更多样本,减少不必要的检索调用。在多个开放域问答基准测试中,BalanceRAG 在满足预设风险水平的前提下,提高了覆盖率和正确样本接受数。论文RAG风险校准级联系统问答大模型推荐理由:做RAG系统优化的团队终于有了一个能精确控制风险与检索成本的校准工具——BalanceRAG 用联合阈值替代逐级保守校准,在保证准确率的同时减少不必要的检索调用,建议做问答系统的开发者点开看看。原文
14:39arXiv cs.LG@Ruitao Liu, Xinyang Tian, Shuo Chen, Tingrui Zhang, Guang Yang, Alan Zhao, Wei Xu精选论文提出 RRFP(Runtime-Readiness-First Pipeline),一种基于任务就绪状态的流水线并行运行时系统。传统流水线并行依赖静态或自适应生成的调度顺序,当实际任务就绪状态与预设顺序不一致时,会导致阶段错位和空闲气泡。RRFP 将调度视为非绑定的提示顺序,优先执行已就绪的任务,结合消息驱动的异步通信和轻量级张量并行协调。在 128 GPU 上测试,RRFP 在纯语言和多模态任务上分别实现最高 1.77 倍和 2.77 倍加速,并优于现有外部系统。论文流水线并行分布式训练大模型运行时优化RRFP推荐理由:大模型训练中流水线并行的空闲气泡问题一直困扰着分布式训练团队,RRFP 用就绪优先的思路直接提升 GPU 利用率,做大规模训练的工程师值得关注这个新方案。原文
11:41arXiv cs.AI@Tej Sanibh Ranade精选72°TRACE 是一种无需训练的推理时幻觉纠正算法,它通过分析大模型内部各层的候选轨迹,动态选择最合适的纠正方式(如标量反转、早期状态恢复或候选空间修正),而不是固定使用单一干预形式。实验覆盖 15 个模型、8 个模型家族和 3 个事实性基准,所有评估指标均有提升,平均 MC1 提高 12.26 点,MC2 提高 8.65 点,最高提升分别达 47.20 和 43.38 点。该方法无需标签、检索、预训练、微调或逐模型校准。论文大模型幻觉纠正推理优化无需训练TRACE推荐理由:TRACE 解决了大模型幻觉纠正中“一刀切”干预的缺陷,做 LLM 推理优化或事实性研究的开发者可以直接在现有模型上试用,无需额外训练成本。原文
10:06arXiv cs.AI@Mingyang Rao, Kehua Feng, Zhihui Zhu, Jiangzhen Fu, Hao Yu, Keyan Ding, Huajun Chen精选大模型在理解化学反应图方面存在视觉缺陷和语义脱节两大瓶颈。ChemVA框架通过视觉锚点机制和语义对齐方法,将化学结构图转化为模型能理解的实体名称,显著提升理解能力。在OCRD-Bench基准测试中,ChemVA实现92%的结构识别准确率,并在9种不同大模型上平均提升约20个百分点,使开源模型在复杂化学推理任务上媲美闭源系统。论文大模型化学推理视觉理解开源/仓库ChemVA推荐理由:做化学信息学或AI辅助药物研发的团队,终于有了让大模型真正看懂反应图的方法——开源框架可直接用,效果提升明显。原文
09:54arXiv cs.AI@Paolo Mandica, Michał Brzozowski, Zuzanna Dubanowska, Neo Christopher Chung精选GPart 提出一种全新的参数高效微调方法,通过全局等距分区矩阵直接将低维可训练向量映射到模型全权重空间,完全去除了低秩瓶颈。与 LoRA 等现有方法不同,GPart 保持了映射的距离保持性(等距性),避免了优化景观扭曲问题。该方法仅需一个随机投影、一个超参数(维度 d)和 d+1 个存储值(向量加随机种子),极其简洁高效。实验表明,GPart 在自然语言理解、计算机视觉和数学推理任务上达到或超越现有 PEFT 方法的性能。这项工作为参数高效微调提供了更优雅的理论基础和实践路径。论文参数高效微调LoRA等距映射GPart大模型推荐理由:GPart 用极简设计解决了 LoRA 等方法的优化扭曲问题,做模型微调的研究者和工程师可以直接参考其理论框架,尤其适合追求极致参数效率的团队。原文