精选理由
数值预测是数学推理和代码生成的基础能力,DEL直接改进了LLM对数字的学习效果。做数学推理或代码生成模型训练的团队,值得关注这个新损失函数,它简单有效且开源可用。
论文提出Digit Entropy Loss(DEL),一种用于大语言模型(LLM)数值学习的新损失函数。现有方法如Number Token Loss和Discretized Distance Loss分别导致数字分布过尖锐或过平坦,而DEL通过将无监督熵优化改造为有监督形式,并摒弃数值距离项,解决了这一问题。DEL支持整数、小数和小数点,将学习目标从单个数字扩展到浮点数域。在CodeLlama、Mistral、DeepSeek和Qwen-2.5等四个代表性LLM上的七个数学推理基准测试中,DEL在预测准确性和数值距离上均优于现有方法。
AI 翻译 · 中文
论文提出Digit Entropy Loss(DEL),一种用于大语言模型(LLM)数值学习的新损失函数。现有方法如Number Token Loss和Discretized Distance Loss分别导致数字分布过尖锐或过平坦,而DEL通过将无监督熵优化改造为有监督形式,并摒弃数值距离项,解决了这一问题。DEL支持整数、小数和小数点,将学习目标从单个数字扩展到浮点数域。在CodeLlama、Mistral、DeepSeek和Qwen-2.5等四个代表性LLM上的七个数学推理基准测试中,DEL在预测准确性和数值距离上均优于现有方法。
Number prediction stands as a fundamental capability of large language models (LLMs) in mathematical problem-solving and code generation. The widely adopted maximum likelihood estimation (MLE) for LLM training is not tai…