13:38岚叔@lufzzliz精选本文揭示大模型在生成低频词汇(如冷门人名)时表现不佳,并非小bug,而是底层偏好高频表达所致。作者串联了“马嘉祺”事件、Anthropic tokenizer调整以及FaceMind团队的SLoW和Adam's Law研究,指出频率是大模型数据工程的关键变量。FaceMind早于大众关注低频token退化问题,将其写成论文并落地产品场景。文章还解释了为何prompt并非越多越好,以及高频同义表达更稳定。最后介绍了FaceMind的动态弹幕产品,暗示其可能应用于世界杯等场景。AI模型大模型低频tokenFaceMindSLoW数据工程10 个信源在谈推荐理由:做AI应用或数据工程的团队,这篇把低频token退化讲透了——FaceMind的SLoW方法直接给出了解决方案,值得点开看看怎么从模型规律里建立产品差异。原文
13:08berryxia@berryxia精选FaceMind团队通过100种语言和四大核心任务的实验发现,在语义不变的前提下,使用预训练语料中频率更高的表达方式,无论是Prompting还是Fine-tuning,模型表现都会显著提升。这一发现被称为Adam’s Law(文本频率定律),它补充了数据工程中“质量-规模-难度”铁三角缺失的第四维度:频率。高频表达不是简化,而是让模型在熟悉的概率空间里工作,效果更好。写Prompt时,应优先考虑模型在训练语料中见过的频率,而非追求文雅或专业。技巧Prompt工程文本频率定律FaceMind模型优化数据工程1 个信源在谈推荐理由:写Prompt总感觉模型不听话?FaceMind的实验戳破了“高级词汇”的幻觉——用高频表达能让模型表现直接起飞,做Prompt工程或微调模型的开发者值得一试。原文