13:38岚叔@lufzzliz精选本文揭示大模型在生成低频词汇(如冷门人名)时表现不佳,并非小bug,而是底层偏好高频表达所致。作者串联了“马嘉祺”事件、Anthropic tokenizer调整以及FaceMind团队的SLoW和Adam's Law研究,指出频率是大模型数据工程的关键变量。FaceMind早于大众关注低频token退化问题,将其写成论文并落地产品场景。文章还解释了为何prompt并非越多越好,以及高频同义表达更稳定。最后介绍了FaceMind的动态弹幕产品,暗示其可能应用于世界杯等场景。AI模型大模型低频tokenFaceMindSLoW数据工程10 个信源在谈推荐理由:做AI应用或数据工程的团队,这篇把低频token退化讲透了——FaceMind的SLoW方法直接给出了解决方案,值得点开看看怎么从模型规律里建立产品差异。原文
13:08berryxia@berryxia精选FaceMind团队通过100种语言和四大核心任务的实验发现,在语义不变的前提下,使用预训练语料中频率更高的表达方式,无论是Prompting还是Fine-tuning,模型表现都会显著提升。这一发现被称为Adam’s Law(文本频率定律),它补充了数据工程中“质量-规模-难度”铁三角缺失的第四维度:频率。高频表达不是简化,而是让模型在熟悉的概率空间里工作,效果更好。写Prompt时,应优先考虑模型在训练语料中见过的频率,而非追求文雅或专业。技巧Prompt工程文本频率定律FaceMind模型优化数据工程1 个信源在谈推荐理由:写Prompt总感觉模型不听话?FaceMind的实验戳破了“高级词汇”的幻觉——用高频表达能让模型表现直接起飞,做Prompt工程或微调模型的开发者值得一试。原文
10:30arXiv cs.AI@Yi Jing, Zao Dai, Jinwu Hu, Zijun Yao, Lei Hou, Juanzi Li, Xiaozhi Wang精选论文提出SAERL框架,利用稀疏自编码器(SAE)提取模型内部信号,用于强化学习(RL)后训练的数据工程。SAERL建模了数据的多样性、难度和质量三个内在属性,分别实现批次多样性控制、易到难课程排序和数据过滤。在Qwen2.5-Math-1.5B上,SAERL相比原始GRPO平均准确率提升3%,训练步数减少20%,且在不同模型规模和RL算法上表现一致。实验表明SAE可跨模型族和规模迁移,是一种轻量可复用的数据工程工具。论文稀疏自编码器数据工程强化学习后训练可解释性推荐理由:做LLM后训练数据工程的团队终于有了从模型内部获取信号的方法——SAERL用SAE直接指导数据排序和过滤,比依赖外部信号更高效,做RL训练优化的开发者值得一试。原文
08:06Y Combinator@ycombinatorNetter.ai 是一家新创公司,旨在帮助企业重新掌控数据,使团队能够高精度地指导其活动。该公司为缺乏大量数据工程师的企业提供技术能力,解决其最复杂的数据挑战。该产品由 Y Combinator 支持,并已正式发布。AI产品数据管理企业工具Y Combinator数据工程创业公司推荐理由:对于数据团队资源有限、却面临复杂数据挑战的企业,Netter.ai 提供了一个无需庞大工程师团队即可实现数据精准管控的解决方案,值得关注。原文
00:33Meta Engineering Blog(博客/媒体)70°Meta对其数据摄入系统进行了重大改造,从旧架构迁移到全新系统,以确保社交图谱快照的可靠性。迁移过程涉及整个数据基础设施的重新部署,Meta分享了其解决方案和策略,包括分阶段迁移、兼容性设计和自动化工具。这一变革旨在提升大规模数据处理的可扩展性和稳定性,为Meta的工程团队提供更实时的数据支持。对于依赖海量数据的企业,该案例展示了如何平滑过渡关键基础设施。行业数据工程基础设施迁移可靠性Meta推荐理由:该文提供了Meta在超大规模数据系统迁移中的具体经验,对面临类似基础设施升级挑战的工程团队具有直接参考价值。原文
19:11arXiv cs.AI@Yaxin Du, Xiyuan Yang, Zhifan Zhou, Wanxu Liu, Zixing Lei, Zimeng Chen, Fenyi Liu, Haotian Wu, Yuzhu Cai, Zexi Liu, Xinyu Zhu, WenHao Wang, Linfeng Zhang, Chen Qian, Siheng ChenDataMaster 提出了一种自主数据工程框架,旨在通过优化数据侧(包括外部数据发现、选择、清洗和转换)来提升固定学习算法的性能,而无需改变算法本身。该框架集成了树状搜索结构、共享数据池和全局记忆模块,以应对数据工程中开放式的搜索空间、分支依赖优化和延迟验证等挑战。在 MLE-Bench Lite 基准上,DataMaster 将奖牌率提升了32.27%;在 PostTrainBench 上,其在 GPQA 上的表现(31.02%)超过了指导模型(30.35%)。这表明自主数据工程有望成为提升机器学习系统性能的有效手段。论文数据工程自主智能体机器学习搜索优化arxiv推荐理由:DataMaster 展示了自主数据工程的潜力,特别是在模型架构和训练策略标准化后,数据优化成为关键瓶颈。对于机器学习从业者而言,该框架提供了一种系统化的数据自动化方案,可减少人工试错成本,值得关注其在数据发现与组合方面的实际应用效果。原文