AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:训练数据×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
14:21
14:21Fireworks AI@FireworksAI_HQ
Fireworks AI 与 LangChain 合作推出新方案,允许客户从应用 traces 中生成定制训练数据。该方案支持持续后训练(continuous post training),帮助企业利用自有数据建立数据护城河。研究由 LangChain Labs 与 Fireworks AI 联合开展,旨在降低 AI 定制门槛。
AI产品FireworksAILangChain训练数据后训练数据护城河

推荐理由:Fireworks AI 和 LangChain 搞了个新路子:从你的 traces 里自动生成训练数据,然后持续后训练,让你真正掌控自己的 AI 和数据。
原文
01:06
01:06Y Combinator@ycombinator
Hub 是一个通过全球贡献者网络采集真实世界数据的新平台。人类劳动力占全球GDP的一半,但绝大部分从未被记录。Hub 为前沿AI实验室和机器人公司开放访问这些难以获取的数据。该平台由 Y Combinator 支持,创始人 @xarmin 和 @tim404x 今日正式发布。
AI产品Hub训练数据数据采集AI实验室机器人

推荐理由:Hub刚上线,它用全球贡献者网络帮你采集人类真实劳动力数据,解决AI训练数据稀缺问题。
原文
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
12:14
12:14Allen AI (Ai2)@allen_ai
精选
艾伦人工智能研究所发布ModSleuth工具,用于追踪现代大语言模型训练中依赖的其他模型和数据集。研究发现,Olmo 3依赖89个模型和183个数据集,Nemotron 3则依赖273个模型和560个数据集。这表明LLM训练已从纯人类数据转向模型间相互生成、过滤和评估数据的模式。ModSleuth帮助开发者理解模型供应链的复杂性和潜在风险。
论文大语言模型训练数据模型依赖ModSleuth艾伦AI研究所

推荐理由:大模型训练越来越依赖其他模型生成数据,做模型开发或数据工程的团队需要理解这种依赖链——ModSleuth能帮你理清关系,建议点开看看。
原文
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月8日
02:53
02:53rohanpaul_ai@rohanpaul_ai
精选
一篇关于推理模型训练后如何改进的入门论文指出,更好的推理模型更依赖于可检查的训练证据,而非原始数据规模。论文强调,推理数据不是简单的问答对,真正有价值的是反馈信号,它解释了答案、步骤、工具调用或完整尝试的好坏。作者将推理数据按检查方式分类,包括基于规则的精确检查(数学、代码)、环境检查(智能体工具使用)以及人工或模型判断。论文还揭示了常见误区:长推理链可能是虚假的,更难的数据对某些模型无用,更大的数据集可能仍缺乏关键覆盖。关键结论是,智能体数据应保留失败、重试、恢复等混乱信息,因为学习信号往往隐藏其中。
论文推理模型训练数据检查信号智能体论文

推荐理由:这篇论文戳破了推理模型训练中“数据越多越好”的迷思,做模型训练或智能体开发的团队值得一读——它告诉你该关注什么数据,而不是盲目堆量。
原文
5月22日
22:53
22:53Clement Delangue@ClementDelangue
CommonCrawl 公开推荐并使用 Hugging Face Buckets 来管理大型且不断演变的训练数据集。Hugging Face Buckets 是一种存储解决方案,专为处理私有模型或数据集而设计。该工具旨在简化大规模数据管理流程,提升效率。Hugging Face 创始人呼吁用户尝试并反馈意见。
AI产品数据集存储CommonCrawlHugging Face训练数据

推荐理由:CommonCrawl 的背书说明 Hugging Face Buckets 在大规模数据管理上靠谱,做 NLP 或预训练数据处理的团队可以直接试试,省去自己搭存储的麻烦。
原文
5月21日
13:37
13:37rohanpaul_ai@rohanpaul_ai
76°
Meta 在 4 月 30 日的全员大会上泄露音频显示,公司正利用自家工程师的工作痕迹(包括代码编辑、测试、修复、工具选择等步骤)来训练编程 AI。扎克伯格认为,让模型观察“真正聪明的人”完成任务,比使用外包编写的示例数据更有效。这种“行为克隆”方法不仅教 AI 什么是正确代码,还教它如何从模糊任务逐步推导出解决方案。与此同时,Meta 计划裁员约 8000 人(占员工 10%),并将约 7000 人转向 AI 相关工作。这意味着人类专家的经验正在被转化为训练数据,然后被 AI 压缩吸收。
行业Meta编程助手行为克隆训练数据裁员

推荐理由:Meta 把自家工程师的思考过程变成训练数据,做 AI 编程或关注 AI 对就业影响的开发者值得细看——这可能是未来 AI 训练范式的转折点。
原文
5月16日
22:24
22:24Y Combinator@ycombinator
PerfectBit 是一家初创公司,专注于生成高质量的训练数据,其核心方法是通过物理模拟器、科学数据库和形式化证明系统来验证数据的正确性,确保数据“天生正确”。这种数据生成方式适用于大语言模型、机器人、AI for Science 等领域。该公司由 Y Combinator 支持,并已正式发布。其方法解决了传统训练数据中常见的不一致和错误问题,对需要高精度数据的 AI 应用具有重要意义。
AI产品训练数据数据验证物理模拟器AI for ScienceY Combinator

推荐理由:做 AI 训练数据或科学计算的团队,终于有了一个能保证数据正确性的方案——PerfectBit 用物理模拟器验证数据,比人工标注靠谱太多,做机器人或科学 AI 的开发者值得关注。
原文
精选全部日报登录