AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:训练数据×
6月19日
16:30
16:30Decoder@Matthias Bastian
两名前 OpenAI 员工推出了网站 In the Weights,它能显示 AI 模型从训练数据中记住了哪些人。网站提供最高 996 分的强度评分,得分越高说明该人物在模型中嵌入越深。目前排名前三的是莫扎特、莎士比亚和泰勒·斯威夫特。
AI产品In the WeightsOpenAIAI记忆训练数据

推荐理由:前 OpenAI 员工做了个小工具,输入名字就能查 AI 模型认不认得你,莫扎特排第一,挺有意思。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
14:21
14:21Fireworks AI@FireworksAI_HQ
Fireworks AI 与 LangChain 合作推出新方案,允许客户从应用 traces 中生成定制训练数据。该方案支持持续后训练(continuous post training),帮助企业利用自有数据建立数据护城河。研究由 LangChain Labs 与 Fireworks AI 联合开展,旨在降低 AI 定制门槛。
AI产品FireworksAILangChain训练数据后训练数据护城河

推荐理由:Fireworks AI 和 LangChain 搞了个新路子:从你的 traces 里自动生成训练数据,然后持续后训练,让你真正掌控自己的 AI 和数据。
原文
01:06
01:06Y Combinator@ycombinator
Hub 是一个通过全球贡献者网络采集真实世界数据的新平台。人类劳动力占全球GDP的一半,但绝大部分从未被记录。Hub 为前沿AI实验室和机器人公司开放访问这些难以获取的数据。该平台由 Y Combinator 支持,创始人 @xarmin 和 @tim404x 今日正式发布。
AI产品Hub训练数据数据采集AI实验室机器人

推荐理由:Hub刚上线,它用全球贡献者网络帮你采集人类真实劳动力数据,解决AI训练数据稀缺问题。
原文
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
12:14
12:14Allen AI (Ai2)@allen_ai
精选
艾伦人工智能研究所发布ModSleuth工具,用于追踪现代大语言模型训练中依赖的其他模型和数据集。研究发现,Olmo 3依赖89个模型和183个数据集,Nemotron 3则依赖273个模型和560个数据集。这表明LLM训练已从纯人类数据转向模型间相互生成、过滤和评估数据的模式。ModSleuth帮助开发者理解模型供应链的复杂性和潜在风险。
论文大语言模型训练数据模型依赖ModSleuth艾伦AI研究所

推荐理由:大模型训练越来越依赖其他模型生成数据,做模型开发或数据工程的团队需要理解这种依赖链——ModSleuth能帮你理清关系,建议点开看看。
原文
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月8日
02:53
02:53rohanpaul_ai@rohanpaul_ai
精选
一篇关于推理模型训练后如何改进的入门论文指出,更好的推理模型更依赖于可检查的训练证据,而非原始数据规模。论文强调,推理数据不是简单的问答对,真正有价值的是反馈信号,它解释了答案、步骤、工具调用或完整尝试的好坏。作者将推理数据按检查方式分类,包括基于规则的精确检查(数学、代码)、环境检查(智能体工具使用)以及人工或模型判断。论文还揭示了常见误区:长推理链可能是虚假的,更难的数据对某些模型无用,更大的数据集可能仍缺乏关键覆盖。关键结论是,智能体数据应保留失败、重试、恢复等混乱信息,因为学习信号往往隐藏其中。
论文推理模型训练数据检查信号智能体论文

推荐理由:这篇论文戳破了推理模型训练中“数据越多越好”的迷思,做模型训练或智能体开发的团队值得一读——它告诉你该关注什么数据,而不是盲目堆量。
原文
6月7日
16:05
16:05Decoder@Jonathan Kemper
精选72°
一项新研究解释了为什么大型语言模型能掌握小型模型无法学会的罕见技能。研究发现,小型模型在处理罕见任务时,频繁出现的任务会不断覆盖它们已学到的知识。研究使用了从400万到40亿参数不等的模型,详细展示了这一机制,并提出了一个实用解决方案:与其扩大模型规模,不如增加目标任务在训练数据中的出现频率。这一发现为优化模型训练提供了新思路。
论文语言模型模型规模训练数据技能学习研究

推荐理由:这项研究为AI开发者揭示了模型规模与技能学习之间的关键机制,做模型训练或数据配比的团队可以直接参考其提出的数据频率优化方案,值得关注。
原文
6月6日
12:39
12:39IT之家(博客/媒体)
精选
科技媒体 The Decoder 报道,微软最新发布的 MAI 系列 AI 模型部分使用了 Common Crawl 等开放网络数据训练,与其此前宣称的“完全基于干净、商业授权数据”存在出入。微软技术论文显示,训练数据是“公开可得数据”与“授权人类生成数据”的混合,而非纯商业授权。微软称其爬虫遵守 robots.txt 协议,但媒体指出未屏蔽内容默认可抓取的逻辑存在争议。这一发现可能影响企业用户对微软 AI 模型数据合规性的信任。
行业微软MAI训练数据数据合规Common Crawl

推荐理由:微软 MAI 模型的数据来源争议直接关系到企业级 AI 部署的合规风险,做数据治理或采购 AI 服务的团队值得关注,建议点开了解具体细节。
原文
6月3日
10:31
10:31arXiv: DeepSeek@Sidi Yang, Chaofan Tao, Jierun Chen, Tiezheng Yu, Ruoyu Wang, Yuxin Jiang, Yiming Du, Wendong Xu, Jing Xiong, Taiqiang Wu, Lifeng Shang, Xiaohui Li, Ngai Wong, Haoli Bai
72°
一篇新论文挑战了“更强代码智能体更适合训练学生”的常见假设。研究者构建了Terminal-Lego流水线,将多领域真实问题转化为可验证的智能体任务。实验发现,尽管Claude Opus 4.6在基准测试中得分更高,但用DeepSeek-V3.2(得分较低)的轨迹微调的学生模型,泛化能力反而更强。这种“教学悖论”归因于环境监督(EGS):暴露“检查-行动-验证”行为的轨迹,能让学生学到稳健的问题解决模式。仅用1.53万条轨迹,Qwen3-32B就达到了此前需要30倍数据量的SOTA水平,表明智能体后训练的关键在于“环境交互结构设计”。
论文智能体终端智能体训练数据环境监督泛化能力

推荐理由:这篇论文推翻了“老师越强,学生越好”的直觉,做智能体微调的团队会发现数据质量和交互结构比模型能力更重要,值得仔细读实验设计。
原文
5月22日
22:53
22:53Clement Delangue@ClementDelangue
CommonCrawl 公开推荐并使用 Hugging Face Buckets 来管理大型且不断演变的训练数据集。Hugging Face Buckets 是一种存储解决方案,专为处理私有模型或数据集而设计。该工具旨在简化大规模数据管理流程,提升效率。Hugging Face 创始人呼吁用户尝试并反馈意见。
AI产品数据集存储CommonCrawlHugging Face训练数据

推荐理由:CommonCrawl 的背书说明 Hugging Face Buckets 在大规模数据管理上靠谱,做 NLP 或预训练数据处理的团队可以直接试试,省去自己搭存储的麻烦。
原文
5月21日
13:37
13:37rohanpaul_ai@rohanpaul_ai
76°
Meta 在 4 月 30 日的全员大会上泄露音频显示,公司正利用自家工程师的工作痕迹(包括代码编辑、测试、修复、工具选择等步骤)来训练编程 AI。扎克伯格认为,让模型观察“真正聪明的人”完成任务,比使用外包编写的示例数据更有效。这种“行为克隆”方法不仅教 AI 什么是正确代码,还教它如何从模糊任务逐步推导出解决方案。与此同时,Meta 计划裁员约 8000 人(占员工 10%),并将约 7000 人转向 AI 相关工作。这意味着人类专家的经验正在被转化为训练数据,然后被 AI 压缩吸收。
行业Meta编程助手行为克隆训练数据裁员

推荐理由:Meta 把自家工程师的思考过程变成训练数据,做 AI 编程或关注 AI 对就业影响的开发者值得细看——这可能是未来 AI 训练范式的转折点。
原文
5月16日
22:24
22:24Y Combinator@ycombinator
PerfectBit 是一家初创公司,专注于生成高质量的训练数据,其核心方法是通过物理模拟器、科学数据库和形式化证明系统来验证数据的正确性,确保数据“天生正确”。这种数据生成方式适用于大语言模型、机器人、AI for Science 等领域。该公司由 Y Combinator 支持,并已正式发布。其方法解决了传统训练数据中常见的不一致和错误问题,对需要高精度数据的 AI 应用具有重要意义。
AI产品训练数据数据验证物理模拟器AI for ScienceY Combinator

推荐理由:做 AI 训练数据或科学计算的团队,终于有了一个能保证数据正确性的方案——PerfectBit 用物理模拟器验证数据,比人工标注靠谱太多,做机器人或科学 AI 的开发者值得关注。
原文
5月11日
11:18
11:18Ethan Mollick@emollick
学者Ethan Mollick推测,2022-2023年间公开发布的关于AI的热门内容可能仍对当前模型有持续影响。他指出,此后开放互联网在训练中的重要性下降,但模型在许多方面仍停留在2022年的认知水平。这一观察暗示早期训练数据的长期影响和模型更新的滞后性。
论文AI安全数据偏见训练数据模型时效性

推荐理由:此文提醒AI从业者关注模型训练数据的时效性偏见,对模型评估和迭代有参考价值。
原文
精选全部日报登录