16:30Decoder@Matthias Bastian两名前 OpenAI 员工推出了网站 In the Weights,它能显示 AI 模型从训练数据中记住了哪些人。网站提供最高 996 分的强度评分,得分越高说明该人物在模型中嵌入越深。目前排名前三的是莫扎特、莎士比亚和泰勒·斯威夫特。AI产品In the WeightsOpenAIAI记忆训练数据10 个信源在谈推荐理由:前 OpenAI 员工做了个小工具,输入名字就能查 AI 模型认不认得你,莫扎特排第一,挺有意思。原文
16:05Decoder@Jonathan Kemper精选72°一项新研究解释了为什么大型语言模型能掌握小型模型无法学会的罕见技能。研究发现,小型模型在处理罕见任务时,频繁出现的任务会不断覆盖它们已学到的知识。研究使用了从400万到40亿参数不等的模型,详细展示了这一机制,并提出了一个实用解决方案:与其扩大模型规模,不如增加目标任务在训练数据中的出现频率。这一发现为优化模型训练提供了新思路。论文语言模型模型规模训练数据技能学习研究推荐理由:这项研究为AI开发者揭示了模型规模与技能学习之间的关键机制,做模型训练或数据配比的团队可以直接参考其提出的数据频率优化方案,值得关注。原文
12:39IT之家(博客/媒体)精选科技媒体 The Decoder 报道,微软最新发布的 MAI 系列 AI 模型部分使用了 Common Crawl 等开放网络数据训练,与其此前宣称的“完全基于干净、商业授权数据”存在出入。微软技术论文显示,训练数据是“公开可得数据”与“授权人类生成数据”的混合,而非纯商业授权。微软称其爬虫遵守 robots.txt 协议,但媒体指出未屏蔽内容默认可抓取的逻辑存在争议。这一发现可能影响企业用户对微软 AI 模型数据合规性的信任。行业微软MAI训练数据数据合规Common Crawl推荐理由:微软 MAI 模型的数据来源争议直接关系到企业级 AI 部署的合规风险,做数据治理或采购 AI 服务的团队值得关注,建议点开了解具体细节。原文