12:39IT之家(博客/媒体)精选科技媒体 The Decoder 报道,微软最新发布的 MAI 系列 AI 模型部分使用了 Common Crawl 等开放网络数据训练,与其此前宣称的“完全基于干净、商业授权数据”存在出入。微软技术论文显示,训练数据是“公开可得数据”与“授权人类生成数据”的混合,而非纯商业授权。微软称其爬虫遵守 robots.txt 协议,但媒体指出未屏蔽内容默认可抓取的逻辑存在争议。这一发现可能影响企业用户对微软 AI 模型数据合规性的信任。行业微软MAI训练数据数据合规Common Crawl推荐理由:微软 MAI 模型的数据来源争议直接关系到企业级 AI 部署的合规风险,做数据治理或采购 AI 服务的团队值得关注,建议点开了解具体细节。原文
20:33Decoder@Matthias Bastian微软声称其MAI模型训练数据是“企业级、干净且商业授权”的,但实际部分数据来自Common Crawl等未授权网络来源。与其他AI公司一样,微软依赖“合理使用”原则,并将阻止爬虫的责任推给网站所有者。这一发现揭示了微软在数据合规性上的双重标准,可能影响其企业客户的信任。事件凸显了AI行业在训练数据版权问题上的普遍争议。行业微软MAI模型数据合规版权争议Common Crawl推荐理由:微软的企业客户一直以为MAI模型用的是干净数据,现在发现和别家没区别——做合规采购的团队建议点开,看完再决定要不要签合同。原文