微软MAI模型被曝使用未授权网络数据,与承诺不符

Microsoft trained its MAI models on unlicensed web data despite promising "enterprise grade, clean and commercially licensed data"

精选理由

微软的企业客户一直以为MAI模型用的是干净数据,现在发现和别家没区别——做合规采购的团队建议点开,看完再决定要不要签合同。

AI 摘要

微软声称其MAI模型训练数据是“企业级、干净且商业授权”的,但实际部分数据来自Common Crawl等未授权网络来源。与其他AI公司一样,微软依赖“合理使用”原则,并将阻止爬虫的责任推给网站所有者。这一发现揭示了微软在数据合规性上的双重标准,可能影响其企业客户的信任。事件凸显了AI行业在训练数据版权问题上的普遍争议。

AI 翻译 · 中文

微软声称其MAI模型训练数据是“企业级、干净且商业授权”的,但实际部分数据来自Common Crawl等未授权网络来源。与其他AI公司一样,微软依赖“合理使用”原则,并将阻止爬虫的责任推给网站所有者。这一发现揭示了微软在数据合规性上的双重标准,可能影响其企业客户的信任。事件凸显了AI行业在训练数据版权问题上的普遍争议。

DecoderMicrosoft sells its LLM training approach as different from other AI companies. It isn't. The company trained its new MAI models partly on unlicensed web data like Common Crawl, despite claiming they used only "clean and