行业精选

微软 MAI 模型训练数据曝光,与“仅商业授权”说法不符

微软 MAI 系列 AI 模型训练数据曝光,“仅商业授权”说法存在出入

精选理由

微软 MAI 模型的数据来源争议直接关系到企业级 AI 部署的合规风险,做数据治理或采购 AI 服务的团队值得关注,建议点开了解具体细节。

AI 摘要

科技媒体 The Decoder 报道,微软最新发布的 MAI 系列 AI 模型部分使用了 Common Crawl 等开放网络数据训练,与其此前宣称的“完全基于干净、商业授权数据”存在出入。微软技术论文显示,训练数据是“公开可得数据”与“授权人类生成数据”的混合,而非纯商业授权。微软称其爬虫遵守 robots.txt 协议,但媒体指出未屏蔽内容默认可抓取的逻辑存在争议。这一发现可能影响企业用户对微软 AI 模型数据合规性的信任。

AI 翻译 · 中文

科技媒体 The Decoder 报道,微软最新发布的 MAI 系列 AI 模型部分使用了 Common Crawl 等开放网络数据训练,与其此前宣称的“完全基于干净、商业授权数据”存在出入。微软技术论文显示,训练数据是“公开可得数据”与“授权人类生成数据”的混合,而非纯商业授权。微软称其爬虫遵守 robots.txt 协议,但媒体指出未屏蔽内容默认可抓取的逻辑存在争议。这一发现可能影响企业用户对微软 AI 模型数据合规性的信任。

IT之家IT之家 6 月 6 日消息,科技媒体 The Decoder 昨日(6 月 5 日)发布博文,报道称微软最新发布的 MAI 系列 AI 模型部分使用未获授权的开放网络数据训练, 与其此前“仅采用企业级、干净且商业授权数据”的说法不一致。 IT之家此前报道,在宣传 MAI 系列模型时, 微软号称“完全基于干净数据从零开始训练,未使用来自第三方模型的蒸馏数据” 。 不过根据官方披露的 MAI 技术论文,这些模型并非只依赖商业授权数据,还部