全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月6日

12:39

12:39IT之家（博客/媒体）

精选

科技媒体 The Decoder 报道，微软最新发布的 MAI 系列 AI 模型部分使用了 Common Crawl 等开放网络数据训练，与其此前宣称的“完全基于干净、商业授权数据”存在出入。微软技术论文显示，训练数据是“公开可得数据”与“授权人类生成数据”的混合，而非纯商业授权。微软称其爬虫遵守 robots.txt 协议，但媒体指出未屏蔽内容默认可抓取的逻辑存在争议。这一发现可能影响企业用户对微软 AI 模型数据合规性的信任。

行业微软 MAI 训练数据数据合规 Common Crawl

推荐理由：微软 MAI 模型的数据来源争议直接关系到企业级 AI 部署的合规风险，做数据治理或采购 AI 服务的团队值得关注，建议点开了解具体细节。

6月5日

20:33

20:33

Decoder@Matthias Bastian

微软声称其MAI模型训练数据是“企业级、干净且商业授权”的，但实际部分数据来自Common Crawl等未授权网络来源。与其他AI公司一样，微软依赖“合理使用”原则，并将阻止爬虫的责任推给网站所有者。这一发现揭示了微软在数据合规性上的双重标准，可能影响其企业客户的信任。事件凸显了AI行业在训练数据版权问题上的普遍争议。

行业微软 MAI模型数据合规版权争议 Common Crawl

推荐理由：微软的企业客户一直以为MAI模型用的是干净数据，现在发现和别家没区别——做合规采购的团队建议点开，看完再决定要不要签合同。

6月3日

11:54

11:54

向阳乔木@vista8

精选72°

斯坦福大学研究团队发现，当模型规模足够大时，使用未过滤的Common Crawl数据训练效果反而优于经过清洗的数据。在15M小模型上，过滤数据全面领先；但在330M和1B模型上，未过滤数据在充分训练后超越了所有过滤版本。这表明大模型有足够参数空间将噪声与有用信息分离，颠覆了数据清洗越干净越好的传统认知。

论文大模型数据清洗 Common Crawl 斯坦福训练策略

推荐理由：这项研究挑战了数据清洗的行业惯例，做大模型训练的团队值得关注——或许可以省下大量清洗成本，直接喂原始数据。