全部 AI 动态 · AI 热点

AITOP

6月25日

18:31

Decoder@Maximilian Schreiner

Meta计划到2025年用大语言模型取代约一半的人工审核请求，对某些类型内容，年底前这一比例将超过90%。公司内部员工对此快速部署表达担忧，认为可能增加误判和内容风险。该策略旨在降低人工审核成本，但引发对安全性和可靠性的质疑。

行业 Meta 内容审核员工警告 LLM AI安全

推荐理由：Meta要用AI替代大半人工审核，员工都觉得太快了，看看他们担心什么

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

09:15

arXiv cs.AI@Dipto Das, Achhiya Sultana, Ankit Singh Chauhan, Saadia Binte Alam, Mohammad Shidujaman, Shion Guha, Sunandan Chakraborty, Syed Ishtiaque Ahmed

该论文针对LLM在内容审核中难以识别针对少数族裔（如孟加拉国印度教和查克马社区）的文化隐性歧视问题，提出Mod-Guide系统。研究通过社区合作构建文化敏感语料库，并利用检索增强生成（RAG）将少数群体视角融入审核流程。实验表明，RAG增强的审核响应在文化准确性上显著提升，且不同族群对审核结果的感知存在差异。这项工作为AI伦理和内容审核设计提供了修复性正义和解释学包容的新路径。

论文内容审核 LLM 少数族裔检索增强生成 AI伦理

推荐理由：内容审核系统常忽视文化隐性歧视，Mod-Guide通过RAG融入少数群体视角，做AI伦理或内容审核的团队值得关注其方法论。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月5日

05:15

@OpenAIDevs@OpenAIDevs

OpenAI 宣布在 Responses API 和 Completions API 中新增内容审核分数功能。开发者现在可以在生成请求的同时获取审核信号，无需额外调用审核接口。这使得应用可以基于审核分数进行日志记录、路由、人工审核或直接拦截。该功能简化了内容安全流程，尤其适合需要实时内容过滤的 AI 应用。

AI产品 OpenAI 内容审核 API 安全过滤开发者工具

推荐理由：做 AI 内容审核或安全过滤的开发者终于可以少写一个 API 调用——在生成回复的同时拿到审核分数，直接决定是放行还是拦截，建议试试这个集成方案。

原文

5月28日

12:50

12:50IT之家（博客/媒体）

YouTube 宣布对 AI 视频标注功能进行两项重要更新。首先，AI 标签将被移至更显眼的位置：长视频中位于播放器下方、描述栏上方；Shorts 短视频中则以覆盖层形式直接显示在视频上。其次，YouTube 将引入自动检测机制，当系统检测到明显的写实类 AI 使用迹象而创作者未主动披露时，将自动添加标签。创作者可在 YouTube Studio 中更新披露状态，但使用 YouTube 自有 AI 工具（如 Veo 或 Dream Screen）生成的内容，以及包含 C2PA 元数据表明为完全生成式 AI 的内容，标签将永久显示。

AI产品 YouTube AI 视频标注自动检测内容审核写实类 AI

推荐理由：YouTube 这次把 AI 标签放到了更显眼的位置，还加入了自动检测，做视频创作的创作者和平台运营者需要关注——这会影响内容审核流程和观众信任度，建议点开看看具体规则。

原文

10:38

Decoder@Matthias Bastian

YouTube 正在加强 AI 内容标签规则，从本月起，逼真或大量 AI 修改的视频将在更显眼位置显示标签：长视频显示在播放器下方，Shorts 显示为叠加层。从 2026 年 5 月开始，即使创作者未主动披露，自动检测系统也会标记 AI 生成内容。推荐和变现不受影响。此举旨在提高透明度，帮助观众区分真实与 AI 生成内容。

AI产品 YouTube AI 内容标记自动检测内容审核透明度

推荐理由：YouTube 的自动检测系统将改变内容审核规则，做 AI 视频创作的团队需要提前了解合规要求，建议点开看看具体时间线和影响。

原文

5月26日

16:14

16:14IT之家（博客/媒体）

抖音在谣言治理中引入大模型技术，过去一年谣言被处置时的平均浏览量下降62%。平台推出“AI求真”功能，通过求真卡为用户提供真实信息，建立认知防线。抖音还盘点了十大辟谣案例，均由AI求真大模型识别或处置。该功能于去年9月上线，用户浏览易误解内容或搜索谣言时，可通过大模型获取完整信息。

AI产品大模型谣言治理 AI求真内容审核抖音

推荐理由：抖音用大模型把谣言处理效率提升了，做内容审核或平台运营的团队可以看看这套方案的实际效果，值得参考。

原文

12:12

arXiv: OpenAI@Jiwon Kim, Claire Wang, Taeung Yoon, Sabelle Huang, Koustuv Saha

精选

大型语言模型（LLM）越来越多地被用于情感支持和正式治疗场景，但像ChatGPT或Llama等模型内置的内容审核机制会阻止它们讨论敏感话题，这可能影响其作为治疗师的能力。本研究对OpenAI、Meta和Google的三种先进审核系统进行了算法审计，评估它们对真实治疗对话内容的标记程度。结果显示，这些系统过度标记了治疗中必要的敏感内容，揭示了LLM在扮演治疗师角色时面临的限制。这对设计用于心理健康的AI系统具有重要启示，表明当前审核机制可能阻碍有效的治疗对话。

论文 LLM 内容审核心理健康治疗对话算法审计

推荐理由：这项研究戳穿了AI治疗应用的核心矛盾——安全审核反而成了障碍，做心理健康AI产品、设计对话系统的团队值得细读，看完会对审核策略有新的思考。

原文

5月25日

13:05

Greg Brockman@gdb

Ethan Mollick 在 X 上分享使用 GPT-5.5 Pro 进行事实核查的体验，称其能准确追踪整章内容中的关键引用。该模型擅长捕捉细微差别，但会频繁指出“大致正确但忽略细节 X”的问题。这表明 GPT-5.5 Pro 在学术写作、内容审核等需要高精度事实验证的场景中具有实用价值。

AI产品 GPT-5.5 Pro 事实核查学术写作内容审核 OpenAI

推荐理由：做学术写作或内容审核的团队，GPT-5.5 Pro 能帮你省下大量人工核查时间，建议试试整章投喂的体验。

原文

5月19日

10:09

arXiv cs.AI@Zoher Kachwala, Bao Tran Truong, Rasika Muralidharan, Haewoon Kwak, Jisun An, Filippo Menczer

精选

社交媒体正走向多元化，不同社区有各自的规则。研究者提出了PluRule基准，包含来自1989个Reddit社区的13371条规则违规案例，覆盖9种语言。测试发现，即使是GPT-5.2等先进模型，在识别违规内容时表现也仅略优于简单基线。增加模型规模和上下文信息带来的提升有限，而通用规则（如文明用语）更容易被检测。这表明，AI在多元社区的内容审核仍面临根本性挑战。

论文内容审核多元社区基准测试 Reddit 多语言

推荐理由：内容审核从业者和社区运营团队会关心：现有AI模型在多元规则下表现堪忧，PluRule为评估和提升审核系统提供了关键基准，值得深入研究。

原文

5月11日

22:18

岚叔@lufzzliz

用户反映OpenAI的GPT image 2在生成某些图像时存在较多限制，导致特定内容难以生成。但发现通过Hermes或flowith等第三方工具仍可生成受限图像。用户计划进一步探索GPT image 2的生成尺度。这一现象表明不同工具对内容审核策略存在差异，可能影响用户选择。

AI产品图像生成 GPT image 2 内容审核工具对比

推荐理由：展示了当前AI图像生成工具在内容审核上的不一致性，对需灵活生成内容的用户有参考价值。

原文