18:31Decoder@Maximilian SchreinerMeta计划到2025年用大语言模型取代约一半的人工审核请求,对某些类型内容,年底前这一比例将超过90%。公司内部员工对此快速部署表达担忧,认为可能增加误判和内容风险。该策略旨在降低人工审核成本,但引发对安全性和可靠性的质疑。行业Meta内容审核员工警告LLMAI安全推荐理由:Meta要用AI替代大半人工审核,员工都觉得太快了,看看他们担心什么原文
09:15arXiv cs.AI@Dipto Das, Achhiya Sultana, Ankit Singh Chauhan, Saadia Binte Alam, Mohammad Shidujaman, Shion Guha, Sunandan Chakraborty, Syed Ishtiaque Ahmed该论文针对LLM在内容审核中难以识别针对少数族裔(如孟加拉国印度教和查克马社区)的文化隐性歧视问题,提出Mod-Guide系统。研究通过社区合作构建文化敏感语料库,并利用检索增强生成(RAG)将少数群体视角融入审核流程。实验表明,RAG增强的审核响应在文化准确性上显著提升,且不同族群对审核结果的感知存在差异。这项工作为AI伦理和内容审核设计提供了修复性正义和解释学包容的新路径。论文内容审核LLM少数族裔检索增强生成AI伦理推荐理由:内容审核系统常忽视文化隐性歧视,Mod-Guide通过RAG融入少数群体视角,做AI伦理或内容审核的团队值得关注其方法论。原文
05:15@OpenAIDevs@OpenAIDevsOpenAI 宣布在 Responses API 和 Completions API 中新增内容审核分数功能。开发者现在可以在生成请求的同时获取审核信号,无需额外调用审核接口。这使得应用可以基于审核分数进行日志记录、路由、人工审核或直接拦截。该功能简化了内容安全流程,尤其适合需要实时内容过滤的 AI 应用。AI产品OpenAI内容审核API安全过滤开发者工具10 个信源在谈推荐理由:做 AI 内容审核或安全过滤的开发者终于可以少写一个 API 调用——在生成回复的同时拿到审核分数,直接决定是放行还是拦截,建议试试这个集成方案。原文
12:50IT之家(博客/媒体)YouTube 宣布对 AI 视频标注功能进行两项重要更新。首先,AI 标签将被移至更显眼的位置:长视频中位于播放器下方、描述栏上方;Shorts 短视频中则以覆盖层形式直接显示在视频上。其次,YouTube 将引入自动检测机制,当系统检测到明显的写实类 AI 使用迹象而创作者未主动披露时,将自动添加标签。创作者可在 YouTube Studio 中更新披露状态,但使用 YouTube 自有 AI 工具(如 Veo 或 Dream Screen)生成的内容,以及包含 C2PA 元数据表明为完全生成式 AI 的内容,标签将永久显示。AI产品YouTubeAI 视频标注自动检测内容审核写实类 AI推荐理由:YouTube 这次把 AI 标签放到了更显眼的位置,还加入了自动检测,做视频创作的创作者和平台运营者需要关注——这会影响内容审核流程和观众信任度,建议点开看看具体规则。原文
10:38Decoder@Matthias BastianYouTube 正在加强 AI 内容标签规则,从本月起,逼真或大量 AI 修改的视频将在更显眼位置显示标签:长视频显示在播放器下方,Shorts 显示为叠加层。从 2026 年 5 月开始,即使创作者未主动披露,自动检测系统也会标记 AI 生成内容。推荐和变现不受影响。此举旨在提高透明度,帮助观众区分真实与 AI 生成内容。AI产品YouTubeAI 内容标记自动检测内容审核透明度推荐理由:YouTube 的自动检测系统将改变内容审核规则,做 AI 视频创作的团队需要提前了解合规要求,建议点开看看具体时间线和影响。原文
16:14IT之家(博客/媒体)抖音在谣言治理中引入大模型技术,过去一年谣言被处置时的平均浏览量下降62%。平台推出“AI求真”功能,通过求真卡为用户提供真实信息,建立认知防线。抖音还盘点了十大辟谣案例,均由AI求真大模型识别或处置。该功能于去年9月上线,用户浏览易误解内容或搜索谣言时,可通过大模型获取完整信息。AI产品大模型谣言治理AI求真内容审核抖音推荐理由:抖音用大模型把谣言处理效率提升了,做内容审核或平台运营的团队可以看看这套方案的实际效果,值得参考。原文
12:12arXiv: OpenAI@Jiwon Kim, Claire Wang, Taeung Yoon, Sabelle Huang, Koustuv Saha精选大型语言模型(LLM)越来越多地被用于情感支持和正式治疗场景,但像ChatGPT或Llama等模型内置的内容审核机制会阻止它们讨论敏感话题,这可能影响其作为治疗师的能力。本研究对OpenAI、Meta和Google的三种先进审核系统进行了算法审计,评估它们对真实治疗对话内容的标记程度。结果显示,这些系统过度标记了治疗中必要的敏感内容,揭示了LLM在扮演治疗师角色时面临的限制。这对设计用于心理健康的AI系统具有重要启示,表明当前审核机制可能阻碍有效的治疗对话。论文LLM内容审核心理健康治疗对话算法审计9 个信源在谈推荐理由:这项研究戳穿了AI治疗应用的核心矛盾——安全审核反而成了障碍,做心理健康AI产品、设计对话系统的团队值得细读,看完会对审核策略有新的思考。原文
13:05Greg Brockman@gdbEthan Mollick 在 X 上分享使用 GPT-5.5 Pro 进行事实核查的体验,称其能准确追踪整章内容中的关键引用。该模型擅长捕捉细微差别,但会频繁指出“大致正确但忽略细节 X”的问题。这表明 GPT-5.5 Pro 在学术写作、内容审核等需要高精度事实验证的场景中具有实用价值。AI产品GPT-5.5 Pro事实核查学术写作内容审核OpenAI7 个信源在谈推荐理由:做学术写作或内容审核的团队,GPT-5.5 Pro 能帮你省下大量人工核查时间,建议试试整章投喂的体验。原文
10:09arXiv cs.AI@Zoher Kachwala, Bao Tran Truong, Rasika Muralidharan, Haewoon Kwak, Jisun An, Filippo Menczer精选社交媒体正走向多元化,不同社区有各自的规则。研究者提出了PluRule基准,包含来自1989个Reddit社区的13371条规则违规案例,覆盖9种语言。测试发现,即使是GPT-5.2等先进模型,在识别违规内容时表现也仅略优于简单基线。增加模型规模和上下文信息带来的提升有限,而通用规则(如文明用语)更容易被检测。这表明,AI在多元社区的内容审核仍面临根本性挑战。论文内容审核多元社区基准测试Reddit多语言推荐理由:内容审核从业者和社区运营团队会关心:现有AI模型在多元规则下表现堪忧,PluRule为评估和提升审核系统提供了关键基准,值得深入研究。原文
22:18岚叔@lufzzliz用户反映OpenAI的GPT image 2在生成某些图像时存在较多限制,导致特定内容难以生成。但发现通过Hermes或flowith等第三方工具仍可生成受限图像。用户计划进一步探索GPT image 2的生成尺度。这一现象表明不同工具对内容审核策略存在差异,可能影响用户选择。AI产品图像生成GPT image 2内容审核工具对比2 个信源在谈推荐理由:展示了当前AI图像生成工具在内容审核上的不一致性,对需灵活生成内容的用户有参考价值。原文