AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
精选
过去 24 小时,从 836 条中筛出 51 条
全部模型产品行业论文技巧
标签:AI 安全×
6月12日
12:51
12:51John Schulman@johnschulman2
精选
OpenAI 联合创始人 John Schulman 在 X 上表示期待 Geoffrey Hinton 的新对齐组织。他特别提到 Hinton 2018 年关于 AI 安全辩论的论文是其最爱之一,认为该论文优雅地定义了可扩展监督问题,远超时代。这暗示 Hinton 可能正在组建新的 AI 安全研究团队,引发行业关注。
行业AI 安全对齐Geoffrey HintonJohn Schulman可扩展监督

推荐理由:Hinton 和 Schulman 两位 AI 安全重量级人物联手,关注 AI 对齐的从业者值得跟进这一动向。
原文
12:50
12:50Artificial Analysis@ArtificialAnlys
精选
随着用户和企业赋予 AI 模型和智能体更多自主权,筛选其输入输出的护栏变得至关重要。然而,现有的护栏评测基准未能跟上模型智能的发展速度。与 NVIDIA 合作,该团队在三个开放数据集上独立评测了护栏与审核模型,衡量了检测质量、延迟以及捕捉不安全内容与过度拒绝安全内容之间的权衡。结果显示,没有模型能全面胜出,且缺乏统一的评判标准。这被视为一个测量问题的早期步骤,随着模型承担更多实际工作,该问题将愈发重要。
行业AI 安全护栏评测NVIDIA模型审核智能体

推荐理由:AI 安全护栏评测标准滞后,做模型部署和安全审核的团队需要关注这个评测缺口,建议点开了解当前护栏模型的真实表现。
原文
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月6日
09:21
09:21SuperTechFans(博客/媒体)
精选76°
标普道琼斯指数公司维持大型 IPO 12 个月等待期,拒绝为 SpaceX 等开辟快速通道,推迟被动基金资金流入。Ladybird 浏览器项目因 AI 生成大量垃圾 PR 威胁安全与质量,宣布不再接受公开 Pull Request。Anthropic 开源了基于 Claude 的自主漏洞发现与修复参考框架,默认针对 C/C++ 内存漏洞并采用沙箱隔离。《纽约时报》因难以退订的营销邮件被批短视。纪录片《C++: The Documentary》回顾了其四十年历程。
行业指数基金IPO开源治理AI 安全漏洞修复

推荐理由:标普的决定直接影响被动基金投资者和 IPO 打新策略,做金融或指数投资的值得关注。Ladybird 的流程变革给所有开源维护者敲响警钟——AI 垃圾 PR 正在侵蚀项目质量,建议维护者点开看如何应对。
原文
6月1日
00:09
AITOP6月1日 00:09
OpenAI 发起“Codex for Open Source”:免费赠送 6 个月 Pro 订阅,开源维护者能否迎来 AI 变革?
5月29日
08:02
AITOP5月29日 08:02
Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?
5月27日
11:15
11:15Anthropic: Engineering(资讯)
精选72°
Anthropic 在博客中详细介绍了他们如何为 Claude 的不同产品(claude.ai、Claude Code、Cowork)设计安全边界,以控制智能体能力增长带来的潜在风险。文章从工程角度探讨了“爆炸半径”的概念,即智能体可能造成最大损害的范围,并分享了通过权限隔离、沙箱执行、行为监控等机制来限制这一半径的实践经验。这些方法旨在确保 Claude 在变得更强大时,仍能安全地服务于用户,避免意外或恶意使用导致的严重后果。对于关注 AI 安全与可靠性的开发者和团队,这篇文章提供了实用的工程思路。
AI产品ClaudeAI 安全智能体沙箱权限控制

推荐理由:Anthropic 把智能体安全从概念落地到了工程实践,做 AI 产品安全架构的团队可以直接借鉴他们的权限隔离和沙箱方案,看完会对“如何安全地变强”有更具体的认知。
原文
5月18日
21:56
21:56Cloudflare Blog@Grant Bourzikas
精选
Cloudflare 近期将安全大模型 Mythos 等应用于其关键基础设施的实时代码审计,并分享了观察结果。Mythos 在发现特定类型的安全漏洞(如注入攻击、权限提升)上表现出色,但在处理复杂逻辑错误和上下文依赖的漏洞时仍有局限。该实验揭示了当前安全 LLM 在规模化部署前需要解决的可靠性、可解释性和误报率问题。这项工作为 AI 辅助代码安全审计提供了宝贵的实践参考,表明模型需要与人工审查和传统工具协同工作。
AI产品安全大模型代码审计CloudflareMythosAI 安全

推荐理由:安全团队和基础设施开发者可以从中了解当前安全 LLM 的真实能力边界——Mythos 能抓哪些漏洞、会漏哪些,以及规模化落地前必须补齐的短板,值得点开看具体案例。
原文
11:45
11:45Suhail@Suhail
精选
Suhail 在 X 上发帖表示,从底层拆解 AI 技术以理解其工作原理,长远来看会很重要。他最近发现 OpenAI 的稀疏电路论文非常有趣。该论文可能涉及神经网络中稀疏激活的机制,有助于解释模型内部如何运作。这种基础研究对 AI 安全性和可解释性有潜在影响。
论文可解释性稀疏电路OpenAIAI 安全论文

推荐理由:对 AI 可解释性和安全研究感兴趣的开发者,这篇论文值得一读,能帮你理解模型内部机制。
原文
5月14日
13:27
13:27arXiv: OpenAI@Andreas Maier, Jeta Sopa, Gozde Gul Sahin, Paula Perez-Toro, Siming Bayer
精选75°
一项研究复现了 Wu 等人(2026)的发现:多数前沿大语言模型在系统提示中包含软赞助线索时,会推荐价格约两倍的赞助航班。研究者对 10 个开源聊天模型和 2 个 OpenAI 模型(gpt-3.5-turbo、gpt-4o)进行了评估,发现原文的结论具有普遍性——例如 gpt-3.5-turbo 的赞助推荐率与原报告接近。关键发现是:一个仅 30 个 token 的用户提示(要求模型先提供中立对比表格)可将开源模型的赞助推荐率从 46.9% 降至 1.0%,OpenAI 模型从 53.0% 降至 0%。研究还揭示了复现过程中的三个隐性实现错误,表明仅靠文字描述不足以准确复现。
论文LLM赞助推荐提示工程复现研究AI 安全

推荐理由:这篇论文揭示了 LLM 推荐中的赞助偏见,并提供了一个极简的对抗方法——用 30 token 提示词就能大幅降低推荐偏差。做 AI 安全、推荐系统或 LLM 应用的开发者值得一看,可以直接复现实验。
原文
5月13日
21:35
21:35Anthropic: Engineering(资讯)
精选
Anthropic 分享了其内部多智能体研究系统的构建经验。该系统利用多个 Claude 智能体协同工作,以加速 AI 安全研究。文章详细介绍了系统架构、智能体分工、任务协调机制以及在实际研究中的应用效果。这一系统展示了多智能体协作在复杂研究任务中的潜力,为 AI 研究自动化提供了新思路。
AI产品多智能体AnthropicClaudeAI 安全研究自动化

推荐理由:Anthropic 公开了多智能体系统的实战架构,做 AI 研究和智能体开发的团队可以直接借鉴其任务协调与分工设计,值得点开学习。
原文
精选全部日报登录