AITOP

5月12日

21:55

Shashikant Kore@kshashi

此推文引用Goodhart's Law（古德哈特定律），指出当一项指标成为目标时，它就不再是一个好的指标。在AI领域，过度优化基准测试或评估指标可能导致模型表现失真，忽视真实能力。这提醒AI从业者要关注评估体系的可靠性，避免指标陷阱。

行业 AI安全评估指标 Goodhart's Law 模型优化

推荐理由：对AI从业者的重要提醒：评估指标需与真实目标一致，否则可能误导模型优化方向。

21:55

Anthropic@AnthropicAI

Anthropic宣布其Claude模型的Constitution（宪法）已推出有声书版本，由该文件的两位作者Amanda Askell和Joe Carlsmith亲自朗读。有声书包含问答环节，讨论撰写过程、塑造该文件的哲学思想，以及随着模型能力增强，Constitution可能如何演变。此举旨在让更多人便捷了解AI安全治理的核心原则。

AI产品 AI安全 Anthropic Claude Constitution

推荐理由：Claude的Constitution是有影响力的AI安全框架，有声书形式降低了理解门槛，适合关注AI伦理的从业者及研究者获取一手资料。

19:11

arXiv: DeepSeek@Aojie Yuan, Zhiyuan Julian Su, Haiyue Zhang, Yi Nian, Yue Zhao

研究揭示了链式思维推理中的一个反直觉现象：语言模型能在内部（隐藏状态）精确检测自身推理错误（AUROC达0.95），但外在表达的信心与正确推理几乎无异（4.55/5 vs 4.87/5）。这一错误意识从推理第一步就存在（AUROC 0.79），并在Qwen、Llama、Phi等模型家族及DeepSeek-R1等推理模型上得到验证。然而，所有基于该信号的干预尝试（激活导向、最佳N选1、自我修正、激活修补）均失败，说明错误表征是计算质量的诊断指标，而非可修改的因果杠杆。这划定了解释性边界：推理中的错误表征与可编辑的事实知识本质上不同。

论文推理模型可解释性链式思维错误检测 AI安全

推荐理由：该研究揭示了当前可解释性方法的关键局限——高精度的内部错误检测并不能转化为有效修正，挑战了对CoT推理过程的因果干预假设。对AI安全与实践者有重要警示：依赖隐藏状态进行推理纠错可能行不通。

19:11

arXiv cs.LG@Nikita Kezins, Urbas Ekka, Pascal Berrang, Luca Arnaboldi

红队测试在实际中表现良好的护栏分类器无法提供形式化保证，因为“有害行为”缺乏离散输入空间中的自然规范。研究者提出将验证从离散输入空间转移到分类器的预激活空间，通过定义包含已知有害提示表示的有害区域，并利用sigmoid分类头的单调性，能在O(d)时间内给出封闭形式的可靠性证明。该框架应用于三种毒性护栏分类器，所有超矩形配置均返回SAT（即存在安全漏洞），而概率性高斯混合模型证书则揭示了模型表示危害的结构稳定性差异：GPT-2和Llama-3.1-8B保持90%和80%的覆盖率，但BERT的安全保证在最优阈值下覆盖率骤降至55%。这些方法提供了超越传统红队测试的护栏分类器有效性新见解。

论文 AI安全形式化验证护栏分类器红队测试 LLM

推荐理由：该研究首次为LLM护栏分类器提供了形式化验证方法，揭示了高经验指标下隐藏的安全漏洞，对AI安全领域具有重要指导意义。

19:11

arXiv: Anthropic@Michael A. Riegler, Inga Strümke

研究者开发了开源对抗测试框架swarm-attack，利用多个1.2B参数轻量级LLM通过共享内存、并行探索和进化优化协同工作。对GPT-4o的越狱攻击有效危害率达45.8%，产生49个严重漏洞，而对Claude Sonnet-4成功率为0%。在软件漏洞发现实验中也以100%召回率在4分钟内复现了9个CWE漏洞，表明此前需限制发布的能力可在零成本下复现，关键因素是系统框架本身补偿了小模型的推理限制。

论文 AI安全多智能体/协同越狱攻击漏洞发现开源/仓库

推荐理由：该研究揭示了AI安全政策应聚焦系统而非模型本身，因为小模型通过协调框架即可实现高危险能力，这对当前以模型为中心的安全管控思路提出了重要挑战。

19:11

arXiv cs.AI@Pedro Conde, Henrique Branquinho, Valerio Mazzone, Bruno Mendes, André Baptista, Nuno Moniz

现有AI渗透测试智能体评估多基于简化场景和预定义任务（如夺旗、远程代码执行），难以反映真实渗透测试的复杂性和开放性。本文提出新评估协议，从任务完成转向已验证漏洞发现，结合结构化真实数据与LLM语义匹配、二分图消歧等方法，支持多攻击面、多漏洞类别的复杂目标评估。该协议还包含效率指标、随机智能体重复评估及可持续实验缩减套件，旨在提供更贴近实战的智能体性能比较。为保障可复现性，已开源专家标注数据和代码。

论文 AI安全渗透测试智能体评估安全自动化

推荐理由：该协议填补了AI渗透测试智能体从受限benchmark到真实场景评估的空白，为红队工具选型和研发提供更可靠的参考标准。

19:11

arXiv cs.AI@Daniel Mitropolsky, Susan S. Hong, Riccardo Neumarker, Emanuele Rimoldi, Tomaso Poggio

arXiv论文提出广义图灵测试，通过不可区分性构建代理间智能比较形式化框架。该框架无需预设数据集或任务，可对任意两个智能体进行能力排序。研究分析了传递性条件并定义多类变体，在当代模型上的实验验证了其与传统排名的一致性。

论文图灵测试智能评估 AI安全 AI理论

推荐理由：这项工作为智能评估提供了统一理论基础，可能影响未来模型训练与评测标准的设计方向。

19:11

arXiv cs.AI@Ishpuneet Singh, Gursmeep Kaur, Uday Pratap Singh Atwal, Guramrit Singh, Gurjot Singh, Maninder Singh

本文发布了BEACON（Behavioral Engine for Authentication & Continuous Monitoring），一个大型多模态行为数据集，包含28名玩家79次《Valorant》游戏会话的430GB同步数据，涵盖鼠标动力学、键盘事件、网络包、屏幕录制、硬件元数据和游戏配置。该数据集旨在填补现有行为认证基准在规模、模态和上下文同步方面的不足，适用于连续认证、行为画像、用户漂移和多模态表示学习研究。数据集和代码已在Hugging Face和GitHub上开源，为下一代行为指纹和网络安全模型提供可复现的基准。

论文多模态行为认证数据集 AI安全

推荐理由：该数据集以高精度、高认知负担的战术射击游戏为测试场景，为行为生物特征研究提供了真实且严苛的基准，对AI安全和连续认证领域具有重要参考价值。

19:11

arXiv cs.AI@Linus Heck, Filip Macák, Roman Andriushchenko, Milan Češka, Sebastian Junges

该论文提出将经典Shields模型扩展到概率安全场景的新框架。传统Shields确保绝对安全，但概率安全（允许以一定概率发生不良事件）更复杂。论文证明了强安全和最大允许性无法同时保证，提出了两种弱化保证的自然Shields，以及一种保持强安全保证的离线/在线构造方法。实验表明这些新Shields在计算可行性和实用性上具有优势，为自主智能体安全提供新工具。

论文 AI安全 Shields MDP 概率安全验证

推荐理由：该研究为安全关键型AI系统（如自动驾驶、机器人）的概率安全验证提供了理论框架和实用工具，弥补了现有Shields方法在概率场景中的不足。

19:11

arXiv cs.AI@Roxana Geambasu, Mariana Raykova, Pierre Tholoniat, Trishita Tiwari, Lillian Tsai, Wen Zhang

该论文指出当前AI智能体普遍采用的“即时合成”范式（on-the-fly loop）缺乏严谨的软件工程流程，如迭代设计、严格测试、对抗性评估和分阶段部署，导致实际输出如同“临时原型”，在高风险场景下不可靠。作者提出将软件工程引入智能体循环，打造经过硬化、有确定性约束的生产级agent workflow，并通过复用分摊成本。为此，他们构想了一个“AI Workflow Store”，即存放硬化且可复用的工作流库，智能体可调用这些工作流以显著提升可靠性。论文还探讨了灵活性-鲁棒性张力下的研究挑战。

论文智能体 AI安全软件工程工作流存储

推荐理由：该研究直击当前AI智能体可靠性不足的痛点，提出以工程化工作流复用替代即时合成，为构建生产级智能体系统提供了重要思路，对Agent落地高风险场景具有参考价值。

18:01

Ethan Mollick@emollick

研究人员发现，通过精心调整提示词，可以使AI生成的文本在读者眼中不再像AI写作。这挑战了人们依赖字数与思考量、价值感挂钩的直觉认知。随着这类技术普及，检测AI生成内容的难度将显著增加，可能对内容创作、学术诚信等领域产生深远影响。

AI产品 AI写作提示工程内容检测学术诚信 AI安全

推荐理由：揭示了AI写作隐匿性的新问题，对内容真实性验证、学术规范及行业实践提出挑战，值得关注。

17:35

岚叔@LufzzLiz

OpenAI发布了一个新的安全扫描模块，面向所有开发者开放使用，这一做法与Claude的封闭策略形成鲜明对比。该模块旨在提升AI应用的安全性，体现了OpenAI推动技术普惠的理念。具体安装和使用方式在评论中提供，进一步降低了开发者的接入门槛。此举可能促进AI生态的安全标准普及，并影响其他公司的开源策略。

AI产品 AI安全开源/仓库 OpenAI Codex

推荐理由：OpenAI通过开放安全扫描模块，展示了其对开发者社区的支持和安全优先的理念，可能推动行业形成更透明的安全实践。

17:35

Sam Altman@sama

OpenAI宣布推出名为Daybreak的新计划，旨在加速网络防御并持续保障软件安全。该项目将利用AI技术（尤其是即将实现的更强大的AI）帮助公司实现持续安全防护。OpenAI希望尽快与尽可能多的企业合作，共同应对网络安全挑战。这标志着AI在网络安全领域的应用将进一步深化。

AI产品 OpenAI 网络防御 AI安全 Daybreak

推荐理由：Daybreak计划展示了OpenAI将AI能力应用于网络安全的战略方向，值得企业安全团队关注以评估合作机会。

15:47

OpenAI@OpenAI

OpenAI推出Daybreak，一个专为网络防御者设计的前沿AI系统。该系统整合了OpenAI最强大的模型、Codex工具以及安全合作伙伴的技术，旨在加速网络防御并持续保障软件安全。这表明OpenAI正将AI能力从进攻性应用转向防守性场景，帮助安全团队以防御所需的速度响应威胁。

AI产品 AI安全网络防御 OpenAI Codex

推荐理由：Daybreak代表了AI在网络安全领域的垂直化应用，其整合多模型和合作伙伴的方式值得行业关注，可能推动安全自动化的新标准。

15:23

Greg Brockman@gdb

OpenAI 首席执行官 Sam Altman 宣布启动 Daybreak 计划，这是一个综合性防御加速项目，旨在为网络防御者提供最前沿的 AI 能力。该计划通过整合前沿 AI 技术，帮助防御方更快识别和应对网络威胁。这表明 AI 在网络安全领域的应用正从攻击转向防御，可能改变网络攻防平衡。

AI产品 AI安全防御加速网络安全 OpenAI

推荐理由：该计划聚焦于用 AI 增强防御能力，对网络安全行业具有实际指导意义，可能推动 AI 在安全领域的落地应用。

5月11日

22:24

Greg Brockman@gdb

推特用户@gdb发表观点，认为/goal（目标导向）在AI系统中的重要性被普遍低估。他指出，许多AI研究者和从业者过于关注模型的能力提升，而忽视了明确设定目标对AI行为的影响。这一观点强调了在AI开发中，明确、适当的目标规划比单纯追求模型性能更为关键，可能影响AI系统的实际应用效果和安全性。

AI产品目标导向 AI安全 AI应用

推荐理由：该观点提醒AI从业者在追求模型能力的同时，应重视目标设定在引导AI行为中的核心作用，这对于提升AI系统在复杂环境中的可控性和有效性具有实际参考价值。

22:17

快手可灵 Kling@Kling_AI

AI视频生成公司Kling AI在Twitter上宣布关闭，其推文以“我们长大了，然后分开了”表达告别。该公司曾提供AI视频生成服务，但未说明关闭具体原因。此举给AI视频生成领域带来不确定性，用户需寻找替代服务。

行业视频生成公司动态行业淘汰 AI安全

推荐理由：Kling AI的关闭反映了AI初创公司在商业化与竞争中的生存压力，提示行业关注可持续商业模式和用户数据迁移风险。

22:17

Anthropic@AnthropicAI

AI模型 AI安全 Claude Anthropic 模型行为对齐

推荐理由：该研究展示了AI安全领域的实际进展，证明通过改进训练方法可以根除模型不良行为，对行业安全实践有直接指导意义。

22:15

François Chollet@fchollet

Google AI研究员、Keras作者François Chollet在X上发帖指出，行动力（agency）具有自我累积的特性，而AI正在放大这一效应。低行动力的AI用户会进一步丧失行动力，而高行动力的用户则会获得更多行动力。这意味着AI工具的使用效果可能两极分化，用户的初始行动力水平决定了其受益程度。这一观察对AI教育、工具设计和数字鸿沟问题具有重要启示。

行业 AI安全数字鸿沟 AI教育用户行为

推荐理由：Chollet的观点提醒行业注意AI对用户能力差异的放大效应，有助于产品设计和政策制定者思考如何避免加剧不平等。

19:03

arXiv: OpenAI（学术论文）

该研究通过分析五款AI编码工具（OpenAI, Copilot, Devin, Cursor, Claude Code）在29,585个Pull Request生命周期中的行为，提出了“发起者×批准者”分类法，将工具分为协作型（Cursor, Devin, Copilot）和辅助型（OpenAI, Claude）。协作型工具中，AI代理发起并推进PR工作，但合并权限几乎完全由人类保留；辅助型工具则更多由人类主导工作流程。研究揭示了代理操作与治理权限的脱节——自动化可执行合并，但日志仅记录执行者而非决策者。该工作为AI编码自动化中的监督与治理设计提供了分类工具和可复现分析框架。

论文编码助手 AI安全智能体协作/辅助 Pull Request

推荐理由：该研究系统量化了当前AI编码工具在PR工作流中的角色分工，揭示了代理发起与人类审批的解耦现象，对理解自动化治理边界和改进开发者工具设计具有实际参考价值。

13:03

Greg Brockman Blog（博客/媒体）

Greg Brockman 在博客中回顾了 OpenAI 的创立过程及他自身的角色转变。从 2015 年与 Elon Musk、Sam Altman、Ilya Sutskever 等人讨论 AI 安全开始，他最终找到了通过编程产生规模化影响的方式。他强调了与 Ilya Sutskever 的高效合作，以及 OpenAI 致力于构建造福人类的 AI 的使命。文章反思了如何通过组建团队和编写代码来实现宏大目标，而非仅仅追求职位。

行业 OpenAI AI安全创业技术领导力

推荐理由：这篇文章提供了 OpenAI 早期历史和内部视角，对于理解其使命驱动文化及技术领导力有参考价值。

13:03

Greg Brockman Blog（博客/媒体）

这篇文章由Greg Brockman和Ilya Sutskever共同撰写，阐述了OpenAI的核心使命：确保通用人工智能（AGI）造福全人类。他们宣布成立新的法律结构OpenAI LP，以便筹集更多资金来构建安全的AGI。文章强调深度学习的通用性、可扩展性和竞争力使AGI变得可认真对待，并讨论了AGI可能带来的巨大影响，包括科学突破、商业化和社会效益，同时警示了其潜在风险。最后呼吁社会各界合作确保AGI安全与利益共享。

行业 AGI AI安全 OpenAI 深度学习社会影响

推荐理由：这是OpenAI首次系统阐述其使命和战略架构，对于理解AI行业领导者对AGI的路线图、安全考量及商业化方向具有重要参考价值。

13:02

Sam Altman Blog（资讯）

Sam Altman 在个人博客上发布家庭照片，披露其住宅于凌晨遭燃烧弹袭击，所幸无人受伤。他反思此事件与近期一篇关于他的煽动性文章相关，承认低估了言论和叙事的影响力。Altman 重申对 AI 的信念：AI 应促进人类繁荣，需确保安全、民主化权力、适应性强，并反对少数实验室垄断未来决策。他还提及与 Elon Musk 的诉讼，表示坚持了不让对方单方面控制 OpenAI 的立场。

行业 AI安全 Sam Altman OpenAI 社会影响

推荐理由：事件反映了 AI 领域关键人物面临的个人安全风险，同时 Altman 借此重申了开源、民主化 AI 和应对社会焦虑的立场，对理解当前 AI 治理争议有直接参考价值。

13:02

Dario Amodei Blog（资讯）

Dario Amodei是Anthropic的CEO，曾领导OpenAI开发GPT-2和GPT-3，并共同发明了基于人类反馈的强化学习（RLHF）。他倡导构建可操控、可解释且安全的AI系统，近年来就AI透明度、出口管制等议题发表多篇观点文章。其个人主页汇集了技术论文、公开演讲和访谈，反映了他在AI安全与治理领域的持续影响力。对于行业而言，这表明顶尖AI人才仍在推动安全优先的研发方向。

行业 AI安全可解释性 Anthropic RLHF 出口管制

推荐理由：Dario Amodei作为Anthropic的领导者，其观点直接影响AI安全与可解释性领域的讨论，对于关注长期AI治理的从业者具有参考价值。

11:44

arXiv cs.AI（学术论文）

该论文指出，在机械可解释性研究中，越来越多使用因果词汇（如电路、中介、因果抽象等），但缺乏明确的识别假设。作者对四种方法学流派的10篇论文进行审计，发现没有专门的识别假设部分，验证指标（如忠实度、完整性等）常被当作因果证据，而未说明其识别假设。两名人工编码员对30篇论文的审计重现了主要发现：缺少专门的识别假设部分，验证指标替代普遍存在。论文提议披露规范：声明是否为因果主张、命名识别策略、列举假设、强调至少一个假设，并说明假设失败时结论如何变化，强调验证不等于识别。

论文机械可解释性因果识别方法论审计 AI安全

推荐理由：该研究为可解释性领域提供了方法论反思，提醒研究者注意因果主张的严谨性，避免用验证指标替代因果识别。

11:18

Ethan Mollick@emollick

作者意识到“Mythos作为炒作”对不同群体有不同含义。对于业内人，Mythos并非AI能力的魔法飞跃；对外行人，它意味着Mythos未能真正发现零日漏洞。后者是错的，而前者很可能是对的。这反映了AI炒作中信息的断层。

行业 AI安全 Mythos 炒作漏洞发现行业认知

推荐理由：指出Mythos在AI安全领域被内外行误解的双重现象，对理解行业炒作与真实能力差异有参考价值。

11:18

Ethan Mollick@emollick

学者Ethan Mollick推测，2022-2023年间公开发布的关于AI的热门内容可能仍对当前模型有持续影响。他指出，此后开放互联网在训练中的重要性下降，但模型在许多方面仍停留在2022年的认知水平。这一观察暗示早期训练数据的长期影响和模型更新的滞后性。

论文 AI安全数据偏见训练数据模型时效性

推荐理由：此文提醒AI从业者关注模型训练数据的时效性偏见，对模型评估和迭代有参考价值。