03:57Greg Brockman@gdb精选73°OpenAI推出了Codex Security插件,专为安全团队设计。该插件支持深度代码扫描、自动验证发现结果,并能够追踪攻击路径。它还可以构建威胁模型,生成针对代码库的特定补丁用于审查。此外,支持将分析结果导出到其他安全工具中。AI产品CodexOpenAI安全代码扫描AI安全10 个信源在谈推荐理由:OpenAI给安全团队出了个Codex插件,能深度扫描代码、自动验证漏洞、画攻击路径,还生成专属补丁,省事儿不少。原文
02:03Greg Brockman@gdb精选OpenAI 在 Daybreak 项目中推出新工具和模型,加速关键漏洞的发现和修补。其模型已能为 FreeBSD、Linux kernel、cURL、Go、Python、Sigstore、pyca/cryptography 等生成补丁。新发布的包括 Codex Security 插件(在 Codex 内修复漏洞)、GPT-5.5-Cyber 模型(专为防御者设计)、Cyber Partner Program(安全公司合作)以及 Patch the Planet(开源项目维护)。AI产品OpenAIGPT-5.5-CyberCodex SecurityDaybreakAI安全10 个信源在谈推荐理由:OpenAI 的 Daybreak 现在不仅能找漏洞,还能自动打补丁了,连 Linux 内核和 FreeBSD 都支持,安全团队可以试试 GPT-5.5-Cyber。原文
01:19OpenAI@OpenAIOpenAI 宣布启动 Daybreak Cyber Partner Program,与领先的安全软件和服务提供商合作。合作伙伴可在其安全产品和服务中使用 GPT-5.5 with Trusted Access for Cyber。客户能受益于该模型的防御能力,提升软件韧性,但直接模型访问权由合作伙伴控制。该计划旨在通过渠道模式推广 AI 安全能力。行业OpenAIGPT-5.5DaybreakAI安全安全软件10 个信源在谈推荐理由:OpenAI 联合安全厂商,让 GPT-5.5 直接嵌入安全产品,客户不用管理模型,就能享受更强的网络防御。原文
01:19OpenAI@OpenAIOpenAI 宣布推出 Patch the Planet 项目,与 Trail of Bits、HackerOne 及多位安全研究员和开源维护者合作。该项目利用 Codex Security 和高级模型(如 GPT-4)协助将安全发现快速转化为合并修复。修复过程以人工审核为中心,确保补丁质量。目标是降低开源项目从漏洞披露到修复的时间门槛。行业OpenAICodex SecurityTrail of BitsHackerOneAI安全10 个信源在谈推荐理由:OpenAI 联手 Trail of Bits 和 HackerOne,用 Codex Security 帮开源项目快速修漏洞,人工把关,靠谱。原文
01:18OpenAI@OpenAI73°OpenAI 宣布扩大 Daybreak 计划,新增 Codex Security 插件,允许用户在 Codex 内发现、验证和修复漏洞。同时发布完整版 GPT-5.5-Cyber 模型,专为可信防御者设计。Cyber Partner Program 允许安全公司基于 OpenAI 的安全能力构建产品。Patch the Planet 项目则与维护者合作,保护关键开源项目。AI产品OpenAIDaybreakCodexGPT-5.5-CyberAI安全10 个信源在谈推荐理由:OpenAI 搞了个 Daybreak 扩展,直接在 Codex 里修漏洞,还有专门的安全模型 GPT-5.5-Cyber,想帮安全团队快速打补丁。原文
01:04OpenAI Blog(博客/媒体)OpenAI推出了Daybreak工具集,包含Codex Security和GPT-5.5-Cyber两个组件。Codex Security用于自动发现代码中的安全漏洞。GPT-5.5-Cyber则辅助验证和修复流程。这些工具旨在帮助组织大规模地发现、验证和修补漏洞。AI产品OpenAIDaybreakCodex SecurityGPT-5.5-CyberAI安全10 个信源在谈推荐理由:OpenAI出了Daybreak工具,用Codex Security自动找漏洞,GPT-5.5-Cyber帮你验证修复,搞安全的可以看看。原文
22:48Decoder@Maximilian Schreiner五眼联盟情报机构警告,能够瘫痪政府和企业的AI模型可能仅数月内出现。这些前沿模型可大幅提升网络攻击的自动化与破坏力。联盟报告指出,攻击者无需高级技能即可利用AI发动大规模行动。该警告来自《卫报》对五眼联盟情报机构的报道。行业五眼联盟前沿AI模型网络攻击AI安全推荐理由:五眼联盟说AI几个月就能拿来搞垮政府和企业,不是开玩笑的,这份报告值得一看。原文
16:28IT之家(博客/媒体)73°微软CEO萨蒂亚·纳德拉近日警告,少数AI巨头(如OpenAI、Anthropic、谷歌)正掌握大部分AI价值,可能吞噬经济。他主张下一阶段AI应转向价格更低的模型,赋予用户更大选择权。纳德拉批评这些公司一边渲染安全风险和大规模失业,一边要求调动全部电力建设数据中心。他强调AI应成为企业的知识引擎,由企业自行控制多模型调用。行业微软萨蒂亚·纳德拉OpenAIAnthropicAI安全10 个信源在谈推荐理由:纳德拉直接点名OpenAI和Anthropic,说不能让少数巨头垄断AI。他主张企业自控模型、降低价格,这个立场很关键。原文
16:18Pandaily@contact@pandaily.com (Pandaily)美国政府对 Anthropic 的 Claude Fable 5 发出出口管制令,非美国用户被限制访问。这一举措标志着 AI 出口管制进入新阶段,强化了中国发展自主研发 AI 模型的战略必要性。Claude Fable 5 是 Anthropic 于 2025 年发布的最新旗舰模型,此前已引发安全争议。中国国产模型如 DeepSeek、通义千问等被视为替代选择。分析师指出,依赖国外模型存在被切断服务的风险,国产 AI 是保障数据安全与自主可控的关键。行业Claude Fable 5Anthropic出口管制国产模型AI安全10 个信源在谈推荐理由:美国突然封锁 Claude Fable 5 对非美国用户,国产模型又成了唯一靠谱的选择。看看这事背后的出口管制新规,就知道为什么中国必须有自己的大模型了。原文
03:49@koltregaskes@koltregaskesX用户koltregaskes分享的截图显示,ChatGPT在一段对话中回复需要更多时间进行检查,暗示GPT-5.6可能引入更严格的安全机制。目前OpenAI官方未对此消息确认。GPT-5.6是传闻中的下一代模型,但具体发布时间与功能细节仍未公布。AI模型GPT-5.6OpenAIAI安全10 个信源在谈推荐理由:OpenAI可能推出的GPT-5.6会增加安全检查,想提前了解变化可以看看这个讨论。原文
21:54IT之家(博客/媒体)HarmonyOS 7(API 26)新增Vibe Coding智能开发能力,支持应用功能被系统级智能入口调用。视觉AI提供端侧场景化控件,3DGS端侧重建可提升空间建模精度与速度。碰一碰精准分享支持手机轻触电脑或平板,将素材插入指定位置。星盾机密风控引擎在端侧机密空间计算设备风险,数据可用不可见。AI产品华为HarmonyOS 7智能体AI安全编程助手1 个信源在谈推荐理由:华为HarmonyOS 7新能力挺多,空间化设计、碰一碰分享、3DGS重建都很实用,开发者快看看。原文
03:45GitHub@githubGitHub与合作伙伴通过协作研究发现,基于LLM的上下文验证能显著提升秘密扫描告警质量。该方法将误报率降低75.76%,减少了安全团队处理大量无效告警的负担。研究结果表明,单纯增加告警数量并不能提高安全性,而智能验证才是关键。AI产品GitHubLLMsecret scanningAI安全误报率推荐理由:GitHub发现用LLM做上下文校验能让密钥扫描告警更准,误报少了四分之三,安全团队不用天天看假警报了。原文
01:50berryxia@berryxia86°John Jumper是AlphaFold项目的核心负责人,该模型改变了蛋白质结构预测领域。2024年,他因这一贡献获得诺贝尔化学奖。他在Google DeepMind工作了近9年,博士毕业仅6个月就被Demis Hassabis任命领导AlphaFold团队。现在他选择加入Anthropic,专注AI安全和大模型研究。Anthropic近期还吸引了多位OpenAI核心研究员。行业John JumperAlphaFoldGoogle DeepMindAnthropicAI安全10 个信源在谈推荐理由:John Jumper就是那个做出AlphaFold拿诺奖的科学家,现在跳槽去Anthropic了。看看Anthropic正在疯狂挖人,可能憋着什么大招。原文
00:21orange.ai@oran_ge73°OpenAI 发布新论文《Beneficial RL》,研究对齐训练中好行为的泛化能力。实验发现,用RL在对话数据上训练模型诚实、认知谦逊、可纠正等特质后,在44个训练未见的评测上,模型欺骗、谄媚、有害建议等行为均下降。仅用健康领域数据训练,非健康领域也有效。对抗性提示和恶意微调更难使模型变坏,但正常指令仍可执行。论文OpenAIRL对齐AI安全有益强化学习9 个信源在谈推荐理由:OpenAI 这篇论文很有意思:用 RL 给模型‘教好’会泛化到所有领域,而且抗忽悠能力变强了,像给人打了一剂道德疫苗。原文
16:45Pandaily@contact@pandaily.com (Pandaily)在HDC 2026上,华为正式发布HarmonyOS 7开发者Beta版,系统深度集成AI能力。HarmonyOS生态设备已超过6600万台。新系统展示了端侧AI防欺诈功能,利用本地模型保护用户隐私。此外还推出了性能优化模型,提升设备运行效率。AI产品HarmonyOS 7华为端侧AIAI安全开发者Beta1 个信源在谈推荐理由:华为在HDC 2026上发布了HarmonyOS 7开发者Beta版,设备超6600万,还展示了端侧AI防欺诈,隐私保护更强了。原文
10:56Geek@geekbb博主Barret李靖分享了一次Claude Code引入AMOS Stealer变种木马的经历。木马通过curl下载混淆指令,潜伏于macOS系统,利用root权限添加开机自启项并监控新用户登录。该木马主要窃取虚拟货币钱包和浏览器Cookies,导致X账号被盗。博主在系统日志中仅找到一条可疑指令,并溯源至AMOS恶意软件家族,该变种今年四月首次在macOS出现。技巧Claude CodeAMOS StealermacOS安全AI安全木马2 个信源在谈推荐理由:亲身经历AI工具引入木马,教你用Claude和Codex揪出系统进程中的可疑进程,安全第一。原文
08:54IT之家(博客/媒体)Anthropic 国际董事总经理 Chris Ciauri 在韩国首尔发布会上表示,有信心在未来几天内向美国之外地区重新开放 Claude Mythos 和 Claude Fable 5 模型。此前这两个模型因美国白宫安全指令被临时封锁访问权限。Anthropic 计划深化对韩投资,已组建商业、技术、政策和运营团队,韩国是其全球第 12 大市场。其安全倡议 Project Glasswing 已有约 150 个合作伙伴,包括谷歌、英伟达、微软、苹果、三星电子等。AI模型AnthropicMythosFable 5AI安全韩国10 个信源在谈推荐理由:Anthropic 的最强模型 Mythos 和 Fable 5 很快要重新开放了,面向美国之外,韩国市场也在快速扩张。原文
07:25Gary Marcus@GaryMarcusGary Marcus在推特发布帖子,列举8个减缓AI超大规模扩张的理由。他指出GenAI已对社会造成影响,AI垃圾正在破坏互联网。他还警告数据中心过度建设可能给经济和环境带来后果,以及AI生成的垃圾代码会引发软件危机。此外,他提到缺乏应对就业问题的计划以及对齐问题没有解决方案。行业Gary MarcusGenAIAI安全数据中心就业影响推荐理由:Gary Marcus从八个具体方面分析AI过快扩张的风险,包括经济、环境、就业等,值得一看。原文
06:23Gary Marcus@GaryMarcusGary Marcus指出,生成式AI已造成社会伤害,AI垃圾内容正在破坏互联网。数据中心过度建设可能威胁经济和环境。AI驱动的网络攻击威胁数据完整性,AI生成的低质量代码将引发软件危机。此外,缺乏针对就业冲击的应对计划,且对齐问题仍无解决方案。行业Gary MarcusAI风险AI安全对齐问题就业影响推荐理由:Gary Marcus一口气列出八条反对AI加速的理由,从互联网被垃圾填满到就业失控,每一条都直击要害。想听听技术圈的反方声音?看这个就够了。原文
03:36Andrew Ng@AndrewYNg精选73°Anthropic发布了其Mythos模型的变体Claude Fable 5,并施加了包括禁止用于构建竞争LLM技术在内的额外限制。Anthropic还曾暗中降低Fable 5对LLM研究者的性能,在争议后改为透明执行,但仍拒绝用最新能力帮助AI研究者。随后美国政府利用商务部权力对Mythos和Fable实施出口管制,要求任何外国国民使用需许可证,导致Anthropic全球禁用Fable。Andrew Ng评论称Anthropic利用安全论调阻碍竞争者,而恐惧营销反而促使政府加强管制。行业AnthropicClaude Fable 5出口管制AI安全开源模型10 个信源在谈推荐理由:Anthropic一边用Claude Fable 5的“安全”理由限制开发者,一边被美国政府反手出口管制,Andrew Ng分析这暴露了封闭平台的不可靠性。原文
02:27Stanford AI Lab@StanfordAILab斯坦福AI实验室的SAIL博客发布新文章,由Peter Bhase和Chris Potts共同撰写,系统梳理了CoT(思维链)监控作为AI安全热点问题的起源。文章回顾了相关研究的历史演进,分析了该概念如何从技术讨论演变为关键安全议题。论文SAILCoTChain-of-ThoughtAI安全推荐理由:斯坦福AI实验室的两位研究者梳理了CoT监控的来龙去脉,想理解AI安全前沿热点的演变,这篇博客值得看。原文
01:57Ate-a-Pi@svpinoLedger Nano Gen5是一款硬件签名器,可通过CLI和skills集成到AI代理项目。代理能查询以太坊账户、检查余额、发起交易,但所有操作都需人工用设备批准。私钥不存储在电脑或代理中,避免代价高昂的错误。整个流程只需两条命令:安装CLI和安装skills。技巧Ledger Nano Gen5CLIEthereum智能体AI安全推荐理由:用这个硬件,你的AI代理能干活但不敢乱花钱,所有操作都得你点头,私钥也不外传。原文
01:55宝玉@dotey精选Mitchell Hashimoto 在 AGENTS.md 文件和代码注释中嵌入 prompt injection。这些注入用于检测未审查代码就直接提交至另一位人类维护者的贡献者。一旦检测到,他会立即封禁该贡献者。他认为在开源项目中,跨越人类边界前进行人工审查是基本礼貌。行业prompt injectionAGENTS.mdMitchell Hashimoto开源项目AI安全推荐理由:Mitchell 这招挺狠,在项目文件里埋 prompt injection,谁不审代码直接提交就封号。搞开源维护的可以学学这招防饭圈。原文
18:27Decoder@Maximilian SchreinerOpenAI研究者发现,通过强化学习对诚实性、可修正性等理想行为特质进行训练,模型在跨领域表现提升。在健康数据上训练后,欺骗检测能力也增强,模型在53个基准中的44个上得分更高。该方法与Anthropic的基于宪法的对齐方法不同。研究显示少量特质训练即可带来广泛安全改善。论文OpenAIAI安全强化学习对齐基准测试10 个信源在谈推荐理由:OpenAI发现,只给模型一点点“诚实”训练,它就在53个测试里赢了44个,连健康领域的骗术都能识破。和Anthropic的路数不一样,挺有意思。原文
18:24Decoder@Matthias Bastian德国慕尼黑地区法院裁定Google须直接为其AI生成的搜索结果概览内容承担责任。该AI错误地将两家慕尼黑出版商与欺诈计划相关联。Google称这些为“小错误”并已提起上诉。此案成为判定AI生成内容法律责任的标志性事件。行业GoogleAI搜索概览法律责任AI安全推荐理由:Google的AI搜索概览功能搞错了,把两家德国出版商说成搞诈骗的,法院判Google直接负责,Google不服上诉了。原文
16:12IT之家(博客/媒体)英国德比郡一名警员涉嫌使用生成式AI在多起案件中制作证据材料,目前因妨碍司法公正接受刑事调查。这是英国首次出现此类案件,涉事警员已停职。几天前英国全国警务AI中心刚发布指导意见,要求警员不要用生成式AI起草法庭陈述。该中心负责人表示需要放缓使用AI,以免虚假内容写入司法材料。行业生成式AI德比郡警方英国警务AI中心AI安全司法公正推荐理由:英国警察用AI编假证据被抓,首例啊!司法领域乱用AI真会出事,特别是做假材料,这案子给大家提了个醒。原文
14:40@koltregaskes@koltregaskes73°Project Glasswing的部分用户报告他们仍能访问Anthropic的Claude Fable 5模型。尽管美国政府命令导致其他版本完全关闭,但获批组织保留了对该预览系统的访问权限。目前尚无关于Claude Fable 5全面回归的消息。行业Claude Fable 5AnthropicProject Glasswing监管AI安全10 个信源在谈推荐理由:Anthropic的Claude Fable 5模型因美国政府命令部分受限,但Project Glasswing用户还能用,想知道怎么回事就看这条。原文
13:43Marc Andreessen@pmarcaAnthropic CEO Dario Amodei在Polymarket上透露,参与测试Mythos模型的公司警告其威力堪比超级武器,并建议使用需要类似枪支许可证的严格管控。该言论引发对AI安全与监管的讨论。目前Mythos模型的具体细节尚未公开。行业AnthropicDario AmodeiMythosAI安全AI监管10 个信源在谈推荐理由:Anthropic老板自己爆料的内部警告——他们测试的Mythos模型被说成超级武器,建议持证才能用,这瓜很劲爆。原文
11:45arXiv cs.LG@Linda Lu, Karthik Sridharan该论文提出名为'可预测性'(predictability)的隐私度量框架,与差分隐私(DP)不同,它通过考虑攻击者的核心知识(部分泄露的数据)来评估隐私泄漏。研究证明可预测性与DP在一般情况下不可比较,但在最坏情形(仅一位个体未泄露且所有查询为二值)下,可预测性隐含互信息差分隐私。作者引入基于广义矩估计(GMM)的渐近分析方法,适用于由平稳遍历混合过程产生的泄露数据。最后,他们设计了一种基于可预测性校准的输出扰动方案,可与DP结合使用以提供细粒度隐私控制。论文差分隐私可预测性GMM隐私度量AI安全推荐理由:这篇论文提出了一个新的隐私度量'可预测性',比差分隐私更细致,还能和它一起用,很适合关注AI隐私的研究者。原文
11:11arXiv cs.AI@Reza Soosahabi, Vivek Namsani该论文通过概率模型分析了针对智能体AI系统的攻击-防御场景,发现传统的检测-拦截防御在查询预算充足时,攻击成功率(ASR)可趋近于1,因为可预测的拒绝为攻击自动搜索提供了有效反馈。作者提出检测-误导策略,通过受控但非操作性的响应诱导攻击者判断器产生假阳性错误,实现有界的渐进ASR。具体实现方法CMPE(Contextual Misdirection via Progressive Engagement)在jailbreak基准上,将ASR上限估计降低两个数量级,并在端到端PAIR和GPTFuzz攻击运行中几乎消除了验证成功的攻击。论文CMPEPAIRGPTFuzzAgentic AIAI安全推荐理由:这篇论文提出了一个聪明的思路:用误导性回复代替直接拒绝,让AI自动攻击更难判断是否成功。实验显示CMPE方法在PAIR和GPTFuzz上几乎完全阻挡了越狱攻击,做AI安全的朋友值得一看。原文
07:44orange.ai@oran_ge86°OpenAI发现对齐大模型时存在涌现失调现象,即坏行为会泛化。他们反向实验用RL训练模型诚实、谦逊、可纠正等特质,仅混入小部分此类数据。结果在训练领域内模型变得更诚实透明;在44个独立评测(未见过)中,欺骗、谄媚、有害建议等行为全面下降,即使只用健康数据训练,非健康领域也受益。模型在对抗性提示和恶意微调下更坚韧,正常指令仍可听从。论文OpenAIRL涌现失调对齐AI安全10 个信源在谈推荐理由:OpenAI这篇论文反直觉:用RL教模型做好事,坏行为自己就减少了。实验覆盖44个新场景,效果还抗攻击。值得一看。原文
07:11OpenAI@OpenAIOpenAI通过少量训练数据使模型在53项独立评估中的44项上取得改进,涵盖欺骗、奖励黑客、安全、健康、心理健康等领域。该表现优于计算匹配的基线模型。评估涉及多种领域、任务格式和评分方案。论文OpenAI对齐AI安全模型训练10 个信源在谈推荐理由:OpenAI发现用一点额外数据就能让模型在超多对齐测试里变好,覆盖欺骗、安全、健康等方面,挺牛的。原文
07:10OpenAI@OpenAIOpenAI在真实对话中训练模型,通过强化学习强化诚实、谦逊、开放纠正、公平和关怀人类福祉等特质。该训练覆盖健康、科学、教育等12个领域,旨在提升模型的对齐与安全性。方法基于RLHF改进,专注对话场景中的具体行为。AI模型OpenAI强化学习AI安全对齐模型训练10 个信源在谈推荐理由:OpenAI训练模型时不止看能力,还用强化学习专门教它诚实、谦逊、愿意接受批评,覆盖12个领域,对AI安全性很有意义。原文
06:37OpenAI@OpenAIOpenAI 发布声明称,这是朝向更鲁棒有益和对齐模型的早期步骤。他们正在训练模型将有益特质带入新情境,使AI在能力增强的同时变得更可靠、透明和有用。该工作属于对齐研究的一部分,尚未披露具体模型或基准测试结果。AI模型OpenAIAI安全对齐10 个信源在谈推荐理由:OpenAI 开始教模型把好习惯带到新场景,让AI更靠谱。这个对齐实验挺关键,关注未来进展。原文
06:25Clement Delangue@ClementDelangueHugging Face CEO Clement Delangue认为,事后API护栏无法消除模型的危险能力,只能隐藏在脆弱的接口后面,容易被越狱(jailbroken)。他建议不要训练高风险能力,除非有强评估、理由和遏制措施;采用分阶段发布(staged release),从可信测试者到更广泛访问,并开放发布以透明和问责。他呼吁大力支持开源AI,缩小封闭实验室和政府之间的能力差距;推动独立评估,而非信任黑盒API;赋予执法、法院、监管者、审计员、记者和公民社会强大的AI工具来检测和追究非法使用。行业AI安全开源模型独立评估分阶段发布API护栏推荐理由:Hugging Face CEO提出一个务实的AI安全路线:别只靠事后护栏,要加强独立评估、分阶段发布和开源生态。原文
06:22OpenAI@OpenAI73°OpenAI发布新研究,旨在训练AI模型将有益和安全行为推广到训练范围之外的新领域,并在压力下维持。该方法聚焦于让模型具备广泛且持久的利他性,论文名为《Beneficial RL》。研究通过强化学习框架,让模型学会在更长、更高风险的任务中自主保持符合人类意图的行为,而不仅是拟合训练数据。相关论文和代码已发布在alignment.openai.com/beneficial-rl/。论文OpenAIAI安全智能体强化学习10 个信源在谈推荐理由:OpenAI发了篇新论文,研究怎么让AI在超出训练场景的长期任务里也乖乖做好事,关心AI安全的朋友可以看看。原文
05:14Ate-a-Pi@svpinoCheckmarx对2350名工程师的调查显示,依赖AI生成代码的公司漏洞部署率是较少使用AI公司的3.4倍。96%的开发者使用安全工具,但仅9%的公司能在三个月内修复90%以上已发现的漏洞。75%的团队承认曾发布明知有缺陷的代码,30%因认为无人发现而为之。报告指出AI生成代码的安全隐患已成为严重问题。行业CheckmarxAI生成代码漏洞安全工具AI安全推荐理由:Checkmarx报告用数据告诉你:AI写代码虽快,但漏洞风险飙升,别只图效率忽视安全。原文
03:01Decoder@Matthias BastianSK Telecom通过合作伙伴计划Project Glasswing获取了Anthropic的AI模型Claude Mythos访问权限。美国官员担忧该韩国企业与中国的联系可能带来安全风险。白宫介入后,SK Telecom与Anthropic的合作受到影响。该事件凸显了AI领域的地缘政治敏感性和监管复杂性。行业SK TelecomAnthropicClaude MythosProject GlasswingAI安全10 个信源在谈推荐理由:SK Telecom用Project Glasswing拿到了Claude Mythos,结果被白宫叫停,因为跟中国沾边。这事把AI安全和国际关系搅一起了。原文
02:31Decoder@Matthias Bastian精选Google DeepMind 发布了新的 "AI Control Roadmap",将安全措施与可衡量的 AI 能力挂钩。公司对 100 万个编码任务的分析显示,大多数问题源于过于热心的 AI 智能体,而非恶意意图。DeepMind 警告,建立全球安全标准的时间窗口正在关闭。行业DeepMindAI安全智能体内部威胁路线图推荐理由:DeepMind 用管理内部安全的方法管控 AI 智能体,分析了100万次编码任务后发现,坏事的都是太积极的智能体而不是恶意的,挺颠覆。原文
23:26Google DeepMind@GoogleDeepMind74°谷歌DeepMind发布AI Control Roadmap,这是一个用于构建和管理谷歌内部部署的先进AI系统的框架。该框架旨在应对AI可能不按预期行事的风险,而非假设AI始终遵循人类意图。路线图包含具体的安全协议和监管机制,确保高级AI在可控范围内运行。行业Google DeepMindAI控制路线图AI安全高级AI推荐理由:谷歌DeepMind搞了个AI控制路线图,专门管那些不按套路出牌的高级AI,省得失控。原文