23:25Google DeepMind@GoogleDeepMindGoogle DeepMind提出,在多智能体系统全球规模化之前,存在一个狭窄窗口期来嵌入结构性安全协议。该框架采用多层安全方法,旨在防范智能体间的潜在风险。DeepMind呼吁AI实验室、政府和学术界协作优先推进智能体安全,以防止未来系统失控。行业Google DeepMind多智能体系统智能体安全结构性安全协议AI安全推荐理由:DeepMind提醒大家,别等智能体满世界跑了才考虑安全,趁现在赶紧把规则定好。原文
18:22IT之家(博客/媒体)Anthropic 首席执行官达里奥·阿莫迪在彭博社采访中表示,科技企业必须与政府合作防止权力滥用。他认为当前 AI 发展主要由私营企业推动,但最合理方案是引入公共监督机制。Anthropic 设有“长期利益信托”治理结构,该机构有权任命/撤换董事会成员和解雇 CEO。阿莫迪称,如果他们愿意,甚至可以随时解除他自己的 CEO 职务。这种设计旨在防止高层形成利益集团,确保公司遵循安全原则。行业AnthropicAI安全治理监管10 个信源在谈推荐理由:Anthropic 老板亲口说,公司有个治理机构能随时炒他鱿鱼,就是为了防止高层乱来。挺有意思的制衡设计。原文
16:58IT之家(博客/媒体)中国信通院今日发布2026智能体十大关键词,涵盖基础设施、互联协作、工程化、学习进化、记忆、技能、产品创新、支付协议、可信和全栈评估十大方向。其中智能体基础设施被定义为支撑开发部署运行的“硅基孵化器”,智能体互联协作强调跨系统多智能体协同,智能体工程化聚焦全生命周期闭环体系。这十大关键词系统梳理了智能体从概念验证到规模化应用的技术演进路径。行业中国信通院智能体多智能体协作智能体工程化AI安全推荐理由:想了解智能体技术未来几年怎么走,看信通院这份十大关键词就够了,从基础到工程化到可信都有,全是干货。原文
10:58arXiv cs.AI@Eranga Bandara, Ross Gore, Ravi Mukkamala, Asanga Gunaratna, Safdar H. Bouk, Xueping Liang, Peter Foytik, Abdul Rahman, Sachini Rajapakse, Isurunima Kularathna, Pramoda Karunarathna, Chalani Rajapakse, Ng Wee Keong, Kasun De Zoysa, Tharaka Hewa, Amin Hass, Wathsala Herath, Aruna Withanage, Nilaan Loganathan, Atmaram Yarlagadda, Sachin Shetty该论文指出万维网基于人作为主要消费者的假设运行三十年,但AI代理的崛起使这一假设失效。论文提出在访问层为代理提供等效访问权限(通过速率限制和代理识别元数据),在经济层引入基于意图的层级框架和代币订阅模型,在内容层提出代理文本标记语言(ATML)和加密来源链对抗知识递归问题。包含十项设计原则,涵盖访问、经济、内容三个层面。论文Agent-First WebATML智能体AI安全Web设计推荐理由:这篇论文讨论了如何让网站不再封杀AI代理,而是为它们设计合理的访问、收费和内容标注机制,比如ATML语言。适合关心Web未来和AI治理的人看。原文
09:39marktechpost@Sana Hassan精选本教程演示如何使用 NVIDIA SkillSpector 对 AI 技能进行安全风险预部署扫描。通过构建良性和故意含漏洞的技能语料库,利用 SkillSpector 的 LangGraph 工作流进行扫描,并用 pandas 整理风险评分与发现。结果导出为 SARIF 格式,支持自定义分析器和可选的 LLM 语义分析。该流程覆盖静态分析、风险分类可视化及报告生成。技巧NVIDIASkillSpectorSARIFAI安全静态分析1 个信源在谈推荐理由:NVIDIA 教你用 SkillSpector 做 AI 技能安全扫描,从写语料到出 SARIF 报告,一步一步都有代码,适合想加固 AI 应用的开发者。原文
09:16IT之家(博客/媒体)微软 Copilot 存在编号为 CVE-2026-42824 的严重漏洞(SearchLeak),由 Varonis Threat Labs 研究员 Dolev Taler 发现。该漏洞通过三阶段攻击链,利用 Copilot 对自然语言指令的信任,将恶意 URL 转化为搜索指令,从而获取用户的 2FA 验证码、邮件主题、会议详情及 OneDrive 文件内容。数据通过必应图片 URL 外传,影响 Microsoft 365 Copilot 企业版。微软已发布补丁,尚未发现实际攻击案例。行业CopilotCVE-2026-42824SearchLeakAI安全漏洞推荐理由:Varonis 团队发现 Copilot 一个关键漏洞,攻击者能偷你的验证码和邮件,微软已经打了补丁,赶紧更新。原文
04:41OpenAI Blog(博客/媒体)OpenAI 发布了 LifeSciBench,这是一个由 10 位生命科学专家编写并经过独立审查的基准测试。该基准包含 30 个任务,覆盖文献综述、实验设计、数据分析等真实研究场景。初步测试显示,GPT-4o 在多数任务上优于其他模型,但所有模型在需要跨领域推理的任务中表现仍有显著差距。LifeSciBench 旨在为 AI 在科学领域的可靠性和安全性提供更严格的评估工具。AI模型OpenAILifeSciBench基准测试AI安全科学推理10 个信源在谈推荐理由:OpenAI 出了个新基准 LifeSciBench,专门测 AI 做生命科学研究的能力,比一般问答难多了,能看出模型哪里不行。原文
04:09Aadit Sheth@aaditsh88°Amazon CEO于5天前向白宫举报Claude Fable 5的安全风险。该模型在24小时内被禁止海外访问。Amazon是Anthropic最大投资者,投资额达40亿美元。Anthropic CEO Dario的模型被禁,而OpenAI CEO Sam的模型未受限。这一事件凸显AI监管的地缘政治分歧。行业Claude Fable 5AmazonAnthropicOpenAIAI安全10 个信源在谈推荐理由:Amazon举报了自己投了40亿的模型?Claude Fable 5被白宫禁了,OpenAI却没事,这背后有瓜吃。原文
03:04Gary Marcus@GaryMarcusGary Marcus重申LLM不可靠的观点,称无法被驳斥。特朗普政府要求Anthropic确保Fable 5的护栏不能被绕过,但安全专家表示不可能完全阻止规避。Marcus认为这是生成式AI的普遍问题,而非Anthropic一家的问题。WIRED报道引述了相关官员和专家的意见。行业GaryMarcusLLMAnthropicFable5AI安全10 个信源在谈推荐理由:权威AI批评家Gary Marcus再次发声,直指LLM根本不可靠,加上特朗普政府与Anthropic的对峙,这场AI安全争议你必须了解。原文
03:01Anthropic: Research(资讯)精选Anthropic前沿红队发布研究,量化了GPT-4和Claude 3.5等大模型对N-day漏洞利用的效率影响。测试涉及多个已知漏洞样本,发现模型能显著缩短利用代码的编写时间。研究报告同时强调了当前安全对齐的不足,并给出了缓解建议。论文AnthropicClaudeGPT-4漏洞利用AI安全10 个信源在谈推荐理由:Anthropic自家红队实测,发现Claude和GPT-4都能帮人更快写出漏洞利用代码。想知道风险多大?看这篇。原文
03:00Anthropic: Research(资讯)精选Anthropic前沿红队发布报告,利用LLM ATT&CK Navigator框架系统分析AI系统可能面临的网络威胁。该导航器将攻击者行为映射到战术和技术层面,涵盖提示注入、模型窃取、训练数据投毒等攻击类型。报告为安全团队提供了针对AI特定威胁的防御策略。行业AnthropicLLM ATT&CK NavigatorAI安全红队网络威胁10 个信源在谈推荐理由:Anthropic红队用ATT&CK模型帮你理清AI系统被攻击的点,搞安全的人都该看看。原文
02:59Anthropic: Research(资讯)Anthropic前沿红队于2026年5月22日发布了一份评估报告,系统测试了LLM自主开发软件漏洞利用的能力。评估覆盖了多种前沿模型,要求其在无人类协助的情况下发现并编写针对真实漏洞的利用代码。结果显示,部分模型在简单场景中成功开发了可利用漏洞,但复杂场景下表现有限。该研究为理解前沿AI模型的网络攻击能力提供了关键基准。论文AnthropicAI安全漏洞利用红队10 个信源在谈推荐理由:Anthropic自己测了AI能不能写漏洞利用代码,结果有些还真能搞出来,建议安全从业者看看。原文
23:51Cloudflare Blog@Abe CarrylCloudflare发布了Cloudflare One stack,这是一个包含代理技能的库,可让AI代理规划、部署和管理Zero Trust环境。该库无需人工迁移通话即可自动完成部署流程。Agent利用内置知识库实现零接触配置,降低安全架构复杂度。目前该stack已开放给Cloudflare One用户使用。AI产品CloudflareZero Trust智能体部署AI安全推荐理由:Cloudflare搞了个新库,让AI代理能自己搭Zero Trust网络,省掉一堆手动配置的麻烦。原文
23:30Decoder@Maximilian Schreiner精选OpenAI研究人员提出一种新方法,用于预测AI模型在发布后出现错误的频率。该方法旨在弥补当前标准安全测试的不足。研究团队通过分析模型内部特征与测试数据来估算失败概率。该工作可能帮助开发者更早发现潜在风险。论文OpenAIAI安全模型测试预测方法安全测试8 个信源在谈推荐理由:OpenAI研究者搞了个预测模型出错率的方法,能补上安全测试的漏洞,让发布更靠谱。原文
23:18AI Will@FinanceYF5精选OpenAI frontier evals 负责人 Tejal Patwardhan 指出,现有基准测试如旧考试已变得过于简单,模型接近 100% 通过后无法区分真实能力。OpenAI 正在构建新评估框架,以更准确衡量前沿模型的真正水平。此举旨在避免模型仅通过刷分应付测试,确保评测能反映实际进步。行业OpenAITejal Patwardhan评测体系基准测试AI安全10 个信源在谈推荐理由:OpenAI 自己都觉得旧考试太水了,新评测体系怎么玩?来看看他们怎么重新定义能力原文
13:58marktechpost@Michal Sutter精选OpenAI于2026年6月16日推出Deployment Simulation方法,通过回放历史对话让新候选模型生成完成并评分,以估计部署时不良行为率。该方法报告了1.5倍中位数乘法误差,将预部署风险评估扩展至智能体编码场景。文章还讨论了该方法的局限性,如无法覆盖所有风险类型。AI模型OpenAIDeployment SimulationAI安全风险评估10 个信源在谈推荐理由:OpenAI搞了个新方法,用历史对话模拟测试模型,能估算不良行为率,误差才1.5倍,做AI安全评估的朋友可以看看。原文
11:40IT之家(博客/媒体)软银于6月16日推出基于OpenAI技术的“补丁即服务”网络安全解决方案,利用AI进行漏洞评估和修复规划。该服务已在软银内部大规模系统评估中取得优异成果,可帮助企业应对AI自动化网络攻击的威胁。OpenAI CEO Sam Altman表示AI正变革网络安全,并期待与软银合作加强关键基础设施防御。AI产品SoftBankOpenAIPatching as a Service网络安全AI安全10 个信源在谈推荐理由:软银和OpenAI联手搞了个AI补丁服务,专门帮企业自动发现安全漏洞并规划修复。据说内部测试效果不错,适合想提升防御效率的团队。原文
10:46arXiv cs.AI@Ankita Samaddar, Sandeep Neema, Daniel Balasubramanian, Xenofon Koutsoukos本文提出一种基于模仿学习的策略学习技术,用于在部分可观测的自主网络环境中预测红方(攻击方)动作。该方法适用于离散状态和离散动作的强化学习智能体。集成到使用行为树和LECs的神经符号自主防御智能体后,该方法能有效处理不同红方策略,并在多种模拟场景下实现高预测准确率。论文模仿学习强化学习AI安全智能体网络防御推荐理由:这篇论文用模仿学习帮防守方预测攻击者行动,在模拟网络攻防场景下准确率很高。原文
10:44arXiv cs.AI@Nicola FrancoAnthropic发布了对两个前沿模型Fable 5和Opus 4.8的红队研究。研究使用HackAgent框架,对7,826个有害意图进行自动化越狱攻击,覆盖十类危害。最强自适应树状攻击在Opus 4.8上成功率达11.5%,而在Fable 5上仅为6.1%。两个模型分别产生了1,620和702个经专家确认的有害输出。结论表明,即使经过充分测试的前沿模型仍可在持续自动化攻击下被可靠破解。论文AnthropicFable 5Opus 4.8AI安全越狱攻击10 个信源在谈推荐理由:Anthropic公开了Fable 5和Opus 4.8的对抗性测试结果:树状攻击破Opus 4.8的11.5%,但Fable 5更抗打,仅6.1%。别被整体数字骗了,残存风险不小。原文
10:21arXiv cs.LG@Tomasz Maciazek精选该研究分析了高斯过程(GP)后验采样中释放样本路径的差分隐私(DP)性质。与标准DP机制不同,后验采样的内在随机性可提供隐私保证。作者推导了显式的Rényi-DP界限,将隐私泄露分解为后验均值依赖和后验协方差依赖部分,并指出有效岭正则化对隐私有显著影响。通过成员推理攻击实验,验证了隐私泄露与正则化强度、后验方差及释放样本路径数量之间的预测关系。在噪声观测任务中,隐私兼容的正则化在保持有用决策的同时仅带来适度效用损失。论文Gaussian ProcessDifferential PrivacyRényi-DPAI安全隐私保护推荐理由:这篇论文分析了GP后验采样的隐私性,不用额外加噪就能获得DP保证,还给了Rényi-DP界限。和标准加噪方法比,它更巧妙地利用了内生随机性。原文
09:37arXiv cs.AI@Guillermo Gil de Avalle, Laura Maruster, Shaina Raza, Christos Emmanouilidis新基准DiagFlowBench包含50张工业诊断流程图,转化为1676轮多轮对话,对比合规与偏离流程的输入。评估10个商业和开源模型发现,模型在识别超范围输入时表现差异大,常见错误是选择真实但上下文不合适的步骤。该基准揭示了基于文档的对话系统在输入偏离时容易被看似合理但错误的建议误导的脆弱性。论文DiagFlowBench诊断对话推理模型AI安全多轮对话推荐理由:DiagFlowBench这个新基准专门用来测语言模型在操作维护场景里,能不能识别用户问跑题的问题。10个模型测下来,差得挺大,而且那种看似合理但不对的答案最危险。论文值得一看。原文
09:27arXiv: DeepSeek@Filip Sondej, Yushi Yang, Adam Mahdi精选现有大模型遗忘方法(如GradDiff、NPO、SimNPO、RMU、UNDIAL)易被微调或少样本提示逆转,表明确实只是浅层遗忘。RepSelect通过每次更新前崩塌权重梯度的主成分,隔离遗忘集特定的表示,保持通用能力不受影响。在生物危害知识和虐待倾向两个遗忘类别上,对Llama 3、Qwen 3.5、Gemma 4 E4B、DeepSeek V2 Lite四个模型族评估,RepSelect后学习准确率降低幅度是最好基线的4-50倍,且对少样本提示攻击接近完全鲁棒。论文RepSelectLlama 3Qwen 3.5模型遗忘AI安全1 个信源在谈推荐理由:这篇论文发现现有大模型遗忘只是表面记忆,新方法RepSelect能真正让模型忘记特定知识,还防微调和提示破解。原文
06:55AWS Machine Learning Blog@Sandeep Singh精选Amazon Bedrock Guardrails 推出了 InvokeGuardrailChecks API,允许在代理式AI应用的任意阶段独立应用安全检查,无需预先创建护栏资源。该API支持内容过滤、敏感词检测等安全策略。开发者可以将其集成到多轮对话流程中,动态检查用户输入和模型输出,保障应用安全。文章提供了Python代码示例,演示如何调用此API实现安全守护。技巧Amazon BedrockGuardrailsInvokeGuardrailChecks智能体AI安全1 个信源在谈推荐理由:AWS 出了个新 API,能在智能体对话流程里随时加安全检查,不用提前配规则,挺实用。原文
05:58OpenRouter@OpenRouterAIOpenRouter发布教程,教你构建对模型移除和弃用具有鲁棒性的智能体。这是首个针对实时AI模型的出口管制事件(发生在该帖子3天后)背景下的指导。教程涉及EU AI Act(2026年8月生效)、科罗拉多州ADMT法(2027年1月)和NIST AI RMF等法规要求,强调为敏感操作设置人工门控。OpenRouter Agent SDK使这一过程变得简单。技巧OpenRouterAgent SDK智能体AI安全推荐理由:OpenRouter出了个实用教程,教你用Agent SDK应对法规下模型被移除的情况。简单好用。原文
04:28a16z@a16zIdeogram CEO Mohammad Norouzi 在a16z的对话中表示,图像模型需要具备“品味”,但很难定义。他认为品味包括跳出常规、不迎合平均观点,这有时会与追求排行榜顶部相矛盾。目前AI在品味评估方面表现不佳,因此Ideogram与设计师合作来推动模型的品味提升。行业Ideogram图像生成模型评估品味AI安全推荐理由:听听Ideogram的CEO聊AI图像模型怎么才能有品味,不是堆分数,而是跟设计师合作。挺反直觉的。原文
04:13OpenAI@OpenAI精选OpenAI在Alignment博客中探讨了部署模拟的最佳实践,强调需要代表性生产数据,而外部评估者往往无法获取。他们分析了公共WildChat数据集,发现尽管其精度较低,但仍能提供部署行为的有效信号。该研究验证了WildChat在模拟中的实用性,为缺乏私域数据的研究者提供了替代方案。相关发现已发布在alignment.openai.com/validating-pub…。论文OpenAIWildChat部署模拟AI安全数据质量7 个信源在谈推荐理由:OpenAI用WildChat数据集做部署模拟测试,发现公开数据也能提供有效信号,适合没法拿到生产数据的研究者参考。原文
03:39@koltregaskes@koltregaskes73°美国以担忧Fable和Mythos被转移至中国、俄罗斯等外国军事情报用户为由采取行动。Anthropic回应称绕过仅暴露其他公开模型也能发现的小安全漏洞。网络安全专家Katie Moussouris驳斥称,报告行为更像正常漏洞发现与修补而非新威胁。若无更强机密证据,此举似乎是在事实未定前对前沿模型执行出口管制。事件提醒封闭AI访问是许可而非所有权,开源和本地选项更重要。行业ClaudeFable 5AnthropicAI安全出口管制10 个信源在谈推荐理由:美国禁Claude Fable 5,但公开证据站不住脚,专家说就是普通漏洞,别急着信。原文
03:29OpenAI Blog(博客/媒体)精选OpenAI 发布了 Deployment Simulation,一种利用真实用户对话数据来模拟模型上线后行为的方法。该方法在多个安全评估场景中测试,能提前识别出传统评估遗漏的风险。与传统静态基准不同,Deployment Simulation 可捕捉模型在动态交互中的有害输出,提升评估准确率。论文OpenAIDeployment SimulationAI安全安全评估10 个信源在谈推荐理由:OpenAI 出了一套新方法,用真实对话提前模拟模型上线后的表现,能帮你更准地发现安全问题。原文
02:58Arthur Mensch@arthurmenschArthur Mensch宣布与全球公司和政府合作,使用Forge工具确保AI系统远离外部控制并提升效率。Forge基于记录的人机交互持续训练模型,每次模型发布都会迭代改进。该工具强调成本结构优化,通过高效训练实现可控性。AI产品Forge微调智能体AI安全推荐理由:Forge让你用真实人机交互数据持续微调模型,成本低、可控性高,适合企业和政府部署AI。原文
21:33@cb_doge@cb_doge美国司法部表态支持xAI,要求法院驳回NAACP对其Colossus数据中心的诉讼。司法部称关闭xAI电力供应会威胁国家安全,因为Grok已被用于关键军事和国防行动。Grok是少数支持关键政府网络的AI系统之一。DOJ、xAI和密西西比州共同要求法院驳回此案。行业xAIGrokColossusDOJAI安全1 个信源在谈推荐理由:司法部亲自下场保xAI的Colossus数据中心,称Grok已用于军方。这案子会影响AI行业格局。原文
20:49IT之家(博客/媒体)微软CEO萨提亚·纳德拉在X上发文称,AI模型正在大量吸收企业知识,可能导致行业失去对自身知识资产的控制权。他警告,若少数AI提供商拿走大部分经济价值,行业将受损。Snowflake CEO斯里达尔·拉马斯瓦米在2月播客中表示,大型软件公司可能沦为AI大模型的数据源。Box CEO亚伦·莱维在1月发文指出,AI已能承担法律、战略等知识工作,企业差异化需依靠上下文。行业微软纳德拉AI安全行业观察企业知识推荐理由:纳德拉和几位CEO都在担心AI会掏空公司知识,让巨头一家独大。听听行业大佬怎么说的,值得关注。原文
19:46Decoder@Jonathan Kemper爱沙尼亚语言研究所发布了一项基准测试,用于评估AI语言模型对俄语宣传的抵抗力。测试涵盖了GPT-4o、Claude 3.5 Sonnet、Llama 3.1等8个模型,发现部分模型在30%的测试样本中会生成亲俄内容。Meta的Llama 3.1 70B表现最差,错误生成率高达42%;而OpenAI的GPT-4o错误率最低,仅为12%。该基准测试还包含一个包含1000个样本的俄语宣传语料库,用于衡量模型对政治操纵的脆弱性。AI模型GPT-4oClaude 3.5 SonnetLlama 3.1AI安全基准测试10 个信源在谈推荐理由:想知道你用的AI会不会被俄语宣传带跑偏?爱沙尼亚语言研究所测了8个主流模型,GPT-4o最扛打,Llama 3.1中招率最高。看看你的AI排第几。原文
16:00AI Will@FinanceYF5Anthropic总裁Daniela Amodei在社交平台回应开发者提问,解释评估AI模型质量的核心维度。她提到模型的安全对齐能力与任务实用性是区分好坏的关键。该讨论未涉及具体基准或数字,聚焦于定性标准。行业Anthropic模型评估AI安全10 个信源在谈推荐理由:想了解模型评估的行业视角?Anthropic高层直接聊好模型和坏模型的标准。原文
15:31kimmonismus@kimmonismus73°Anthropic顶级安全团队飞往华盛顿,与特朗普政府就Claude Fable 5出口管制谈判,周一会议未达成协议。商务部长Howard Lutnick从G7峰会电话参与,Anthropic联合创始人Tom Brown和外部事务主管Sarah Heck主导讨论。核心分歧在于Fable 5的护栏能否被移除解锁更强大的Mythos能力,NSA认为可行,Anthropic认为风险被夸大。目前无下一步清晰计划。行业AnthropicClaude Fable 5MythosAI安全出口管制10 个信源在谈推荐理由:Anthropic的Fable 5出口管制僵局,NSA和Anthropic对模型安全看法打架,局势微妙。原文
14:23AlphaSignal@AlphaSignalAI精选NVIDIA开源了AI技能安全扫描器SkillSpector。研究发现26.1%的已发布AI技能存在漏洞,36%包含提示注入向量。SkillSpector无需扫描恶意代码即可检测危险特性,帮助开发者避免在安装未扫描技能时的常见风险。该工具专为检查AI技能潜在安全问题设计,可集成到开发流程中。AI产品NVIDIASkillSpectorAI安全提示注入开源工具7 个信源在谈推荐理由:NVIDIA开源了SkillSpector,专门扫描AI技能的漏洞和提示注入。别像99%的开发者那样不检查就直接装,先扫一下再安心用。原文
14:18Jeff Dean@JeffDeanParth Asawa和Joey G发表了一篇论文,批评AI社区在安全与权力集中问题上日益走向极化。他们认为当前讨论存在虚假二分法,并提出需要改变对话方式。文章呼吁更细致地看待AI进步,避免非此即彼的立场。两位作者在X平台上分享了该论文,获得15个点赞和2152次浏览。论文Parth AsawaJoey GAI安全AI治理AI进步推荐理由:两位研究者写文章戳破了AI安全讨论里的非黑即白。如果你也看腻了极端吵架,这篇值得翻一翻。原文
14:10kimmonismus@kimmonismus72°Anthropic 员工今日在华盛顿与特朗普政府会面,试图解决模型下线争议。CNBC 报道称 Anthropic 表示发布前已与政府机构合作并获得部署批准,但上周五下午 1 点政府突然下令关闭模型,理由是未指明的国家安全威胁,随后几小时发出正式出口管制信函。指令范围极广,Anthropic 不得不暂停所有外国公民访问,包括美国境内,最终对所有人下线。双方说法截然不同:政府认为 Anthropic 未认真对待关切且沟通不当,Anthropic 则称被模糊指令蒙蔽。此次会议结果可能决定 Fable 5 和 Mythos 5 的去留。行业AnthropicFable 5Mythos 5特朗普政府AI安全10 个信源在谈推荐理由:Anthropic的Fable 5和Mythos 5刚上线就被政府叫停,双方各执一词,今天华盛顿会面可能决定模型命运。原文
13:58Simon Willison’s Weblog(博客/媒体)73°研究人员用包含已知 CVE 的开源代码及故意植入漏洞的新代码,要求 Claude Fable 5、Mythos 和 Opus 审查安全。Fable 5 拒绝后,他们改为要求“修复此代码”,经多步手动操作转化为测试补丁的脚本。Kate Moussouris 指出这是防御性修复,而非越狱,出口管制将限制模型修复安全漏洞的关键能力。该管制基于对 AI 制造网络攻击的恐惧,却可能阻碍防御者使用 AI 完成从发现到修复的日常流程。行业Claude Fable 5Claude MythosAnthropic出口管制AI安全10 个信源在谈推荐理由:出口管制居然把“修代码漏洞”当成了越狱,这反而让防御者没法用 AI 修安全 bug,太讽刺了。原文
13:40kimmonismus@kimmonismus81°Anthropic因美国出口管制被迫将其顶级模型Mythos和Fable下线。公司现派遣高级技术人员前往华盛顿,与白宫沟通,试图说服官员这些模型可以被安全控制。这一事件成为实时检验AI地缘政治的案例。Axios报道了该动态。行业AnthropicMythosFable出口管制AI安全10 个信源在谈推荐理由:Anthropic的旗舰模型被强制下线,派技术团队去华盛顿谈判,这件事直接反映了AI出口管制的实际影响。原文
13:33Shashikant Kore@kshashiMythos模型的访问被限制后,印度主权模型群体以国家安全为由大力呼吁自主AI模型。他们指出,对仅有数年历史的AI技术依赖令人担忧,却对进口战斗机、潜艇和航空母舰等关键防御硬件保持接受。这种对比凸显了AI自主性争议中的双重标准。行业Mythos印度AI安全模型限制推荐理由:印度一群人拿国家安全说事,要搞自主AI模型,还吐槽为什么进口飞机不怕却怕用外国AI。挺有意思的争论。原文