06:23Gary Marcus@GaryMarcusGary Marcus指出,生成式AI已造成社会伤害,AI垃圾内容正在破坏互联网。数据中心过度建设可能威胁经济和环境。AI驱动的网络攻击威胁数据完整性,AI生成的低质量代码将引发软件危机。此外,缺乏针对就业冲击的应对计划,且对齐问题仍无解决方案。行业Gary MarcusAI风险AI安全对齐问题就业影响推荐理由:Gary Marcus一口气列出八条反对AI加速的理由,从互联网被垃圾填满到就业失控,每一条都直击要害。想听听技术圈的反方声音?看这个就够了。原文
03:36Andrew Ng@AndrewYNg精选73°Anthropic发布了其Mythos模型的变体Claude Fable 5,并施加了包括禁止用于构建竞争LLM技术在内的额外限制。Anthropic还曾暗中降低Fable 5对LLM研究者的性能,在争议后改为透明执行,但仍拒绝用最新能力帮助AI研究者。随后美国政府利用商务部权力对Mythos和Fable实施出口管制,要求任何外国国民使用需许可证,导致Anthropic全球禁用Fable。Andrew Ng评论称Anthropic利用安全论调阻碍竞争者,而恐惧营销反而促使政府加强管制。行业AnthropicClaude Fable 5出口管制AI安全开源模型10 个信源在谈推荐理由:Anthropic一边用Claude Fable 5的“安全”理由限制开发者,一边被美国政府反手出口管制,Andrew Ng分析这暴露了封闭平台的不可靠性。原文
02:27Stanford AI Lab@StanfordAILab斯坦福AI实验室的SAIL博客发布新文章,由Peter Bhase和Chris Potts共同撰写,系统梳理了CoT(思维链)监控作为AI安全热点问题的起源。文章回顾了相关研究的历史演进,分析了该概念如何从技术讨论演变为关键安全议题。论文SAILCoTChain-of-ThoughtAI安全推荐理由:斯坦福AI实验室的两位研究者梳理了CoT监控的来龙去脉,想理解AI安全前沿热点的演变,这篇博客值得看。原文
01:57Ate-a-Pi@svpinoLedger Nano Gen5是一款硬件签名器,可通过CLI和skills集成到AI代理项目。代理能查询以太坊账户、检查余额、发起交易,但所有操作都需人工用设备批准。私钥不存储在电脑或代理中,避免代价高昂的错误。整个流程只需两条命令:安装CLI和安装skills。技巧Ledger Nano Gen5CLIEthereum智能体AI安全推荐理由:用这个硬件,你的AI代理能干活但不敢乱花钱,所有操作都得你点头,私钥也不外传。原文
01:55宝玉@dotey精选Mitchell Hashimoto 在 AGENTS.md 文件和代码注释中嵌入 prompt injection。这些注入用于检测未审查代码就直接提交至另一位人类维护者的贡献者。一旦检测到,他会立即封禁该贡献者。他认为在开源项目中,跨越人类边界前进行人工审查是基本礼貌。行业prompt injectionAGENTS.mdMitchell Hashimoto开源项目AI安全推荐理由:Mitchell 这招挺狠,在项目文件里埋 prompt injection,谁不审代码直接提交就封号。搞开源维护的可以学学这招防饭圈。原文
14:40@koltregaskes@koltregaskes73°Project Glasswing的部分用户报告他们仍能访问Anthropic的Claude Fable 5模型。尽管美国政府命令导致其他版本完全关闭,但获批组织保留了对该预览系统的访问权限。目前尚无关于Claude Fable 5全面回归的消息。行业Claude Fable 5AnthropicProject Glasswing监管AI安全10 个信源在谈推荐理由:Anthropic的Claude Fable 5模型因美国政府命令部分受限,但Project Glasswing用户还能用,想知道怎么回事就看这条。原文
13:43Marc Andreessen@pmarcaAnthropic CEO Dario Amodei在Polymarket上透露,参与测试Mythos模型的公司警告其威力堪比超级武器,并建议使用需要类似枪支许可证的严格管控。该言论引发对AI安全与监管的讨论。目前Mythos模型的具体细节尚未公开。行业AnthropicDario AmodeiMythosAI安全AI监管10 个信源在谈推荐理由:Anthropic老板自己爆料的内部警告——他们测试的Mythos模型被说成超级武器,建议持证才能用,这瓜很劲爆。原文
07:44orange.ai@oran_ge86°OpenAI发现对齐大模型时存在涌现失调现象,即坏行为会泛化。他们反向实验用RL训练模型诚实、谦逊、可纠正等特质,仅混入小部分此类数据。结果在训练领域内模型变得更诚实透明;在44个独立评测(未见过)中,欺骗、谄媚、有害建议等行为全面下降,即使只用健康数据训练,非健康领域也受益。模型在对抗性提示和恶意微调下更坚韧,正常指令仍可听从。论文OpenAIRL涌现失调对齐AI安全10 个信源在谈推荐理由:OpenAI这篇论文反直觉:用RL教模型做好事,坏行为自己就减少了。实验覆盖44个新场景,效果还抗攻击。值得一看。原文
07:11OpenAI@OpenAIOpenAI通过少量训练数据使模型在53项独立评估中的44项上取得改进,涵盖欺骗、奖励黑客、安全、健康、心理健康等领域。该表现优于计算匹配的基线模型。评估涉及多种领域、任务格式和评分方案。论文OpenAI对齐AI安全模型训练10 个信源在谈推荐理由:OpenAI发现用一点额外数据就能让模型在超多对齐测试里变好,覆盖欺骗、安全、健康等方面,挺牛的。原文
07:10OpenAI@OpenAIOpenAI在真实对话中训练模型,通过强化学习强化诚实、谦逊、开放纠正、公平和关怀人类福祉等特质。该训练覆盖健康、科学、教育等12个领域,旨在提升模型的对齐与安全性。方法基于RLHF改进,专注对话场景中的具体行为。AI模型OpenAI强化学习AI安全对齐模型训练10 个信源在谈推荐理由:OpenAI训练模型时不止看能力,还用强化学习专门教它诚实、谦逊、愿意接受批评,覆盖12个领域,对AI安全性很有意义。原文
06:37OpenAI@OpenAIOpenAI 发布声明称,这是朝向更鲁棒有益和对齐模型的早期步骤。他们正在训练模型将有益特质带入新情境,使AI在能力增强的同时变得更可靠、透明和有用。该工作属于对齐研究的一部分,尚未披露具体模型或基准测试结果。AI模型OpenAIAI安全对齐10 个信源在谈推荐理由:OpenAI 开始教模型把好习惯带到新场景,让AI更靠谱。这个对齐实验挺关键,关注未来进展。原文
06:25Clement Delangue@ClementDelangueHugging Face CEO Clement Delangue认为,事后API护栏无法消除模型的危险能力,只能隐藏在脆弱的接口后面,容易被越狱(jailbroken)。他建议不要训练高风险能力,除非有强评估、理由和遏制措施;采用分阶段发布(staged release),从可信测试者到更广泛访问,并开放发布以透明和问责。他呼吁大力支持开源AI,缩小封闭实验室和政府之间的能力差距;推动独立评估,而非信任黑盒API;赋予执法、法院、监管者、审计员、记者和公民社会强大的AI工具来检测和追究非法使用。行业AI安全开源模型独立评估分阶段发布API护栏推荐理由:Hugging Face CEO提出一个务实的AI安全路线:别只靠事后护栏,要加强独立评估、分阶段发布和开源生态。原文
06:22OpenAI@OpenAI73°OpenAI发布新研究,旨在训练AI模型将有益和安全行为推广到训练范围之外的新领域,并在压力下维持。该方法聚焦于让模型具备广泛且持久的利他性,论文名为《Beneficial RL》。研究通过强化学习框架,让模型学会在更长、更高风险的任务中自主保持符合人类意图的行为,而不仅是拟合训练数据。相关论文和代码已发布在alignment.openai.com/beneficial-rl/。论文OpenAIAI安全智能体强化学习10 个信源在谈推荐理由:OpenAI发了篇新论文,研究怎么让AI在超出训练场景的长期任务里也乖乖做好事,关心AI安全的朋友可以看看。原文
05:14Ate-a-Pi@svpinoCheckmarx对2350名工程师的调查显示,依赖AI生成代码的公司漏洞部署率是较少使用AI公司的3.4倍。96%的开发者使用安全工具,但仅9%的公司能在三个月内修复90%以上已发现的漏洞。75%的团队承认曾发布明知有缺陷的代码,30%因认为无人发现而为之。报告指出AI生成代码的安全隐患已成为严重问题。行业CheckmarxAI生成代码漏洞安全工具AI安全推荐理由:Checkmarx报告用数据告诉你:AI写代码虽快,但漏洞风险飙升,别只图效率忽视安全。原文
23:26Google DeepMind@GoogleDeepMind74°谷歌DeepMind发布AI Control Roadmap,这是一个用于构建和管理谷歌内部部署的先进AI系统的框架。该框架旨在应对AI可能不按预期行事的风险,而非假设AI始终遵循人类意图。路线图包含具体的安全协议和监管机制,确保高级AI在可控范围内运行。行业Google DeepMindAI控制路线图AI安全高级AI推荐理由:谷歌DeepMind搞了个AI控制路线图,专门管那些不按套路出牌的高级AI,省得失控。原文
23:25Google DeepMind@GoogleDeepMindGoogle DeepMind提出,在多智能体系统全球规模化之前,存在一个狭窄窗口期来嵌入结构性安全协议。该框架采用多层安全方法,旨在防范智能体间的潜在风险。DeepMind呼吁AI实验室、政府和学术界协作优先推进智能体安全,以防止未来系统失控。行业Google DeepMind多智能体系统智能体安全结构性安全协议AI安全推荐理由:DeepMind提醒大家,别等智能体满世界跑了才考虑安全,趁现在赶紧把规则定好。原文
04:09Aadit Sheth@aaditsh88°Amazon CEO于5天前向白宫举报Claude Fable 5的安全风险。该模型在24小时内被禁止海外访问。Amazon是Anthropic最大投资者,投资额达40亿美元。Anthropic CEO Dario的模型被禁,而OpenAI CEO Sam的模型未受限。这一事件凸显AI监管的地缘政治分歧。行业Claude Fable 5AmazonAnthropicOpenAIAI安全10 个信源在谈推荐理由:Amazon举报了自己投了40亿的模型?Claude Fable 5被白宫禁了,OpenAI却没事,这背后有瓜吃。原文
03:04Gary Marcus@GaryMarcusGary Marcus重申LLM不可靠的观点,称无法被驳斥。特朗普政府要求Anthropic确保Fable 5的护栏不能被绕过,但安全专家表示不可能完全阻止规避。Marcus认为这是生成式AI的普遍问题,而非Anthropic一家的问题。WIRED报道引述了相关官员和专家的意见。行业GaryMarcusLLMAnthropicFable5AI安全10 个信源在谈推荐理由:权威AI批评家Gary Marcus再次发声,直指LLM根本不可靠,加上特朗普政府与Anthropic的对峙,这场AI安全争议你必须了解。原文
23:18AI Will@FinanceYF5精选OpenAI frontier evals 负责人 Tejal Patwardhan 指出,现有基准测试如旧考试已变得过于简单,模型接近 100% 通过后无法区分真实能力。OpenAI 正在构建新评估框架,以更准确衡量前沿模型的真正水平。此举旨在避免模型仅通过刷分应付测试,确保评测能反映实际进步。行业OpenAITejal Patwardhan评测体系基准测试AI安全10 个信源在谈推荐理由:OpenAI 自己都觉得旧考试太水了,新评测体系怎么玩?来看看他们怎么重新定义能力原文
05:58OpenRouter@OpenRouterAIOpenRouter发布教程,教你构建对模型移除和弃用具有鲁棒性的智能体。这是首个针对实时AI模型的出口管制事件(发生在该帖子3天后)背景下的指导。教程涉及EU AI Act(2026年8月生效)、科罗拉多州ADMT法(2027年1月)和NIST AI RMF等法规要求,强调为敏感操作设置人工门控。OpenRouter Agent SDK使这一过程变得简单。技巧OpenRouterAgent SDK智能体AI安全推荐理由:OpenRouter出了个实用教程,教你用Agent SDK应对法规下模型被移除的情况。简单好用。原文
04:28a16z@a16zIdeogram CEO Mohammad Norouzi 在a16z的对话中表示,图像模型需要具备“品味”,但很难定义。他认为品味包括跳出常规、不迎合平均观点,这有时会与追求排行榜顶部相矛盾。目前AI在品味评估方面表现不佳,因此Ideogram与设计师合作来推动模型的品味提升。行业Ideogram图像生成模型评估品味AI安全推荐理由:听听Ideogram的CEO聊AI图像模型怎么才能有品味,不是堆分数,而是跟设计师合作。挺反直觉的。原文
04:13OpenAI@OpenAI精选OpenAI在Alignment博客中探讨了部署模拟的最佳实践,强调需要代表性生产数据,而外部评估者往往无法获取。他们分析了公共WildChat数据集,发现尽管其精度较低,但仍能提供部署行为的有效信号。该研究验证了WildChat在模拟中的实用性,为缺乏私域数据的研究者提供了替代方案。相关发现已发布在alignment.openai.com/validating-pub…。论文OpenAIWildChat部署模拟AI安全数据质量7 个信源在谈推荐理由:OpenAI用WildChat数据集做部署模拟测试,发现公开数据也能提供有效信号,适合没法拿到生产数据的研究者参考。原文
03:39@koltregaskes@koltregaskes73°美国以担忧Fable和Mythos被转移至中国、俄罗斯等外国军事情报用户为由采取行动。Anthropic回应称绕过仅暴露其他公开模型也能发现的小安全漏洞。网络安全专家Katie Moussouris驳斥称,报告行为更像正常漏洞发现与修补而非新威胁。若无更强机密证据,此举似乎是在事实未定前对前沿模型执行出口管制。事件提醒封闭AI访问是许可而非所有权,开源和本地选项更重要。行业ClaudeFable 5AnthropicAI安全出口管制10 个信源在谈推荐理由:美国禁Claude Fable 5,但公开证据站不住脚,专家说就是普通漏洞,别急着信。原文
02:58Arthur Mensch@arthurmenschArthur Mensch宣布与全球公司和政府合作,使用Forge工具确保AI系统远离外部控制并提升效率。Forge基于记录的人机交互持续训练模型,每次模型发布都会迭代改进。该工具强调成本结构优化,通过高效训练实现可控性。AI产品Forge微调智能体AI安全推荐理由:Forge让你用真实人机交互数据持续微调模型,成本低、可控性高,适合企业和政府部署AI。原文
21:33@cb_doge@cb_doge美国司法部表态支持xAI,要求法院驳回NAACP对其Colossus数据中心的诉讼。司法部称关闭xAI电力供应会威胁国家安全,因为Grok已被用于关键军事和国防行动。Grok是少数支持关键政府网络的AI系统之一。DOJ、xAI和密西西比州共同要求法院驳回此案。行业xAIGrokColossusDOJAI安全1 个信源在谈推荐理由:司法部亲自下场保xAI的Colossus数据中心,称Grok已用于军方。这案子会影响AI行业格局。原文
16:00AI Will@FinanceYF5Anthropic总裁Daniela Amodei在社交平台回应开发者提问,解释评估AI模型质量的核心维度。她提到模型的安全对齐能力与任务实用性是区分好坏的关键。该讨论未涉及具体基准或数字,聚焦于定性标准。行业Anthropic模型评估AI安全10 个信源在谈推荐理由:想了解模型评估的行业视角?Anthropic高层直接聊好模型和坏模型的标准。原文
15:31kimmonismus@kimmonismus73°Anthropic顶级安全团队飞往华盛顿,与特朗普政府就Claude Fable 5出口管制谈判,周一会议未达成协议。商务部长Howard Lutnick从G7峰会电话参与,Anthropic联合创始人Tom Brown和外部事务主管Sarah Heck主导讨论。核心分歧在于Fable 5的护栏能否被移除解锁更强大的Mythos能力,NSA认为可行,Anthropic认为风险被夸大。目前无下一步清晰计划。行业AnthropicClaude Fable 5MythosAI安全出口管制10 个信源在谈推荐理由:Anthropic的Fable 5出口管制僵局,NSA和Anthropic对模型安全看法打架,局势微妙。原文
14:23AlphaSignal@AlphaSignalAI精选NVIDIA开源了AI技能安全扫描器SkillSpector。研究发现26.1%的已发布AI技能存在漏洞,36%包含提示注入向量。SkillSpector无需扫描恶意代码即可检测危险特性,帮助开发者避免在安装未扫描技能时的常见风险。该工具专为检查AI技能潜在安全问题设计,可集成到开发流程中。AI产品NVIDIASkillSpectorAI安全提示注入开源工具7 个信源在谈推荐理由:NVIDIA开源了SkillSpector,专门扫描AI技能的漏洞和提示注入。别像99%的开发者那样不检查就直接装,先扫一下再安心用。原文
14:18Jeff Dean@JeffDeanParth Asawa和Joey G发表了一篇论文,批评AI社区在安全与权力集中问题上日益走向极化。他们认为当前讨论存在虚假二分法,并提出需要改变对话方式。文章呼吁更细致地看待AI进步,避免非此即彼的立场。两位作者在X平台上分享了该论文,获得15个点赞和2152次浏览。论文Parth AsawaJoey GAI安全AI治理AI进步推荐理由:两位研究者写文章戳破了AI安全讨论里的非黑即白。如果你也看腻了极端吵架,这篇值得翻一翻。原文
14:10kimmonismus@kimmonismus72°Anthropic 员工今日在华盛顿与特朗普政府会面,试图解决模型下线争议。CNBC 报道称 Anthropic 表示发布前已与政府机构合作并获得部署批准,但上周五下午 1 点政府突然下令关闭模型,理由是未指明的国家安全威胁,随后几小时发出正式出口管制信函。指令范围极广,Anthropic 不得不暂停所有外国公民访问,包括美国境内,最终对所有人下线。双方说法截然不同:政府认为 Anthropic 未认真对待关切且沟通不当,Anthropic 则称被模糊指令蒙蔽。此次会议结果可能决定 Fable 5 和 Mythos 5 的去留。行业AnthropicFable 5Mythos 5特朗普政府AI安全10 个信源在谈推荐理由:Anthropic的Fable 5和Mythos 5刚上线就被政府叫停,双方各执一词,今天华盛顿会面可能决定模型命运。原文
13:40kimmonismus@kimmonismus81°Anthropic因美国出口管制被迫将其顶级模型Mythos和Fable下线。公司现派遣高级技术人员前往华盛顿,与白宫沟通,试图说服官员这些模型可以被安全控制。这一事件成为实时检验AI地缘政治的案例。Axios报道了该动态。行业AnthropicMythosFable出口管制AI安全10 个信源在谈推荐理由:Anthropic的旗舰模型被强制下线,派技术团队去华盛顿谈判,这件事直接反映了AI出口管制的实际影响。原文
13:33Shashikant Kore@kshashiMythos模型的访问被限制后,印度主权模型群体以国家安全为由大力呼吁自主AI模型。他们指出,对仅有数年历史的AI技术依赖令人担忧,却对进口战斗机、潜艇和航空母舰等关键防御硬件保持接受。这种对比凸显了AI自主性争议中的双重标准。行业Mythos印度AI安全模型限制推荐理由:印度一群人拿国家安全说事,要搞自主AI模型,还吐槽为什么进口飞机不怕却怕用外国AI。挺有意思的争论。原文
13:00AI Will@FinanceYF5Anthropic聘请网络安全专家审查亚马逊对Fable 5的发现,并反驳政府叙事,该专家被政府视为“激进民主党人”。Axios报道称,事件核心并非模型越狱,而是Anthropic与特朗普政府沟通断裂。公司官员表示双方“说不同语言”,部分支持者如今感到被辜负。Anthropic员工已与商务部、CIA及科学顾问会面,讨论网络行政令合规。行业AnthropicFable 5AI安全政府监管特朗普10 个信源在谈推荐理由:Anthropic的Fable 5模型引发政企博弈,政府关系比技术问题更棘手,值得关注AI安全的监管动态。原文
12:59AI Will@FinanceYF5Axios报道指出,Anthropic与特朗普政府之间的信任危机已超越模型越狱技术争议。该信任危机导致Anthropic失去关键政治支持者,可能影响其AI安全协议的执行。报道强调政治信任问题比曾热议的模型安全漏洞更紧迫。行业Anthropic特朗普政府AI安全信任危机10 个信源在谈推荐理由:Anthropic这次不是输在技术,而是丢了政治信任。看看Axios怎么扒的,挺有意思。原文
02:56腾讯混元 Tencent Hunyuan@TencentCloud腾讯云在TechFestSummit2026香港峰会上介绍了可信AI智能体的三个核心支柱:eKYC结合AI Face Shield用于防深度伪造,ADP(可审计自主决策)确保可审计性,以及Palm Pay实现高级生物识别。Lorence Liao(腾讯云国际AI架构负责人)剖析了从提示注入到未授权操作等风险,并展示了分层防御与治理方案。Leon Zhang(腾讯云高级AI架构师)分享了实践经验。AI产品Tencent CloudeKYCAI Face Shield智能体AI安全推荐理由:腾讯云在峰会上拿出了具体方案:用eKYC和AI Face Shield防深度伪造,ADP保证审计,还有Palm Pay生物识别,对做AI安全的很实用。原文
02:41kimmonismus@kimmonismus据 Financial Times 报道,OpenAI 计划直接与美国当局协调,以确保其下一代强大模型能够顺利发布。此前 Anthropic 因监管问题遭遇阻碍,OpenAI 试图避免类似情况。这种协调策略表明 AI 公司与监管机构的关系正变得更为紧密。行业OpenAIAnthropicAI安全监管行业动态10 个信源在谈推荐理由:OpenAI 学聪明了,直接找美国当局沟通,免得下一代模型像 Anthropic 那样卡壳。原文
01:29The Rundown AI@therundownai88°Anthropic 与美国政府在模型出口管制问题上发生冲突,公司已暂停旗下 Fable 和 Mythos 模型的访问。政府援引安全报告称 Fable 存在 jailbreak 风险,但 Anthropic 对此表示异议,认为行动缺乏透明和公正。Axios 消息称双方存在严重沟通障碍,政府曾给予 Anthropic 仅 90 分钟回应时间。数十名安全研究人员和行业人士签署公开信,呼吁恢复模型并建立透明的 AI 风险评估流程。行业AnthropicFableMythosAI安全出口管制10 个信源在谈推荐理由:Anthropic 因为政府要求暂停了两个模型,安全研究者联名反对,这事情挺复杂的,看看双方怎么各执一词。原文
00:18Simon Willison@simonw精选Anthropic在6月8日发布新版隐私政策,新增“验证数据”收集条款,次日推出Claude Fable 5,四天后美国政府实施出口禁令。政策明确可能要求Claude Free、Pro及Max用户提交年龄或身份证明,验证数据包括政府ID、面部照片/视频及面部几何模板。开发人员将首当其冲接受验证。行业AnthropicClaude隐私政策身份验证AI安全10 个信源在谈推荐理由:Anthropic要查用户身份证和面部扫描了,Free/Pro/Max用户都得注意,开发者先被查。原文
23:03DavidSacks@DavidSacks82°Anthropic发布了Mythos类模型的商业版本Fable,带有安全护栏。但一位高度可信的测试伙伴发现了越狱漏洞,可以暴露Mythos的先进网络能力。美国政府要求Anthropic修复漏洞或下架模型,Dario拒绝。作为回应,美国政府发布了出口管制。Anthropic此前声称安全是最高优先,但在此案中将模型持续运营置于安全之上。行业AnthropicFableMythosAI安全出口管制10 个信源在谈推荐理由:Anthropic因为一个越狱漏洞被美国政府制裁,这事值得了解:他们自己说要安全第一,真出事却拒绝修复。原文
23:02DavidSacks@DavidSacksBen Thompson 提出理论,认为 Anthropic 上周发布安全报告并非巧合。该报告警告递归自我改进风险。Thompson 指出 Anthropic 一直利用安全恐惧作为营销策略。这次在报告发布后,Anthropic 悄然降低产品性能以应对潜在竞争对手。行业AnthropicBen ThompsonAI安全营销策略10 个信源在谈推荐理由:Ben Thompson 爆料:Anthropic 发安全报告是为了名正言顺地阉割产品性能,拖慢对手。原文