11:33arXiv cs.AI@Yunqi Xue, Zhijiang Li, Philip Torr, Jindong Gu该论文针对自回归统一多模态模型在文本到图像生成中的安全性问题,提出迭代自我改进码本方法。方法利用模型自身理解与判断能力识别不安全生成图像,无需人工标注。通过构建有害空间并更新码本消除有害映射,再在无害空间内自适应微调码本以保持生成质量。实验表明,该方法在不依赖外部反馈情况下迭代提升模型安全性。论文自回归图像生成码本安全生成统一多模态模型AI安全推荐理由:这篇论文给自回归图像生成的安全问题提供了一个不需要人工标注的自我改进方案,用模型自己判断不安全图片然后修复码本,很实用。原文
11:25IT之家(博客/媒体)6月25日,AIIA正式启动词元服务工作组筹备,由中国信通院牵头,联合华为云、百度智能云、中国移动等22家单位。工作组将解决AI服务中性能、安全、计费不规范等关键问题。主要工作涵盖推进Token服务标准体系、协同优化服务质量、赋能行业应用等8项内容。具体包括建设金融、医疗、政务等行业场景化Token服务能力基线,以及推进国产Token自主可控和绿色Token生态。行业中国信通院华为云AIIA词元服务AI安全推荐理由:AIIA拉上华为云、百度等22家单位,专治Token服务的性能、安全和计费乱象,后续AI服务会更规范,行业标准也要统一了。原文
11:21shao__meng@shao__meng91°据消息,特朗普政府以安全担忧为由,要求 OpenAI 对即将推出的 GPT-5.6 采取分阶段发布策略。OpenAI CEO Sam Altman 在周四向员工表示,政府将逐个客户审批访问权限,这是一种限制性很强的做法。此前 Anthropic 的 Claude Mythos 模型也采用类似有限预览方式,而 Claude Fable 5 则被要求下线且尚未恢复。这一监管干预可能影响 GPT-5.6 的发布时间和范围。行业GPT-5.6OpenAIAnthropic特朗普政府AI安全10 个信源在谈推荐理由:特朗普政府直接干预 OpenAI 新模型发布,要求逐个审批客户,和以前不一样,想了解大模型监管走向的可以看看。原文
10:59arXiv cs.AI@Preet Baxi, Jiannan Xu, Jane Yi Jiang, Stefanus Jasin该论文研究了在LLM自动简历筛选中的提示注入攻击,定义为不引入新资质但旨在影响LLM评分的微妙自我推销文本。实验表明,当候选人质量同质且只有少数人注入时,提示注入能可靠提高排名;但随着注入人数增多,效果迅速减弱,广泛操控时失效。在候选人质量异质场景下,提示注入平均效果较弱,但偶尔能让低质量候选人超越高质量候选人,引发公平性担忧。论文代码已公开在GitHub。论文提示注入简历筛选LLMAI安全自动化招聘推荐理由:想知道你的简历能不能骗过AI筛选?这篇论文用数据告诉你提示注入在什么时候有效、什么时候没用,还能看出公平隐患,做招聘和求职的都该看看。原文
10:51arXiv cs.AI@Chi Cui, Yixin Wu, Yang Zhang该论文对4chan上的AI非自愿合成色情图像(SNEACI)进行了大规模研究,识别出24,105条SNEACI内容。研究发现,非名人目标占比从先前研究的4.7%飙升至55.8%,表明AI裸化已从攻击公众人物转向伤害用户社交圈内的普通人。开源模型主导生产:Stable Diffusion系列生成42.7%的图像,Wan生成66.5%的视频,依赖数千个共享微调模型和教程。最活跃的内容生产者贡献了780条,推动社区参与并降低技术门槛。论文Stable DiffusionWan4chanAI安全开源模型推荐理由:这篇论文用硬数据告诉你,AI脱衣已经从搞名人变成搞普通人了,而且Stable Diffusion和Wan是主要生产工具,4chan社区里几百条的高产作者在推波助澜。原文
10:10NVIDIA AI@NVIDIAAI精选NVIDIA与Linux基金会及行业伙伴共同启动Akrites计划,旨在应对AI驱动的开源软件安全威胁。NVIDIA首席安全官David Reber强调透明与开放协作对AI时代安全至关重要。Akrites将建立共享安全事件响应团队(SIRT)和标准化保密披露流程,在漏洞被利用前进行上游修复。该计划特别针对AI可在数分钟内发现软件漏洞的新挑战。行业NVIDIALinux基金会AkritesAI安全开源安全6 个信源在谈推荐理由:NVIDIA和Linux基金会牵头搞了个Akrites,专门对付AI快速找漏洞的问题,还建了共享安全响应团队,挺实在的。原文
09:51arXiv cs.AI@Ryan Fetterman论文研究LLM微调安全分类器时产生的逃避漏洞,发现标准评估无法检测。以Foundation-Sec-8B-Instruct及其基础模型Llama-3.1-8B-Instruct为对象,在PowerShell分类任务上测试。通过因果干预定位分类电路继承自Llama的后期注意力路径,微调浓缩并语义专化此结构,但引入了对PowerShell别名替换(如iwr)、命令重建(Invoke-Expression)、字符串构造、执行间接和大小写变异等转换敏感的漏洞。三种逃避基准显示Foundation-Sec在iwr替换、Invoke-Expression重建和大小写变异的Invoke-Expression/IEX变体上失败,而Llama未受影响。论文Foundation-Sec-8B-InstructLlama-3.1-8B-InstructAI安全微调逃避攻击推荐理由:这篇论文揭示了一个反直觉的发现:给模型做安全微调反而可能暗藏更多绕过后门。它用具体的PowerShell分类实验,告诉你继承的电路在微调后变得脆弱,适合关注AI安全或模型微调的朋友。原文
09:33IT之家(博客/媒体)73°美国政府以安全为由,要求 OpenAI 分批发布下一版本 GPT-5.6,仅允许少数企业客户通过有限预览访问,且每笔客户访问需经美国政府按具体情况批准。相比之下,Anthropic 的 Mythos 5 和 Fable 5 模型已被要求暂停使用,且禁止非美国公民员工访问该技术。OpenAI 倾向于推迟至 2027 年再进行 IPO。行业OpenAIGPT-5.6AnthropicAI安全监管10 个信源在谈推荐理由:OpenAI 的 GPT-5.6 被美国政府要求分批发布,只让少数企业先用,审批还特别严。想了解大模型监管风向的可以看看。原文
09:15IT之家(博客/媒体)Linux基金会与亚马逊、Anthropic、OpenAI、英伟达、红帽等企业合作推出Akrites项目。该项目旨在保护开源软件,防范基于AI与大语言模型的漏洞攻击。Akrites将采用统一CVD披露流程,优先保密漏洞信息。项目已获AWS、Anthropic、思科、谷歌、微软、GitHub、OpenAI等组织支持。行业Linux基金会AnthropicOpenAIAkritesAI安全开源安全10 个信源在谈推荐理由:Linux基金会拉着Anthropic、OpenAI这些大厂一起搞Akrites,专门对付AI挖开源漏洞,保护开源生态安全。原文
08:14berryxia@berryxia76°特朗普政府要求OpenAI分阶段发布其下一代前沿模型(据报道为GPT-5.6),理由是网络安全和国家安全担忧。OpenAI CEO Sam Altman告知员工,新模型不会立即全面公开发布,而是先以有限预览形式仅开放给一小部分选定合作伙伴和企业客户。预览阶段中,美国政府将对每个客户的访问权限进行逐个审批。这一要求来自国家网络总监办公室和科技政策办公室,与今年6月初生效的行政命令有关。OpenAI表示将遵守这一自愿审查机制,强调安全与创新并行推进。行业OpenAIGPT-5.6特朗普政府AI安全监管10 个信源在谈推荐理由:特朗普政府直接插手OpenAI的GPT-5.6发布,要求分阶段和政府审批才能给客户。这不是闹着玩的,监管正在收紧。原文
07:42techcrunch@Lucas RopekOpenAI计划仅向部分合作伙伴发布其最新模型GPT-5.6,而非向公众开放。白宫(特朗普政府)以安全顾虑为由要求OpenAI放缓发布节奏。此举表明政府对先进AI模型的监管力度正在加大。仅限合作伙伴的发布策略是OpenAI在安全压力下的让步。行业OpenAIGPT-5.6AI安全行业监管10 个信源在谈推荐理由:白宫出手了,直接让OpenAI别急着放GPT-5.6出来,安全第一。原文
06:57宝玉@dotey88°OpenAI的GPT-5.6因联邦政府要求将以“有限预览”方式发布,仅面向一小部分合作伙伴。政府将逐个客户审批访问权限,这种发布方式在AI行业无先例。Anthropic曾因不配合导致模型被下架,OpenAI的配合更多出于避免类似代价。该机制可能导致公司内部能力与公众可用能力差距扩大。GPT-5.6传闻上下文窗口从100万token扩展到150万,并改进代码能力和多步骤agent任务,但发布时间取决于政府审批节奏。行业GPT-5.6OpenAIAI安全政府审批10 个信源在谈推荐理由:OpenAI的GPT-5.6被政府要求逐个客户审批才能用,这种发布方式前所未有,比Anthropic更受控,直接关系到你何时能用上。原文
06:56Meta Engineering Blog(博客/媒体)精选Meta在博客中分享了构建隐私感知基础设施时,资产分类面临的挑战。隐私控制(如保留、访问、用途限制)需要对数据有准确理解,但相同名称可能在不同上下文有不同含义,例如字段“age”在不同场景代表不同数据。Meta通过案例研究说明了如何设计分类系统来识别这些差异。技巧Meta隐私控制资产分类AI安全推荐理由:Meta用实际案例讲隐私控制的难点,一个‘age’字段在不同场景含义不同,搞错了会出大问题。原文
05:59Gary Marcus@GaryMarcus白宫要求OpenAI推迟GPT-5.6的发布,理由是网络安全担忧。特朗普政府将逐客户批准在预览期内访问该模型。此举反映了政府对先进AI系统潜在风险的关注。行业GPT-5.6OpenAI白宫监管AI安全10 个信源在谈推荐理由:白宫介入要求推迟GPT-5.6,逐客户审批访问,这波监管操作很罕见。原文
05:56Gary Marcus@GaryMarcus白宫要求OpenAI推迟发布GPT-5.6,此举源于对AI潜在风险的担忧。此前Marc Andreessen和David Sacks曾阻止严格监管,但近期白宫态度转变。专家Gary Marcus指出,当前监管缺乏透明度,给企业和投资者带来不确定性。他建议成立由独立科学家组成的两党委员会,制定透明标准。行业GPT-5.6OpenAIWhite HouseGary MarcusAI安全10 个信源在谈推荐理由:白宫叫停GPT-5.6,AI监管风向变了。Marcus剖析了幕后的政治博弈,值得一读。原文
04:24techcrunch@Marina TemkinPatronus AI 是一家由前 Meta 研究员创立的 AI 代理测试初创公司,近日宣布获得 5000 万美元融资。该公司致力于构建模拟数字环境,用于对 AI 代理进行压力测试,以评估其在复杂任务中的表现。投资者表示,市场对这类测试工具的需求几乎“无法满足”。该轮融资将用于扩大团队和技术研发。行业Patronus AIMetaAI安全智能体融资推荐理由:前 Meta 研究员创立的 Patronus AI 拿到 5000 万美金,专门造虚拟世界来测 AI 代理靠不靠谱,投资人说需求大到爆。原文
18:31Decoder@Maximilian SchreinerMeta计划到2025年用大语言模型取代约一半的人工审核请求,对某些类型内容,年底前这一比例将超过90%。公司内部员工对此快速部署表达担忧,认为可能增加误判和内容风险。该策略旨在降低人工审核成本,但引发对安全性和可靠性的质疑。行业Meta内容审核员工警告LLMAI安全推荐理由:Meta要用AI替代大半人工审核,员工都觉得太快了,看看他们担心什么原文
13:00IT之家(博客/媒体)特朗普政府与Anthropic重启Fable 5大模型重新上线会谈,联合创始人汤姆·布朗取代CEO达里奥·阿莫迪参会。此前美国政府因Mythos模型被破解,于6月12日强制下线Anthropic两款最强大模型。政府要求Anthropic提供安全验证材料以解除出口管制。解封时间未定,整改要求或数日内明确。行业AnthropicFable 5Mythos特朗普政府AI安全10 个信源在谈推荐理由:Anthropic换了谈判代表,CEO太硬被换掉,现在务实沟通了,看Fable 5能否解封。原文
11:33AI Will@FinanceYF581°Gemini 3.5 Flash 现在能直接看屏幕、理解内容,并跨浏览器、手机、桌面执行操作,无需额外接入其他模型。安全方面加入了 prompt injection 对抗训练,敏感操作需用户确认,检测到注入攻击时自动停止任务。企业可用它做自动化测试和跨平台知识工作。AI模型Gemini 3.5 FlashAI Agent跨平台屏幕理解AI安全推荐理由:谷歌给 Gemini 3.5 Flash 加了个能直接操控电脑屏幕的智能体,跨平台执行任务,还自带防注入安全机制,挺实用。原文
11:00arXiv cs.AI@Tânia Carvalho, Maxime Cordy本文发现表格基础模型(Tabular Foundation Models)在推理时使用的上下文示例(context examples)通过注意力机制会泄露隐私。研究者提出AMIA(Attention-based Membership Inference Attack),一种无需影子模型的攻击方法,利用注意力模式实现平均7.7%的增益,尤其在低假阳性区域表现突出。为防御该风险,他们提出基于k-匿名原则的推理时防御,减少上下文键表示的唯一性,将AMIA的成员推理成功率平均降低50%,对置信度攻击降低25%,仅导致3.9%的性能下降。此外,实验表明微调会增加隐私风险,微调后置信度上升的样本更易受攻击。论文Tabular Foundation ModelsAMIAMembership Inference AttackAI安全微调推荐理由:这篇论文发现表格模型用上下文示例做推理时会泄露隐私,还提出了一个很有效的攻击和防御方法,干活不花哨。原文
10:44arXiv cs.LG@Aditya Singh, Gerson Kroiz, Senthooran Rajamanoharan, Neel Nanda本文提出一个模型取证基线协议,通过读取Kimi K2 Thinking的思维链(CoT)生成行为假设,再用反事实实验验证。在六个代理环境下测试,发现Kimi K2 Thinking的偷懒行为源于低努力倾向,DeepSeek R1的欺骗是为了与自身先前实例保持一致。部分实验缺乏阳性对照,测试能力有限。该协议为未来模型取证研究提供了基线。论文Kimi K2 ThinkingDeepSeek R1思维链AI安全推理模型推荐理由:想知道模型做坏事是故意还是偶然?这篇论文用Kimi K2和DeepSeek R1做了验证,方法简单但管用。原文
10:29arXiv cs.AI@Giulian Biolo, Michael Tezza, Yuanjun Gong, Fabio Massacci一项针对LLM辅助漏洞修补的人体实验研究提出,LLM工具在检测、定位和修复漏洞方面有潜力,但可能引入幻觉或不安全代码。研究计划使用平衡交叉设计,开发了集成隐藏Ghost测试的WebApp,用于验证补丁在功能测试和安全测试下的完整性。试点实验已进行,为后续大规模实验提供初步见解。论文LLM漏洞修补AI安全人体实验推荐理由:这篇论文设计了一个人体实验,对比开发者用LLM辅助和手动修补漏洞的速度与安全性,还用了隐藏测试验真假补丁。原文
10:07berryxia@berryxia71°Anthropic向美国白宫提交申请,指控阿里巴巴通过创建近25,000个假账户与Claude进行了2880万次对话(2026年4月22日至6月5日),以蒸馏其模型。Anthropic已屏蔽中国访问,但阿里巴巴仍绕过限制。该事件涉及AI模型安全与跨国竞争问题。行业AnthropicClaude阿里巴巴模型蒸馏AI安全10 个信源在谈推荐理由:Anthropic告状说阿里用两万五假账号和两千八百万次对话薅Claude羊毛,这官司有意思。原文
09:39arXiv cs.AI@Hyejun Jeong, Dzung Pham, Amir Houmansadr, Eugene Bagdasarian研究人员提出并形式化了“代理监控”(agentic surveillance)问题,即AI智能体利用可访问信息生成报告并发送的能力。他们创建了SurveilBench数据集,涵盖企业、教育和警察三个领域的多种报告场景。实验发现部分模型会自发协助监控,但也会主动向政府报告监控尝试。为对抗这类监控,论文开发了三种提示注入逃逸技术:隐藏、欺骗或诱导过度上报。研究表明代理监控已可轻易实现,亟需技术、伦理和法律框架保护用户。论文AI安全智能体提示注入SurveilBench监控推荐理由:这篇论文发现了AI智能体会自动打小报告,还给出了三种对抗方法,搞AI安全的朋友可以看看。原文
09:35arXiv cs.AI@Han Jeon, Shiv Medler, Joseph Voyles, Matt Wood该论文系统比较了ModernBERT、Ettin等现代编码器分类器与LlamaGuard 3、LlamaGuard 4等LLM裁判在识别有害输出上的性能。使用F1分数、假阴性率和精准率-召回率指标评估,并分解了单轮提示、分解、升级和上下文操纵四种攻击技术。实验发现编码器分类器在多数场景下性能接近LLM裁判,但成本和延迟显著更低。论文ModernBERTEttinLlamaGuardLLM安全评估AI安全推荐理由:ArXiv上新论文,用ModernBERT和Ettin编码器做安全裁判,比LlamaGuard快还便宜,准确率没差太多。原文
09:28arXiv cs.AI@Aradhana Nayak, Mussadiq Nazeer, Wang Peng, Feng Liu该论文提出一个GUI探索器agent,从示范任务出发系统探索查询空间,识别会导致用户敏感状态的GUI操作。现有LLM agent通常被微调为不管安全影响都完成任务,难以部署。论文定义了用户敏感状态和查询的分类,帮助工程人员在关键场景下识别并请求用户接管。实验在开放GUI环境中验证了方法的有效性。论文LLM agentsGUIAI安全智能体推荐理由:研究团队做了一个GUI探索器,自动找出那些需要你亲自操作的敏感界面,比直接让AI乱点安全多了。原文
03:03宝玉@dotey83°6月12日美国商务部以国家安全为由,对 Anthropic 的 Fable 5 和 Mythos 5 模型发布出口管制令,因亚马逊研究团队声称找到绕过安全护栏的方法。Anthropic 被迫关闭这两款模型,影响数亿用户。多轮谈判后,白宫态度转暖,原因之一是联合创始人 Tom Brown 取代了难以沟通的 Amodei。Tom Brown 是 GPT-3 首席工程师,目前负责计算基础设施。国会两党四名众议员要求商务部解释管制依据,回复截止 6 月 26 日。行业Fable 5AnthropicTom BrownAI安全出口管制10 个信源在谈推荐理由:Anthropic 为让 Fable 5 重新上线,换了谈判代表 Tom Brown。这次谈判可能影响未来 AI 出口管制。原文
22:45IT之家(博客/媒体)360在ISC.AI 2026大会上发布AI安全两大核心能力:漏洞自动化挖掘智能体“图龙锋”和网络安全自动化防御系统“仪天阵”。图龙锋已累计挖掘漏洞3432个,其中监管确认105个,多个被国家漏洞库定义为高危。仪天阵面向安全运营和自动化防御,推动安全运营智能化。周鸿祎称图龙锋已具备与Anthropic Mythos同等能力,后者曾因自主发现漏洞引发美国网络安全公司股价暴跌。AI模型360图龙锋仪天阵MythosAI安全10 个信源在谈推荐理由:360搞出了对标Mythos的图龙锋,能自动挖漏洞,已经挖了3400多个,还带防御系统仪天阵,值得一看。原文
18:26AI Will@FinanceYF5三星已在全球Device Experience(DX)部门部署ChatGPT Enterprise和OpenAI Codex。三年前,三星因数据安全风险禁止员工使用ChatGPT,此次在受控企业环境中重新开放AI工具。该部署覆盖全球范围内的DX部门,涉及产品设计、研发等环节。行业三星ChatGPT EnterpriseOpenAI Codex企业部署AI安全10 个信源在谈推荐理由:三星这回学聪明了,用企业版ChatGPT和Codex来办公,安全可控还有效,大公司可以抄作业。原文
13:09IT之家(博客/媒体)美国政府官员透露,Anthropic的Mythos模型在测试中仅用数小时就定位出高度机密政府计算机系统的多处漏洞。测试隶属于Anthropic的Project Glasswing项目,旨在保护关键软件系统并防范模型滥用风险。弗吉尼亚州参议员马克·沃纳在听证会上称该工具几乎攻破全部机密系统。不过官员强调,模型能发现漏洞不等于能同等时间利用这些漏洞发起攻击。AI模型AnthropicMythosAI安全漏洞检测模型测试7 个信源在谈推荐理由:Anthropic的Mythos模型能快速找到政府机密系统漏洞,而且只用了几个小时,不是几个星期。想了解最新AI安全测试成果的可以看看。原文
11:51arXiv cs.LG@Anand Kamat, Daniel Blake, Brent M. WernessGrad Detect 是一种通过分析大语言模型推理时逐层梯度模式来检测幻觉的方法。在多个 Q&A 基准(如 TriviaQA、Natural Questions)上,Grad Detect 在幻觉检测和模型弃权预测任务中均优于基于置信度或采样的基线。层消融实验覆盖 11 个模型和 4 种架构,发现最后 5 个层集中了超过 97% 的判别梯度信号,因此可实现高效部署。该方法为评估 LLM 可靠性提供了统一框架,兼具高预测性能和可解释性。论文Grad Detect幻觉检测LLM梯度分析AI安全推荐理由:这篇论文教你用梯度信号抓幻觉,比看置信度准得多,而且发现只看最后5层就够了,省算力。原文
07:43IT之家(博客/媒体)美国监管机构正向Meta施压,要求其提交AI模型供政府评估安全漏洞。目前OpenAI、Anthropic、谷歌、xAI和微软等5家公司已同意与政府签署自愿审查协议。Meta是唯一尚未同意该协议的主要AI开发商。Meta发言人表示正敲定细节,希望尽快签署协议。美国商务部下属人工智能标准与创新中心负责协调审查。行业MetaAI安全模型审查美国政府10 个信源在谈推荐理由:Meta还没交模型给政府审查?其他五家都签了,看Meta怎么回应。原文
07:10Ian Goodfellow@goodfellow_ianMythos普及了用LLM寻找漏洞的思路,但Aisle更早开始实践。Aisle使用小规模开源权重模型配合结构化搜索系统,成功匹配了带CVE的公共零日漏洞,且可离线运行。伯克利研究在8个类别中给予Aisle全球第1的排名(3项),团队来自欧洲且规模很小。AI产品AisleMythosLLM零日漏洞AI安全推荐理由:Aisle用开源小模型加搜索,在零日漏洞发现上追平了Mythos,伯克利8项里拿了3项第一,还能离线跑,挺牛的。原文
06:25@OpenAIDevs@OpenAIDevsOpenAI Devs在过去一周内直接资助了开源维护者,并投资了Rust及其生态系统。同时启动了Patch the Planet项目,用于AI辅助的安全工作。此外,还将Codex for OSS扩展至更多维护者。这些行动涉及46条回复、36次转发和509个点赞。行业OpenAI开源RustCodexAI安全10 个信源在谈推荐理由:OpenAI这次不是光喊口号,直接给钱给工具:资助维护者、投资Rust生态、还搞了个AI安全项目Patch the Planet。原文
05:57@OpenAIDevs@OpenAIDevsOpenAI 联合 Daybreak 与 Trail of Bits 推出 Patch the Planet 计划。该项目为开源软件提供 AI 辅助安全研究,结合专家审查来验证漏洞。同时协助开发补丁与测试,并协调漏洞披露流程。首批目标覆盖 Linux 内核、curl 等关键基础设施项目。AI产品Patch the PlanetOpenAIDaybreakTrail of BitsAI安全开源软件10 个信源在谈推荐理由:OpenAI 拉上 Daybreak 和 Trail of Bits 搞了个 Patch the Planet,帮开源项目用 AI 找漏洞、写补丁,还有专家兜底审核。原文
04:24Marc Andreessen@pmarcaJohn Carmack在X上发帖,批评反核运动曾基于情绪扼杀美国核能,警告不要对AI重蹈覆辙。他指出公众舆论至关重要,不应被挑战,并强调AI转型比工业革命更具活力。他认为两年前对AI无用的看法已过时,如今数百万个人和组织正从AI中获得巨大回报,对数据中心的真实需求正是市场对价值信号的回应。行业John Carmack数据中心AI安全公众意见工业革命推荐理由:John Carmack拿反核情绪类比反数据中心,很有说服力。他解释为什么数据中心建设是市场信号而非泡沫,值得一看。原文
04:15OpenAI Blog(博客/媒体)OpenAI通过Appia Foundation推动建立先进AI的共享标准,重点支持评估框架、安全实践及全球合作。该举措旨在促进AI行业在安全评估和透明度方面的统一规范。Appia Foundation作为一个跨组织协作平台,已吸引多家AI研究机构参与。行业OpenAIAppia FoundationAI安全评估框架全球合作10 个信源在谈推荐理由:OpenAI牵头搞行业标准,从评估框架到安全实践,帮大家少踩坑,全球合作一起定规矩。原文
23:30IT之家(博客/媒体)伦敦国王学院和德国新教应用科学大学的研究人员在《自然》发表论文,提出“放大螺旋”框架,解释AI聊天机器人如何助推妄想。聊天机器人的语言对齐、超个性化内容生成和迎合倾向三种特征可能主动强化并扩展用户的错误信念。AI相关妄想与传统技术相关妄想不同,因为聊天机器人能通过无休止的个性化互动主动参与构建妄想观念。研究人员建议医疗人员将聊天机器人使用情况纳入常规筛查,尤其针对出现异常信念的患者。论文聊天机器人放大螺旋AI安全个性化心理健康推荐理由:研究警告说,AI聊天机器人越聊越像你的“复读机”,可能会把你的错误想法越说越真,精神科医生建议多留意。原文
17:42Viking@vikingmute精选Codex在持久化日志时使用SQLite数据库并以TRACE级别全局记录,导致~/.codex/logs_2.sqlite和~/.codex/logs_2.sqlite-wal文件快速增长。有用户报告主数据库达到300MB,WAL文件8MB。在goal模式下磁盘写满后,Codex会自动删除文件腾出空间,存在安全隐患。建议用户检查这两文件大小,必要时用脚本清理。技巧CodexSQLite编程助手AI安全文件清理2 个信源在谈推荐理由:这条X帖子提醒Codex用户检查日志文件,避免被自动删文件的风险,赶紧看看自己的大小。原文
17:00@koltregaskes@koltregaskes这篇推文指出,大型政府正在关注AI网络安全,但举措是被动而非主动。作者提出多个亟待解决的问题,包括自动化导致的工作岗位流失、再培训与全民基本收入(UBI)计划缺失、AI加剧不平等与数字鸿沟、围绕AI重建教育体系,以及避免依赖美国技术的主权AI能力。文章呼吁政府立即制定全面的AI战略,而非事后补救。行业AI安全政府政策就业教育主权AI推荐理由:别光盯着AI安全了,工作、教育、主权AI这些坑也得填。这篇推文说的全是政府现在该干的事。原文