19:46Decoder@Jonathan Kemper爱沙尼亚语言研究所发布了一项基准测试,用于评估AI语言模型对俄语宣传的抵抗力。测试涵盖了GPT-4o、Claude 3.5 Sonnet、Llama 3.1等8个模型,发现部分模型在30%的测试样本中会生成亲俄内容。Meta的Llama 3.1 70B表现最差,错误生成率高达42%;而OpenAI的GPT-4o错误率最低,仅为12%。该基准测试还包含一个包含1000个样本的俄语宣传语料库,用于衡量模型对政治操纵的脆弱性。AI模型GPT-4oClaude 3.5 SonnetLlama 3.1AI安全基准测试10 个信源在谈推荐理由:想知道你用的AI会不会被俄语宣传带跑偏?爱沙尼亚语言研究所测了8个主流模型,GPT-4o最扛打,Llama 3.1中招率最高。看看你的AI排第几。原文
19:06AI Will@FinanceYF5精选西班牙 Multiverse Computing 的 Aizpurua 团队提出一种新方法,利用小块量子电路为预训练大模型扩容,而非堆叠参数。他们仅给 Llama 3.1 8B 模型增加约 6000 个参数(不到原模型万分之一),便使困惑度降低 1.4%。量子部分运行在 IBM 156 比特处理器上。团队表示增益尚小,但已证明该方法的可行性,为未来量子与经典模型结合提供了新思路。论文量子计算模型扩容Llama 3.1Multiverse Computing低参数优化推荐理由:这项研究为 AI 模型扩容提供了非传统路径——用量子电路替代参数堆叠,做模型压缩或效率优化的研究者值得关注,它可能开启低资源提升模型性能的新方向。原文
10:38arXiv cs.AI@Isaac David, Arthur Gervais精选该研究通过构建包含30个本地漏洞分析任务的轨迹基准,比较了Gemma 4 31B、Gemma 4 26B A4B、Qwen2.5-Coder 7B和Llama 3.1 8B等模型及其未审查/去对齐变体在自主安全智能体场景下的表现。结果显示,Gemma模型的去对齐版本在安全任务上成功率显著提升(31B从0.7%升至14.0%,26B从0.0%升至10.7%),且拒绝率、抑制动作率和危险动作率均为0。但非Gemma模型未呈现一致的去对齐增益,Qwen2.5-Coder去对齐版本成功率反而下降(2.0% vs 5.3%),去对齐的Llama变体则无法通过工具协议。研究强调,安全对齐效果应在系统层面测量,区分拒绝率、不安全动作、工具可靠性和证据基础,而非仅依赖拒绝率。论文安全智能体安全对齐Gemma 4Qwen2.5-CoderLlama 3.11 个信源在谈推荐理由:安全智能体开发者需要了解:去对齐模型在漏洞分析任务上可能提升成功率,但效果因模型而异,且硬核漏洞验证任务仍未解决。建议点开查看具体轨迹数据和任务分类,避免盲目采用去对齐策略。原文