AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:Llama 3.1×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
19:46
19:46Decoder@Jonathan Kemper
爱沙尼亚语言研究所发布了一项基准测试,用于评估AI语言模型对俄语宣传的抵抗力。测试涵盖了GPT-4o、Claude 3.5 Sonnet、Llama 3.1等8个模型,发现部分模型在30%的测试样本中会生成亲俄内容。Meta的Llama 3.1 70B表现最差,错误生成率高达42%;而OpenAI的GPT-4o错误率最低,仅为12%。该基准测试还包含一个包含1000个样本的俄语宣传语料库,用于衡量模型对政治操纵的脆弱性。
AI模型GPT-4oClaude 3.5 SonnetLlama 3.1AI安全基准测试

推荐理由:想知道你用的AI会不会被俄语宣传带跑偏?爱沙尼亚语言研究所测了8个主流模型,GPT-4o最扛打,Llama 3.1中招率最高。看看你的AI排第几。
原文
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月8日
19:06
19:06AI Will@FinanceYF5
精选
西班牙 Multiverse Computing 的 Aizpurua 团队提出一种新方法,利用小块量子电路为预训练大模型扩容,而非堆叠参数。他们仅给 Llama 3.1 8B 模型增加约 6000 个参数(不到原模型万分之一),便使困惑度降低 1.4%。量子部分运行在 IBM 156 比特处理器上。团队表示增益尚小,但已证明该方法的可行性,为未来量子与经典模型结合提供了新思路。
论文量子计算模型扩容Llama 3.1Multiverse Computing低参数优化

推荐理由:这项研究为 AI 模型扩容提供了非传统路径——用量子电路替代参数堆叠,做模型压缩或效率优化的研究者值得关注,它可能开启低资源提升模型性能的新方向。
原文
5月20日
10:38
10:38arXiv cs.AI@Isaac David, Arthur Gervais
精选
该研究通过构建包含30个本地漏洞分析任务的轨迹基准,比较了Gemma 4 31B、Gemma 4 26B A4B、Qwen2.5-Coder 7B和Llama 3.1 8B等模型及其未审查/去对齐变体在自主安全智能体场景下的表现。结果显示,Gemma模型的去对齐版本在安全任务上成功率显著提升(31B从0.7%升至14.0%,26B从0.0%升至10.7%),且拒绝率、抑制动作率和危险动作率均为0。但非Gemma模型未呈现一致的去对齐增益,Qwen2.5-Coder去对齐版本成功率反而下降(2.0% vs 5.3%),去对齐的Llama变体则无法通过工具协议。研究强调,安全对齐效果应在系统层面测量,区分拒绝率、不安全动作、工具可靠性和证据基础,而非仅依赖拒绝率。
论文安全智能体安全对齐Gemma 4Qwen2.5-CoderLlama 3.1

推荐理由:安全智能体开发者需要了解:去对齐模型在漏洞分析任务上可能提升成功率,但效果因模型而异,且硬核漏洞验证任务仍未解决。建议点开查看具体轨迹数据和任务分类,避免盲目采用去对齐策略。
原文
精选全部日报登录