10:38arXiv cs.AI@Isaac David, Arthur Gervais精选该研究通过构建包含30个本地漏洞分析任务的轨迹基准,比较了Gemma 4 31B、Gemma 4 26B A4B、Qwen2.5-Coder 7B和Llama 3.1 8B等模型及其未审查/去对齐变体在自主安全智能体场景下的表现。结果显示,Gemma模型的去对齐版本在安全任务上成功率显著提升(31B从0.7%升至14.0%,26B从0.0%升至10.7%),且拒绝率、抑制动作率和危险动作率均为0。但非Gemma模型未呈现一致的去对齐增益,Qwen2.5-Coder去对齐版本成功率反而下降(2.0% vs 5.3%),去对齐的Llama变体则无法通过工具协议。研究强调,安全对齐效果应在系统层面测量,区分拒绝率、不安全动作、工具可靠性和证据基础,而非仅依赖拒绝率。论文安全智能体安全对齐Gemma 4Qwen2.5-CoderLlama 3.11 个信源在谈推荐理由:安全智能体开发者需要了解:去对齐模型在漏洞分析任务上可能提升成功率,但效果因模型而异,且硬核漏洞验证任务仍未解决。建议点开查看具体轨迹数据和任务分类,避免盲目采用去对齐策略。原文
01:46Nathan Lambert: Interconnects@Florian Brand76°过去一个月内,多个重磅开源模型密集发布,包括 Google 的 Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5 和 GLM-5.1 等。这些模型在性能、架构和开源策略上各有突破,标志着开源 AI 生态进入新一轮竞争。CAISI 的 V4 评估报告对这些模型进行了横向对比,揭示了不同模型在推理、多模态和效率上的优劣。对于关注开源模型选型和趋势的开发者与研究者,这是重要的参考节点。AI模型开源模型Gemma 4DeepSeek V4Kimi K2.6模型评估1 个信源在谈推荐理由:开源模型一个月内连发五款旗舰,做模型选型或研究的团队可以直接参考 CAISI 的 V4 评估对比,省去自己跑 benchmark 的时间。原文
01:25berryxia@berryxia精选73°Sebastian Raschka发布《Recent Developments in LLM Architectures》,用可视化方式拆解Gemma 4到DeepSeek V4的硬核优化。文章指出长上下文瓶颈已从“能否支持更多token”转向“如何聪明分配计算”,这些优化已在生产环境落地。正在做长上下文模型、Agent或RAG的团队,这篇文章的视觉图和效率对比特别值得细读。论文长上下文架构优化Gemma 4DeepSeek V4效率对比1 个信源在谈推荐理由:长上下文竞争已从堆token转向架构优化,做Agent或RAG的团队可以从Gemma 4到DeepSeek V4的真实方案中直接借鉴效率提升思路。原文
18:18berryxia@berryxiaoMLX 0.3.9.dev2 版本发布,针对 Apple Silicon 设备优化,集成了 Gemma 4 的 MTP 视觉路径、DFlash 引擎和 ParoQuant,显著提升图文解码速度。新增 ombx launch copilot 功能,可一键接入 Claude、Codex 等工具;oQ 自动代理解决显存不足问题,管理界面增加重启服务器按钮。作者认为苹果端侧 AI 在速度、集成度和易用性上已接近甚至超越云端大模型,真正将 AI 从云端拉回本地。AI产品端侧AIApple SiliconoMLXGemma 4本地推理1 个信源在谈推荐理由:oMLX 这次更新把 Gemma 4 的视觉路径和 DFlash 引擎塞进 Apple Silicon,图文解码速度明显提升,做本地 AI 开发的 Mac 用户可以直接体验,看看端侧能否替代云端。原文
00:33Google Developers Blog(博客/媒体)Google DeepMind推出Gemma 4系列开源模型,专为在设备端实现多步规划和自主智能体工作流而设计。该系列包含Google AI Edge Gallery供开发者实验“Agent Skills”,以及LiteRT-LM库,提供显著的速度提升和结构化输出。Gemma 4采用Apache 2.0许可,支持140多种语言,兼容移动设备、桌面电脑和Raspberry Pi等IoT平台。AI模型智能体Gemma 4边缘计算开源/仓库多模态1 个信源在谈推荐理由:此发布将前沿的智能体能力带入低功耗设备,为边缘AI应用(如本地化助手和离线自动化)提供了新的可能性,对开发者社区和物联网领域具有实际参考价值。原文