全部 AI 动态 · AI 热点

5月20日

10:38

10:38

arXiv cs.AI@Isaac David, Arthur Gervais

精选

该研究通过构建包含30个本地漏洞分析任务的轨迹基准，比较了Gemma 4 31B、Gemma 4 26B A4B、Qwen2.5-Coder 7B和Llama 3.1 8B等模型及其未审查/去对齐变体在自主安全智能体场景下的表现。结果显示，Gemma模型的去对齐版本在安全任务上成功率显著提升（31B从0.7%升至14.0%，26B从0.0%升至10.7%），且拒绝率、抑制动作率和危险动作率均为0。但非Gemma模型未呈现一致的去对齐增益，Qwen2.5-Coder去对齐版本成功率反而下降（2.0% vs 5.3%），去对齐的Llama变体则无法通过工具协议。研究强调，安全对齐效果应在系统层面测量，区分拒绝率、不安全动作、工具可靠性和证据基础，而非仅依赖拒绝率。

论文安全智能体安全对齐 Gemma 4 Qwen2.5-Coder Llama 3.1

推荐理由：安全智能体开发者需要了解：去对齐模型在漏洞分析任务上可能提升成功率，但效果因模型而异，且硬核漏洞验证任务仍未解决。建议点开查看具体轨迹数据和任务分类，避免盲目采用去对齐策略。

5月17日

01:46

01:46

Nathan Lambert: Interconnects@Florian Brand

76°

过去一个月内，多个重磅开源模型密集发布，包括 Google 的 Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5 和 GLM-5.1 等。这些模型在性能、架构和开源策略上各有突破，标志着开源 AI 生态进入新一轮竞争。CAISI 的 V4 评估报告对这些模型进行了横向对比，揭示了不同模型在推理、多模态和效率上的优劣。对于关注开源模型选型和趋势的开发者与研究者，这是重要的参考节点。

AI模型开源模型 Gemma 4 DeepSeek V4 Kimi K2.6 模型评估

推荐理由：开源模型一个月内连发五款旗舰，做模型选型或研究的团队可以直接参考 CAISI 的 V4 评估对比，省去自己跑 benchmark 的时间。

01:25

01:25

berryxia@berryxia

精选73°

Sebastian Raschka发布《Recent Developments in LLM Architectures》，用可视化方式拆解Gemma 4到DeepSeek V4的硬核优化。文章指出长上下文瓶颈已从“能否支持更多token”转向“如何聪明分配计算”，这些优化已在生产环境落地。正在做长上下文模型、Agent或RAG的团队，这篇文章的视觉图和效率对比特别值得细读。

论文长上下文架构优化 Gemma 4 DeepSeek V4 效率对比

推荐理由：长上下文竞争已从堆token转向架构优化，做Agent或RAG的团队可以从Gemma 4到DeepSeek V4的真实方案中直接借鉴效率提升思路。

5月13日

18:18

18:18

berryxia@berryxia

oMLX 0.3.9.dev2 版本发布，针对 Apple Silicon 设备优化，集成了 Gemma 4 的 MTP 视觉路径、DFlash 引擎和 ParoQuant，显著提升图文解码速度。新增 ombx launch copilot 功能，可一键接入 Claude、Codex 等工具；oQ 自动代理解决显存不足问题，管理界面增加重启服务器按钮。作者认为苹果端侧 AI 在速度、集成度和易用性上已接近甚至超越云端大模型，真正将 AI 从云端拉回本地。

AI产品端侧AI Apple Silicon oMLX Gemma 4 本地推理

推荐理由：oMLX 这次更新把 Gemma 4 的视觉路径和 DFlash 引擎塞进 Apple Silicon，图文解码速度明显提升，做本地 AI 开发的 Mac 用户可以直接体验，看看端侧能否替代云端。

00:33

00:33Google Developers Blog（博客/媒体）

Google DeepMind推出Gemma 4系列开源模型，专为在设备端实现多步规划和自主智能体工作流而设计。该系列包含Google AI Edge Gallery供开发者实验“Agent Skills”，以及LiteRT-LM库，提供显著的速度提升和结构化输出。Gemma 4采用Apache 2.0许可，支持140多种语言，兼容移动设备、桌面电脑和Raspberry Pi等IoT平台。

AI模型智能体 Gemma 4 边缘计算开源/仓库多模态

推荐理由：此发布将前沿的智能体能力带入低功耗设备，为边缘AI应用（如本地化助手和离线自动化）提供了新的可能性，对开发者社区和物联网领域具有实际参考价值。