TLMs: 边缘设备上的 Tiny LLMs 与智能体

TLMs: Tiny LLMs and Agents on Edge Devices with @cormacb https://t.co/u0fHD7j5kZ Function Gemma s...

精选理由

边缘设备上跑 LLM 和智能体终于有了可落地的方案——2.7 亿参数的 Function Gemma 在手机上就能达到 90%+ 准确率,做移动端 AI 应用的开发者可以直接参考其微调路径和架构设计。

AI 摘要

TLMs 项目展示了如何在边缘设备上运行小型语言模型和智能体。其中 Function Gemma 模型仅有 2.7 亿参数,在 Pixel 7 上预填充速度接近每秒 2000 token,开箱即用对固定应用意图的准确率达 46%。通过合成数据集微调后,在十个函数中的八个上准确率超过 90%。Cormac 介绍了两种设备端 AI 路径:基于 Gemma 4 的技能框架(含全设备端运行的餐厅轮盘演示)和 Eloquent 转录应用(通过串联两个子十亿参数模型构建)。

AI 翻译 · 中文

TLMs 项目展示了如何在边缘设备上运行小型语言模型和智能体。其中 Function Gemma 模型仅有 2.7 亿参数,在 Pixel 7 上预填充速度接近每秒 2000 token,开箱即用对固定应用意图的准确率达 46%。通过合成数据集微调后,在十个函数中的八个上准确率超过 90%。Cormac 介绍了两种设备端 AI 路径:基于 Gemma 4 的技能框架(含全设备端运行的餐厅轮盘演示)和 Eloquent 转录应用(通过串联两个子十亿参数模型构建)。

AI EngineerTLMs: Tiny LLMs and Agents on Edge Devices with @cormacb youtube.com/watch?v=-TiET_… Function Gemma ships at 270 million parameters and runs nearly 2,000 tokens per second prefill on a Pixel 7. Out of the box, it hits 46