№llms·general
LLMs
别名
- 首次出现
- 2026-05-22
- 最近出现
- 2026-06-10
- 累计提及
- 458
§ 01综述
大型语言模型(LLMs)正从中心化、单线程的架构向边缘部署和并行处理演进,同时安全监控成为关键议题。近期,三项研究分别聚焦于动态安全、高效边缘推理和并行生成能力。
动态安全监控:犹豫感知路由 提出 $D^2$-Monitor,通过分析LLM在生成过程中的“犹豫”信号(如注意力熵变化)来实时检测恶意输入,并利用路由机制将可疑流量导向加强安全模块,实现低开销的动态防护 ($D^2$-Monitor:面向扩散LLM的动态安全监控,基于犹豫感知路由)。
边缘设备高效推理:270M参数Gemma达2000 tokens/s 通过模型量化与硬件协同设计,使小规模LLM在Pixel 7手机上达到每秒处理2000个token的速度,支持实时智能体应用,如本地语音助手和离线任务处理 (TLMs: 270M参数Gemma在Pixel 7上跑2000 tokens/s,边缘设备智能体来了)。
并行流打破单线程瓶颈:Multi-Stream LLMs 引入多流架构,将输入文本拆分为多个并行子流,各流独立处理并最终融合,提升长文本生成与多任务处理效率,实验显示响应时间降低40% (Multi-Stream LLMs:并行流打破语言模型单线程瓶颈)。
当前焦点在于平衡模型能力与部署效率——安全监控需适配边缘场景,并行架构的能耗与一致性仍需优化。未来需关注LLM在终端设备上的自主决策能力及相关伦理约束。