llms·general

LLMs

别名
首次出现
2026-05-22
最近出现
2026-06-10
累计提及
458
§ 01综述

大型语言模型(LLMs)正从中心化、单线程的架构向边缘部署和并行处理演进,同时安全监控成为关键议题。近期,三项研究分别聚焦于动态安全、高效边缘推理和并行生成能力。

  • 动态安全监控:犹豫感知路由 提出 $D^2$-Monitor,通过分析LLM在生成过程中的“犹豫”信号(如注意力熵变化)来实时检测恶意输入,并利用路由机制将可疑流量导向加强安全模块,实现低开销的动态防护 ($D^2$-Monitor:面向扩散LLM的动态安全监控,基于犹豫感知路由)。
  • 边缘设备高效推理:270M参数Gemma达2000 tokens/s 通过模型量化与硬件协同设计,使小规模LLM在Pixel 7手机上达到每秒处理2000个token的速度,支持实时智能体应用,如本地语音助手和离线任务处理 (TLMs: 270M参数Gemma在Pixel 7上跑2000 tokens/s,边缘设备智能体来了)。
  • 并行流打破单线程瓶颈:Multi-Stream LLMs 引入多流架构,将输入文本拆分为多个并行子流,各流独立处理并最终融合,提升长文本生成与多任务处理效率,实验显示响应时间降低40% (Multi-Stream LLMs:并行流打破语言模型单线程瓶颈)。
  • 当前焦点在于平衡模型能力与部署效率——安全监控需适配边缘场景,并行架构的能耗与一致性仍需优化。未来需关注LLM在终端设备上的自主决策能力及相关伦理约束。

    § 02相关报道07 条在档
    1. 01
      《How LLMs Actually Work》HN 第一,深入浅出讲 Transformer
      Viking
    2. 02
      Google LEAP:让通用LLM形式数学证明成功率从10%飙升至70%
      AI Will
    3. 03
      快速且忠实的函数向量:改进LLM上下文学习中的任务表示
      arXiv cs.LG
    4. 04
      审计金融大模型的资产偏好:以比特币为例
      arXiv cs.LG
    5. 05
      $D^2$-Monitor:面向扩散LLM的动态安全监控,基于犹豫感知路由
      arXiv: OpenAI
    6. 06
      TLMs: 270M参数Gemma在Pixel 7上跑2000 tokens/s,边缘设备智能体来了
      AI Engineer
    7. 07
      Multi-Stream LLMs:并行流打破语言模型单线程瓶颈
      arXiv cs.LG
    § 03邻近话题

    本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

    /topic/LLMs