LLM智能体

§ 01综述

LLM智能体正从概念验证走向实际应用，同时暴露出一系列新挑战。近期研究集中在三个方向：自主能力提升、安全与对齐、以及特定领域的部署。

自主能力与自我改进：多个工作致力于让智能体在测试时自我优化。例如，EEVEE提出首个面向真实世界的测试时提示学习框架，允许LLM智能体在推理过程中动态调整行为（EEVEE：首个面向真实世界的测试时提示学习框架，让LLM智能体自我改进）。Role-Agent则通过双角色演进（角色扮演与角色反思）实现自我进化，无需人工干预（Role-Agent：通过双角色演进让LLM智能体自我进化）。MemoPilot引入强化学习优化记忆更新策略，提升长周期学习表现（MemoPilot：用强化学习优化LLM智能体记忆更新，提升测试时学习能力）。然而，一项分析提醒：智能体的记忆机制仍不可靠，反复重写记忆可能使性能更差（LLM智能体记忆不可靠：反复重写反而更糟）。

安全与评估：随着智能体能力增长，安全评估成为焦点。ABC-Bench专门评估LLM智能体在生物安全方面的能力，是首个系统化基准（ABC-Bench：评估LLM智能体的生物安全能力基准）。VESTA框架则实现全自动场景生成与安全评估，助力防护措施开发（VESTA：LLM 智能体全自动场景生成与安全评估框架）。

新应用场景：智能体正进入更多专业领域。神经符号智能体被用于监管流程自动化，结合符号推理与神经网络（神经符号智能体用于监管流程自动化：挑战与研究议程）。LLM自主设计变分量子电路，展示了在量子计算中的潜力（LLM自主设计变分量子电路框架）。Trellis系统则让智能体自动化Lean形式化证明，有望提升数学验证效率（Trellis：用LLM智能体实现Lean自动形式化证明）。

当前焦点在于平衡自主性与可靠性：智能体需在持续自我进化中避免记忆污染或行为失控。未来观察点包括：多智能体协同场景下的安全控制、自我改进机制的泛化性，以及如何在保持性能的同时降低计算开销。

§ 02相关报道10 条在档

§ 03邻近话题