大语言模型(LLM)的近期发展呈现出两条主线:一是硬件厂商的军备竞赛,为更大规模模型部署提供算力支撑;二是研究社区对LLM能力边界与安全性的深度拷问。
硬件方面,消费级与云侧算力同步升级。极摩客推出搭载锐龙AI Max+ 495的迷你主机,支持192GB内存,将本地LLM运行门槛进一步降低。同时,LG宣布采购1万块英伟达Blackwell GPU,称其为迄今最大规模GPU交易,凸显企业级训练与推理需求的暴增。Pinterest则为AI服务引入亚马逊AWS Trainium芯片,展示云巨头专用芯片的渗透。
在能力评测层面,多项研究直指LLM的脆弱性。腾讯混元开源PlanningBench,一个可扩展的规划能力评估框架,专门测试模型在复杂任务中的步骤序列推理。arXiv上的一项研究则让LLM“掷骰子”——实验表明,模型在概率推理任务中(如判断随机事件的可能性)表现极不稳定,容易受表面模式干扰。另一项土耳其语多词表达分类研究对比了监督学习与上下文学习,发现示例学习在低资源语言中仍有明显短板。
安全性方面,NVIDIA推出garak教程,指导构建防御性红队工作流,涵盖自定义探针和检测器,反映业界对LLM安全漏洞的持续关注。Google的LEAP方法则展示了通用LLM在形式数学证明上的飞跃——成功率从10%飙升至70%,暗示通过专门训练或推理策略可大幅提升模型在严格逻辑领域的表现。
当前焦点集中在:硬件的激增是否能同步解决LLM在规划、概率推理、低资源语言理解等方面的深层不足?未来需观察硬件与算法的协同演进,以及安全框架能否跟上模型能力增长速度。