03:51Greg Brockman@gdbJalapeño是一款全新设计的芯片,专为大语言模型推理优化,开发周期长达九个月。其能效比(perf/watt)根据发布方宣称表现惊人。目前尚未公布具体基准测试数据或对比结果。AI产品JalapeñoLLM推理芯片能效比推荐理由:gdb团队搞了个新芯片Jalapeño,专门跑大模型推理,说能效比特别猛,想了解硬件新动向的可以看看。原文
13:04AK@_akhaliqSpenseGPT提出一种实用的一次性剪枝方法,在LLM推理中同时支持稀疏和密集通用矩阵乘法(GEMM)。该方法无需重新训练,仅通过一次剪枝即可大幅减少模型参数。实验表明,在保持模型精度的前提下,剪枝后模型推理速度提升可达2倍。该技术适用于多种主流LLM架构。论文SpenseGPT剪枝LLM推理GEMM模型压缩推荐理由:一次剪枝,推理快两倍原文
00:20DeepLearning.AI@DeepLearningAIDeepLearning.AI 与 RedHat 合作推出免费短课程《Fast & Efficient LLM Inference with vLLM》,由 Cedric Clyburn 授课。课程涵盖开源 LLM 量化、使用 vLLM 部署模型,以及从速度、成本和准确率三个维度进行基准测试。学员可免费注册学习,适合希望提升 LLM 推理效率的开发者。AI产品vLLMLLM推理模型量化RedHat课程推荐理由:vLLM 是目前最主流的 LLM 推理框架之一,这门课直接教你量化、部署和基准测试,做模型部署或推理优化的工程师值得花时间学。原文
16:44Stanford AI Lab@StanfordAILab斯坦福AI Lab在ICLR 2026上公布了其论文列表,涵盖LLM推理、智能体系统、AI安全、机器人、空间智能、视频生成等多个前沿方向。这些论文代表了该实验室在AI领域的最新研究成果,对学术界和工业界均有重要参考价值。参会者可以现场交流,未参会者也可在线查看论文详情。论文ICLR 2026斯坦福AI LabLLM推理智能体AI安全推荐理由:斯坦福AI Lab的论文列表是了解AI前沿趋势的绝佳窗口,做LLM推理、智能体或AI安全的研究者值得点开看看,说不定能找到灵感或合作方向。原文