fp16 · AI 话题观测

§ 01综述

FP16（16位浮点数）是一种半精度浮点格式，在AI领域用于混合精度训练和推理，能在牺牲少量精度的情况下显著降低显存占用并提升计算速度。近期，FP16在量化、内存优化及硬件基准测试中展现出新的应用价值。

FP16近期进展

Milvus 用 FP16 + mmap 在不到 1GB 内存中运行 2500 万向量：向量数据库 Milvus 通过将向量存储从 FP32 切换为 FP16，并结合内存映射（mmap）技术，使得在不足 1GB 内存下即可查询 2500 万维度的向量数据集，展示了 FP16 在大规模检索中的内存效率优势。原文标题

英特尔 Arc Pro B70 推理 DeepSeek R1 吞吐达 2320.76 token/s，超 RTX 5090D：在 DeepSeek R1 推理基准中，英特尔 Arc Pro B70 凭借 FP16 计算实现了 2320.76 token/s 的吞吐量，超过 RTX 5090D 约 10%，表明硬件对 FP16 的优化可带来实际性能飞跃。原文标题

Qwen3 2-bit 推理失败模式与恢复：FP16 规划+循环救援提分至 87.2%：针对 2-bit 量化模型推理准确率下降的问题，研究者通过先用 FP16 进行规划（planning），再在推理循环中结合救助机制，将 Qwen3 的得分从低点恢复至 87.2%，凸显 FP16 在混合精度推理中的“校准”角色。原文标题

Ternary Mamba：基于预训练检查点的分组 QAT 实现 W1.58A16 量化：该工作采用分组量化感知训练（QAT），将权重压缩至 1.58 比特，而激活保持为 FP16（A16），在 Mamba 模型上实现了极低比特量化，同时利用 FP16 激活维持输出精度。原文标题

当前焦点与观察点

FP16 正从单纯的内存优化手段演变为混合精度推理的核心组件。一方面，在极端量化（如 2-bit、1-bit）场景中，FP16 常被用作“锚点”或“规划器”来补偿精度损失；另一方面，硬件厂商通过推理引擎的 FP16 优化来拉开性能差距。然而 FP16 的稳定性仍需关注：多个报道显示，不当的 FP16 使用可能导致梯度消失或推理失败，因此需要结合量化感知训练或动态 rescaling 来规避问题。未来，随着 BFloat16、FP8 等格式的普及，FP16 的角色可能进一步细分，但其在兼容性与精度间的平衡短期内仍难以被完全替代。

§ 02相关报道10 条在档

§ 03邻近话题