精选 AI 资讯 · AI 热点

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？

5月15日

09:53

09:53

arXiv cs.AI@Thomas Witt

精选73°

XFP是一种针对大语言模型推理的动态权重量化器，它颠覆了传统工作流：用户只需指定每通道余弦相似度的重建质量阈值（注意力与共享专家用严格阈值，路由专家MoE用宽松阈值），XFP自动确定码本大小、异常值预算和每层打包方式，无需Hessian矩阵、校准数据或手动位宽选择。每个权重矩阵被分解为稀疏fp16异常值残差和密集的子字节索引张量（指向每组的可学习码本）。在Qwen3.5-122B-A10B模型上，XFP在RTX PRO 6000 Blackwell工作站上实现138 tok/s单流解码，GSM8K准确率94.49%，比Marlin INT4快49%。对于无法装入目标内存的模型，XFP提出H-Process：通过迭代两个余弦阈值找到刚好能装入模型且输出合理的操作点。在Qwen3.5-397B-A17B上，H-Process将全部专家装入2×96 GB内存（约3.4有效比特），实现100.9 tok/s长输出解码，GSM8K准确率66.72%，在内存、吞吐量和准确率上同时超越带路由专家剪枝的INT4。

论文量化 LLM推理码本量化异常值分离 XFP

推荐理由：XFP解决了LLM量化中手动调参和校准数据依赖的痛点，做模型部署和推理优化的团队可以直接用上自动化的高质量量化方案，省去大量调参时间。