11:11arXiv cs.LG@Ali Asaria, Tony Salomone, Deep Gandhi精选论文发现消费级Ampere GPU上扩散Transformer的INT8量化常因反量化回bf16而无法利用INT8张量核心。作者为Ideogram 4.0线性层设计了一个融合Triton INT8 GEMM内核,在Ampere张量核心上执行int8×int8→int32,并在epilogue中折叠逐token×逐通道反量化和偏置。该内核实现2.8-4.2倍于bf16的GEMM加速,并保持余弦相似度1.0且无NaN。端到端测试中,在单张RTX 3090上768px分辨率获得约9-10%提速,1024px生成耗时156.5秒,优于NF4(164.5秒)和FP8(172.9秒)基线,且PickScore/CLIPScore无质量损失。论文Ideogram 4.0RTX 3090INT8GEMM推理加速Triton2 个信源在谈推荐理由:INT8反超FP8,单卡RTX 3090跑1024px扩散模型原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……