04:31Latent.Space@latentspacepod73°AMP 创始人 Anjney Midha 在播客中分享 Google 内部将 95% GPU 利用率视为“故障”的标准,指出单纯购买更多 GPU 已非 AI 竞争核心。他介绍 AMP 正推动将 FLOPs 像兆瓦级电力一样调度,并警告数据中心阻力可能成为 AI 最大瓶颈之一。同时分析 Anthropic 通过独特文化和准备在编码领域取得突破,DeepMind 的研究囤积导致市场失灵,强调下一个前沿属于能在计算、资本、文化和科学上“最大化输出”的团队。行业AnthropicDeepMindAMPGPU数据中心计算效率10 个信源在谈推荐理由:想知道为什么买更多 GPU 不灵了?Anthropic 是怎么靠文化和准备搞定编码的?AMP 创始人讲得特别透,全是内行视角的干货。原文
21:43Paul Graham@paulgPaul Graham分享了一个AI创业公司的案例:创始人通过使用GPU硬件,实现了约40%的年化回报率。具体来说,每投入1000美元的硬件成本,每年可产生400美元的收入。这表明AI创业的商业模式已经可以产生可观的硬件投资回报,而不仅仅是烧钱。该案例为AI领域的投资者和创业者提供了积极的信号。行业AI创业GPU投资回报商业模式Paul Graham推荐理由:这个案例直接回答了AI创业能否赚钱的问题——40%的GPU年回报率说明硬件投入可以高效变现,做AI创业或投资的值得细看。原文
13:29xiaomimimo@xiaomimimo88°小米与TileRT AI合作发布MiMo-V2.5-Pro-UltraSpeed,首次在1万亿参数模型上实现超过1000 tokens/s的输出速度。该突破仅使用单个标准8-GPGPU节点,无需Cerebras的晶圆级集成或Groq的纯片上SRAM芯片。技术细节已公开,并提供限时免费试用和API服务。这标志着大模型推理效率的重大飞跃,有望推动实时AI应用的普及。AI产品小米MiMo推理加速大模型GPU推荐理由:大模型推理速度的里程碑——1T模型跑出1000+ tokens/s,做实时AI应用和推理优化的团队值得关注,可以直接申请试用体验。原文
15:44Aadit Sheth@aaditsh72°据一份新文件显示,SpaceX 与 Google 达成协议,从 2026 年 10 月起每月向 Google 提供约 11 万块 NVIDIA GPU 的计算能力,月费高达 9.2 亿美元,合同总额约 300 亿美元。Google 自身拥有 TPU 和庞大云基础设施,却向一家火箭公司租用 GPU,引发行业震动。这可能意味着 Google 的 AI 算力需求已超出自身建设速度,或 SpaceX 在 AI 基础设施方面有未公开的突破。合同允许任何一方在 2026 年 12 月后提前 90 天终止,Google 保留其 AI 模型和数据的知识产权。行业GPU算力租赁GoogleSpaceXNVIDIA8 个信源在谈推荐理由:这则消息揭示了 AI 算力需求已大到连 Google 都要向火箭公司租 GPU,做 AI 基础设施或关注算力瓶颈的从业者值得点开,看看背后到底发生了什么。原文
07:17Gary Marcus@GaryMarcusAI学者Gary Marcus在X上发文讽刺“规模至上”观点,指出去年人们还需从装甲车偷GPU,今年SpaceX却四处出租GPU,暗示xAI未能有效利用这些算力。Marcus以此质疑“规模就是一切”的信仰,认为单纯堆算力并非AI成功的关键。该评论引发对AI发展路径的讨论,尤其是算力分配与模型效率的平衡问题。行业规模至上GPUxAI算力效率AI发展路径6 个信源在谈推荐理由:Marcus用马斯克出租GPU的实例戳破了“规模至上”的泡沫,关注AI算力效率与模型实际价值的团队值得一看,看完会重新思考堆算力的性价比。原文
11:08Fireworks AI@FireworksAI_HQ精选Fireworks AI 发布了 Serverless 2.0,提供三种服务路径:Standard(弹性默认)、Priority(拥堵时最后降级,价格约 1.5 倍)和 Fast(Kimi K2.6 和 GLM 5.1 上超 100 tok/s)。该方案解决了传统 AI 推理中需要预留 GPU 才能保证可靠性的痛点,让开发者按需使用、灵活选择性能与成本。用户无需提前锁定资源即可获得高吞吐和低延迟,降低了 AI 部署的门槛。AI产品FireworksServerless 2.0AI推理GPUKimi K2.6推荐理由:做 AI 推理部署的团队终于不用为可靠性提前锁死 GPU 了——Fireworks 的三种路径按需选,Kimi K2.6 和 GLM 5.1 还能跑 100+ tok/s,值得试试。原文
01:29rohanpaul_ai@rohanpaul_ai83°Kog AI 在 8× AMD MI300X GPU 上实现了 3000 tokens/s 的推理速度,在 8× NVIDIA H200 上达到 2100 tokens/s(FP16,无投机解码)。这一速度比常规低批次解码快 10-30 倍。其核心创新是将 LLM 解码视为内存流问题而非数学问题,通过 monokernel 技术将整个解码过程作为单个持久 GPU 程序运行,消除了内核启动、CPU 调度和中间内存往返的开销。他们还优化了同步机制和内存访问,并设计了 Laneformer 模型使用延迟张量并行技术。目前技术预览基于 2B 模型,但声称可扩展到大型 MoE 模型。AI模型推理优化GPUKog AIAMD MI300XNVIDIA H2005 个信源在谈推荐理由:Kog AI 把 GPU 推理的隐藏效率瓶颈挖出来了,做 LLM 推理优化的开发者可以直接关注他们的技术预览,看看 monokernel 和延迟张量并行能否复现到自己的模型上。原文
08:04rohanpaul_ai@rohanpaul_ai精选Chamath 在 X 上解释了 AI 推理中的两个关键阶段:Prefill 和 Decode。Prefill 阶段是计算密集型,需要大规模并行 GPU,因此随着上下文增长,Nvidia 占据主导。Decode 阶段则受内存带宽限制,因为每个新 token 的生成都依赖于扫描已生成的内容。这一区分揭示了 AI 计算瓶颈的本质,对理解 GPU 架构和推理优化至关重要。行业AI 计算GPUPrefillDecodeNvidia2 个信源在谈推荐理由:搞懂 Prefill 和 Decode 的区别,就能理解为什么 Nvidia 在 AI 推理中不可替代,做 GPU 选型或推理优化的开发者值得细读。原文
19:41rohanpaul_ai@rohanpaul_ai精选Ark Invest CEO Cathie Wood 引用 OpenAI 首席财务官 Sarah Friar 的观点,指出随着 Agentic AI 的兴起,市场对 GPU 的追逐可能忽略了 CPU 的重要性。Agentic AI 的工作模式涉及规划、工具调用、内存检查、文件检索、代码编写和数据库查询等复杂任务,这些任务需要大量通用计算,而 CPU 在这些场景下比 GPU 更高效。这可能导致计算架构从以 GPU 为中心转向 CPU 与 GPU 协同,改变硬件投资方向。行业Agentic AICPUGPU计算架构硬件趋势10 个信源在谈推荐理由:Agentic AI 正在改变计算瓶颈,做 AI 基础设施和推理部署的团队需要重新评估硬件策略——CPU 可能比想象中更重要,值得关注。原文
00:10小互@imxiaohu精选Midjourney创始人公开表示,团队因采用Google TPU进行训练,研究进度相比使用Nvidia GPU技术栈落后约一年。他称如果回到过去,会从一开始就全部使用Nvidia的方案。这一言论反映了大模型训练中硬件生态适配的隐蔽成本。行业MidjourneyGoogleTPUNvidiaGPUAI训练2 个信源在谈推荐理由:创始人亲述选错硬件的代价原文
21:52Julien Chaumond@julien_cHuggingFace 推出硬件趋势页面,展示开源 AI 社区实际使用的 GPU、CPU 型号、VRAM 分布和推理硬件趋势。该页面基于真实社区使用数据,而非厂商宣传或基准测试,帮助开发者了解主流硬件配置。目前数据显示,NVIDIA 的 RTX 4090、A100 等 GPU 占据主导,VRAM 集中在 24GB 以上。这一工具对 AI 开发者选型、部署模型有直接参考价值。行业HuggingFace硬件趋势GPU开源AI社区数据推荐理由:HuggingFace 用真实社区数据告诉你大家都在用什么硬件跑模型,做部署选型的开发者可以直接参考,比看厂商宣传靠谱得多。原文