全部 AI 动态 · AI 热点

6月19日

04:31

04:31

Latent.Space@latentspacepod

73°

AMP 创始人 Anjney Midha 在播客中分享 Google 内部将 95% GPU 利用率视为“故障”的标准，指出单纯购买更多 GPU 已非 AI 竞争核心。他介绍 AMP 正推动将 FLOPs 像兆瓦级电力一样调度，并警告数据中心阻力可能成为 AI 最大瓶颈之一。同时分析 Anthropic 通过独特文化和准备在编码领域取得突破，DeepMind 的研究囤积导致市场失灵，强调下一个前沿属于能在计算、资本、文化和科学上“最大化输出”的团队。

行业 Anthropic DeepMind AMP GPU 数据中心计算效率

推荐理由：想知道为什么买更多 GPU 不灵了？Anthropic 是怎么靠文化和准备搞定编码的？AMP 创始人讲得特别透，全是内行视角的干货。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

21:43

21:43

Paul Graham@paulg

Paul Graham分享了一个AI创业公司的案例：创始人通过使用GPU硬件，实现了约40%的年化回报率。具体来说，每投入1000美元的硬件成本，每年可产生400美元的收入。这表明AI创业的商业模式已经可以产生可观的硬件投资回报，而不仅仅是烧钱。该案例为AI领域的投资者和创业者提供了积极的信号。

行业 AI创业 GPU 投资回报商业模式 Paul Graham

推荐理由：这个案例直接回答了AI创业能否赚钱的问题——40%的GPU年回报率说明硬件投入可以高效变现，做AI创业或投资的值得细看。

6月9日

13:29

13:29

xiaomimimo@xiaomimimo

88°

小米与TileRT AI合作发布MiMo-V2.5-Pro-UltraSpeed，首次在1万亿参数模型上实现超过1000 tokens/s的输出速度。该突破仅使用单个标准8-GPGPU节点，无需Cerebras的晶圆级集成或Groq的纯片上SRAM芯片。技术细节已公开，并提供限时免费试用和API服务。这标志着大模型推理效率的重大飞跃，有望推动实时AI应用的普及。

AI产品小米 MiMo 推理加速大模型 GPU

推荐理由：大模型推理速度的里程碑——1T模型跑出1000+ tokens/s，做实时AI应用和推理优化的团队值得关注，可以直接申请试用体验。

6月6日

15:44

15:44

Aadit Sheth@aaditsh

72°

据一份新文件显示，SpaceX 与 Google 达成协议，从 2026 年 10 月起每月向 Google 提供约 11 万块 NVIDIA GPU 的计算能力，月费高达 9.2 亿美元，合同总额约 300 亿美元。Google 自身拥有 TPU 和庞大云基础设施，却向一家火箭公司租用 GPU，引发行业震动。这可能意味着 Google 的 AI 算力需求已超出自身建设速度，或 SpaceX 在 AI 基础设施方面有未公开的突破。合同允许任何一方在 2026 年 12 月后提前 90 天终止，Google 保留其 AI 模型和数据的知识产权。

行业 GPU 算力租赁 Google SpaceX NVIDIA

推荐理由：这则消息揭示了 AI 算力需求已大到连 Google 都要向火箭公司租 GPU，做 AI 基础设施或关注算力瓶颈的从业者值得点开，看看背后到底发生了什么。

07:17

07:17

Gary Marcus@GaryMarcus

AI学者Gary Marcus在X上发文讽刺“规模至上”观点，指出去年人们还需从装甲车偷GPU，今年SpaceX却四处出租GPU，暗示xAI未能有效利用这些算力。Marcus以此质疑“规模就是一切”的信仰，认为单纯堆算力并非AI成功的关键。该评论引发对AI发展路径的讨论，尤其是算力分配与模型效率的平衡问题。

行业规模至上 GPU xAI 算力效率 AI发展路径

推荐理由：Marcus用马斯克出租GPU的实例戳破了“规模至上”的泡沫，关注AI算力效率与模型实际价值的团队值得一看，看完会重新思考堆算力的性价比。

5月30日

11:08

11:08

Fireworks AI@FireworksAI_HQ

精选

Fireworks AI 发布了 Serverless 2.0，提供三种服务路径：Standard（弹性默认）、Priority（拥堵时最后降级，价格约 1.5 倍）和 Fast（Kimi K2.6 和 GLM 5.1 上超 100 tok/s）。该方案解决了传统 AI 推理中需要预留 GPU 才能保证可靠性的痛点，让开发者按需使用、灵活选择性能与成本。用户无需提前锁定资源即可获得高吞吐和低延迟，降低了 AI 部署的门槛。

AI产品 Fireworks Serverless 2.0 AI推理 GPU Kimi K2.6

推荐理由：做 AI 推理部署的团队终于不用为可靠性提前锁死 GPU 了——Fireworks 的三种路径按需选，Kimi K2.6 和 GLM 5.1 还能跑 100+ tok/s，值得试试。

01:29

01:29

rohanpaul_ai@rohanpaul_ai

83°

Kog AI 在 8× AMD MI300X GPU 上实现了 3000 tokens/s 的推理速度，在 8× NVIDIA H200 上达到 2100 tokens/s（FP16，无投机解码）。这一速度比常规低批次解码快 10-30 倍。其核心创新是将 LLM 解码视为内存流问题而非数学问题，通过 monokernel 技术将整个解码过程作为单个持久 GPU 程序运行，消除了内核启动、CPU 调度和中间内存往返的开销。他们还优化了同步机制和内存访问，并设计了 Laneformer 模型使用延迟张量并行技术。目前技术预览基于 2B 模型，但声称可扩展到大型 MoE 模型。

AI模型推理优化 GPU Kog AI AMD MI300X NVIDIA H200

推荐理由：Kog AI 把 GPU 推理的隐藏效率瓶颈挖出来了，做 LLM 推理优化的开发者可以直接关注他们的技术预览，看看 monokernel 和延迟张量并行能否复现到自己的模型上。

5月25日

08:04

08:04

rohanpaul_ai@rohanpaul_ai

精选

Chamath 在 X 上解释了 AI 推理中的两个关键阶段：Prefill 和 Decode。Prefill 阶段是计算密集型，需要大规模并行 GPU，因此随着上下文增长，Nvidia 占据主导。Decode 阶段则受内存带宽限制，因为每个新 token 的生成都依赖于扫描已生成的内容。这一区分揭示了 AI 计算瓶颈的本质，对理解 GPU 架构和推理优化至关重要。

行业 AI 计算 GPU Prefill Decode Nvidia

推荐理由：搞懂 Prefill 和 Decode 的区别，就能理解为什么 Nvidia 在 AI 推理中不可替代，做 GPU 选型或推理优化的开发者值得细读。

5月23日

19:41

19:41

rohanpaul_ai@rohanpaul_ai

精选

Ark Invest CEO Cathie Wood 引用 OpenAI 首席财务官 Sarah Friar 的观点，指出随着 Agentic AI 的兴起，市场对 GPU 的追逐可能忽略了 CPU 的重要性。Agentic AI 的工作模式涉及规划、工具调用、内存检查、文件检索、代码编写和数据库查询等复杂任务，这些任务需要大量通用计算，而 CPU 在这些场景下比 GPU 更高效。这可能导致计算架构从以 GPU 为中心转向 CPU 与 GPU 协同，改变硬件投资方向。

行业 Agentic AI CPU GPU 计算架构硬件趋势

推荐理由：Agentic AI 正在改变计算瓶颈，做 AI 基础设施和推理部署的团队需要重新评估硬件策略——CPU 可能比想象中更重要，值得关注。

5月21日

00:10

00:10

小互@imxiaohu

精选

Midjourney创始人公开表示，团队因采用Google TPU进行训练，研究进度相比使用Nvidia GPU技术栈落后约一年。他称如果回到过去，会从一开始就全部使用Nvidia的方案。这一言论反映了大模型训练中硬件生态适配的隐蔽成本。

行业 Midjourney Google TPU Nvidia GPU AI训练

推荐理由：创始人亲述选错硬件的代价

5月20日

21:52

21:52

Julien Chaumond@julien_c

HuggingFace 推出硬件趋势页面，展示开源 AI 社区实际使用的 GPU、CPU 型号、VRAM 分布和推理硬件趋势。该页面基于真实社区使用数据，而非厂商宣传或基准测试，帮助开发者了解主流硬件配置。目前数据显示，NVIDIA 的 RTX 4090、A100 等 GPU 占据主导，VRAM 集中在 24GB 以上。这一工具对 AI 开发者选型、部署模型有直接参考价值。

行业 HuggingFace 硬件趋势 GPU 开源AI 社区数据

推荐理由：HuggingFace 用真实社区数据告诉你大家都在用什么硬件跑模型，做部署选型的开发者可以直接参考，比看厂商宣传靠谱得多。