17:06IT之家(博客/媒体)联想昨日在北京发布问天超节点算力解决方案,单节点可搭载40张GPU,FP8算力超过28 PFLOPS,HBM显存突破5.76 TB,满足万亿参数大模型训练与推理。该方案访存总带宽超80TB/s,百纳秒级芯片P2P单向时延,破解万卡级集群通信瓶颈。单节点支持40卡并向下兼容32卡,采用无线缆正交直插架构,集群部署周期压缩至数小时。同时发布万全异构智算平台V5.0,通过分层解耦PD分离和KV Cache共享缓存等技术提升训推性能。AI产品联想问天GPUFP8推理模型推荐理由:联想新方案单节点塞40张GPU,FP8算力28 PFLOPS,专为万亿参数大模型打造,部署快、扩展灵活,适合大规模训练和推理。原文
17:21IT之家(博客/媒体)根据ISC2025最新TOP500榜单,英伟达技术为全球500台最快超算中的400多台提供支持,占比81%。其中238台使用英伟达GPU,376台使用其网络连接技术,绝大多数依赖NVIDIA Quantum InfiniBand。已有26台顶级超算采用英伟达Grace CPU,较上次增加8台,出货量接近250万个。在Green500最节能排名中,前八名全部搭载英伟达GPU,前十名有九台采用英伟达技术。榜首KAIROS是法国图卢兹大学的NVIDIA Grace Hopper系统,每瓦性能达73.3 gigaflops。行业英伟达HPC超级计算机GPUGrace CPU7 个信源在谈推荐理由:英伟达在超算领域又刷屏了:TOP500里81%用他们的技术,Green500前8名全被英伟达GPU包揽。原文
16:43pandaily@contact@pandaily.com (Pandaily)摩尔线程与 SGLang 社区在首次线下见面会上宣布,MUSA 后端已合并入 SGLang 主线。该合并使 SGLang 能够原生支持摩尔线程 GPU,不再依赖 CUDA。此次 Meetup 聚焦中国开源 AI 生态的 GPU 兼容性与性能优化。此举为国内开发者提供了更低门槛的国产 GPU 推理方案。行业SGLangMUSA摩尔线程GPU开源生态推荐理由:想用国产GPU跑大模型?摩尔线程和SGLang把MUSA后端合到主线了,以后直接用,不用再折腾CUDA转译。原文
04:31Latent.Space@latentspacepod73°AMP 创始人 Anjney Midha 在播客中分享 Google 内部将 95% GPU 利用率视为“故障”的标准,指出单纯购买更多 GPU 已非 AI 竞争核心。他介绍 AMP 正推动将 FLOPs 像兆瓦级电力一样调度,并警告数据中心阻力可能成为 AI 最大瓶颈之一。同时分析 Anthropic 通过独特文化和准备在编码领域取得突破,DeepMind 的研究囤积导致市场失灵,强调下一个前沿属于能在计算、资本、文化和科学上“最大化输出”的团队。行业AnthropicDeepMindAMPGPU数据中心计算效率10 个信源在谈推荐理由:想知道为什么买更多 GPU 不灵了?Anthropic 是怎么靠文化和准备搞定编码的?AMP 创始人讲得特别透,全是内行视角的干货。原文
09:52IT之家(博客/媒体)砺算科技旗下 7G100 显卡第二批创始版于 6 月 18 日晚 8 点在京东开售,官方指导价 3299 元。该显卡配备 12GB GDDR6 显存,基于 6nm 制程和自研 TrueGPU 架构,支持 NRSS 超分辨率、8K 60Hz 显示及 4 路独立输出。首批产品于 5 月 24 日售罄,此次推出的创始版拥有银色外观、创始人签名及专属编号收藏卡,面向游戏、AIPC 和内容创作场景。AI产品砺算LX 7G100国产显卡GPU推荐理由:砺算又开卖了,LX 7G100 国产显卡 3299 元,12GB 显存,支持游戏和 AIPC,自己研发的架构,想支持国产 GPU 的可以看看。原文
16:52IT之家(博客/媒体)SpaceX完成IPO后市值达2.11万亿美元,马斯克成为全球首位万亿富豪。马斯克回应英伟达祝贺,表示将提升双方合作水平。SpaceX已公布首款AI卫星AI1,峰值计算载荷150千瓦,配备液冷散热器。SpaceX与谷歌签署云服务协议,获得相当于11万块英伟达GPU的计算能力,月费9.2亿美元。SpaceX还与Anthropic签署协议,提供22万块H100、H200、GB200等GPU使用权限,月费12.5亿美元。行业SpaceX英伟达马斯克AI卫星GPU10 个信源在谈推荐理由:马斯克要加深与英伟达合作原文
21:43Paul Graham@paulgPaul Graham分享了一个AI创业公司的案例:创始人通过使用GPU硬件,实现了约40%的年化回报率。具体来说,每投入1000美元的硬件成本,每年可产生400美元的收入。这表明AI创业的商业模式已经可以产生可观的硬件投资回报,而不仅仅是烧钱。该案例为AI领域的投资者和创业者提供了积极的信号。行业AI创业GPU投资回报商业模式Paul Graham推荐理由:这个案例直接回答了AI创业能否赚钱的问题——40%的GPU年回报率说明硬件投入可以高效变现,做AI创业或投资的值得细看。原文
13:29xiaomimimo@xiaomimimo88°小米与TileRT AI合作发布MiMo-V2.5-Pro-UltraSpeed,首次在1万亿参数模型上实现超过1000 tokens/s的输出速度。该突破仅使用单个标准8-GPGPU节点,无需Cerebras的晶圆级集成或Groq的纯片上SRAM芯片。技术细节已公开,并提供限时免费试用和API服务。这标志着大模型推理效率的重大飞跃,有望推动实时AI应用的普及。AI产品小米MiMo推理加速大模型GPU推荐理由:大模型推理速度的里程碑——1T模型跑出1000+ tokens/s,做实时AI应用和推理优化的团队值得关注,可以直接申请试用体验。原文
15:44Aadit Sheth@aaditsh72°据一份新文件显示,SpaceX 与 Google 达成协议,从 2026 年 10 月起每月向 Google 提供约 11 万块 NVIDIA GPU 的计算能力,月费高达 9.2 亿美元,合同总额约 300 亿美元。Google 自身拥有 TPU 和庞大云基础设施,却向一家火箭公司租用 GPU,引发行业震动。这可能意味着 Google 的 AI 算力需求已超出自身建设速度,或 SpaceX 在 AI 基础设施方面有未公开的突破。合同允许任何一方在 2026 年 12 月后提前 90 天终止,Google 保留其 AI 模型和数据的知识产权。行业GPU算力租赁GoogleSpaceXNVIDIA8 个信源在谈推荐理由:这则消息揭示了 AI 算力需求已大到连 Google 都要向火箭公司租 GPU,做 AI 基础设施或关注算力瓶颈的从业者值得点开,看看背后到底发生了什么。原文
07:17Gary Marcus@GaryMarcusAI学者Gary Marcus在X上发文讽刺“规模至上”观点,指出去年人们还需从装甲车偷GPU,今年SpaceX却四处出租GPU,暗示xAI未能有效利用这些算力。Marcus以此质疑“规模就是一切”的信仰,认为单纯堆算力并非AI成功的关键。该评论引发对AI发展路径的讨论,尤其是算力分配与模型效率的平衡问题。行业规模至上GPUxAI算力效率AI发展路径6 个信源在谈推荐理由:Marcus用马斯克出租GPU的实例戳破了“规模至上”的泡沫,关注AI算力效率与模型实际价值的团队值得一看,看完会重新思考堆算力的性价比。原文
17:13IT之家(博客/媒体)英特尔客户端计算事业部总经理Alex Katouzian在2026台北国际电脑展上明确表示,GPU仍是公司PC产品线中“超级重要”的组成部分,强调游戏领域收入巨大,英特尔希望在其中扮演重要角色。尽管初代Arc Alchemist显卡因驱动问题受挫,第二代Battlemage产品表现改善,但仅推出两款型号,且传闻中的高端型号Arc B770可能已被取消。英特尔近期GPU活动转向Arc核显和AI专业卡,如面向游戏掌机的Arc G3系列。新任CEO陈立武以精简著称,已裁撤2.5万个岗位并关闭汽车业务,但表示会继续制造GPU,主要指向AI芯片。行业英特尔Arc显卡GPU游戏硬件AI芯片推荐理由:英特尔在GPU业务上的摇摆让游戏玩家和开发者困惑,这次官方表态明确了Arc仍是核心,关注PC游戏硬件或AI推理卡的人值得一看,尤其是想了解英特尔显卡未来走向的。原文
02:17IT之家(博客/媒体)微软在 Build 2026 大会上宣布 Windows 365 最大规模更新,引入预配置开发环境的 Cloud PC,支持开发者首次登录即可开始编码。新增 32 vCPU 和 GPU 云电脑配置,满足 AI/机器学习等计算密集型任务。推出 Windows 365 for Agents 平台,为 AI 智能体提供受保护、可管理的运行环境,支持低代码和专业代码构建。安全方面新增基于上下文的重定向和 RDP Multipath 连接优化。此次更新旨在减少开发环境准备时间,提升开发效率,并为企业 AI 智能体部署提供基础设施。AI产品云电脑开发环境AI智能体GPU微软推荐理由:开发者和 IT 团队终于可以告别数小时的环境配置——Windows 365 预配置镜像让新成员登录即写代码,做 AI 应用或企业智能体部署的团队值得关注。原文
11:08Fireworks AI@FireworksAI_HQ精选Fireworks AI 发布了 Serverless 2.0,提供三种服务路径:Standard(弹性默认)、Priority(拥堵时最后降级,价格约 1.5 倍)和 Fast(Kimi K2.6 和 GLM 5.1 上超 100 tok/s)。该方案解决了传统 AI 推理中需要预留 GPU 才能保证可靠性的痛点,让开发者按需使用、灵活选择性能与成本。用户无需提前锁定资源即可获得高吞吐和低延迟,降低了 AI 部署的门槛。AI产品FireworksServerless 2.0AI推理GPUKimi K2.6推荐理由:做 AI 推理部署的团队终于不用为可靠性提前锁死 GPU 了——Fireworks 的三种路径按需选,Kimi K2.6 和 GLM 5.1 还能跑 100+ tok/s,值得试试。原文
01:29rohanpaul_ai@rohanpaul_ai83°Kog AI 在 8× AMD MI300X GPU 上实现了 3000 tokens/s 的推理速度,在 8× NVIDIA H200 上达到 2100 tokens/s(FP16,无投机解码)。这一速度比常规低批次解码快 10-30 倍。其核心创新是将 LLM 解码视为内存流问题而非数学问题,通过 monokernel 技术将整个解码过程作为单个持久 GPU 程序运行,消除了内核启动、CPU 调度和中间内存往返的开销。他们还优化了同步机制和内存访问,并设计了 Laneformer 模型使用延迟张量并行技术。目前技术预览基于 2B 模型,但声称可扩展到大型 MoE 模型。AI模型推理优化GPUKog AIAMD MI300XNVIDIA H2005 个信源在谈推荐理由:Kog AI 把 GPU 推理的隐藏效率瓶颈挖出来了,做 LLM 推理优化的开发者可以直接关注他们的技术预览,看看 monokernel 和延迟张量并行能否复现到自己的模型上。原文
17:38IT之家(博客/媒体)龙芯中科宣布其首款 GPU 芯片 9A1000 已完成流片,即将回片进入测试阶段。该芯片定位为支持 AI 加速的入门级显卡,AI 算力达 40TOPS,性能较前代提升 5 倍以上,图形性能相当于 AMD RX 550。龙芯表示将争取开发 Windows 驱动,使其可与 Windows 电脑配套。9A1000 与龙芯 CPU 形成自我配套,旨在提升系统性价比。AI产品龙芯GPUAI 算力国产芯片入门级显卡推荐理由:国产 GPU 终于有了独立芯片,做信创、国产化替代的团队值得关注——龙芯 9A1000 的 AI 算力和图形性能对标入门级独显,搭配自家 CPU 能降低整机成本,建议关注后续测试结果。原文
08:04rohanpaul_ai@rohanpaul_ai精选Chamath 在 X 上解释了 AI 推理中的两个关键阶段:Prefill 和 Decode。Prefill 阶段是计算密集型,需要大规模并行 GPU,因此随着上下文增长,Nvidia 占据主导。Decode 阶段则受内存带宽限制,因为每个新 token 的生成都依赖于扫描已生成的内容。这一区分揭示了 AI 计算瓶颈的本质,对理解 GPU 架构和推理优化至关重要。行业AI 计算GPUPrefillDecodeNvidia2 个信源在谈推荐理由:搞懂 Prefill 和 Decode 的区别,就能理解为什么 Nvidia 在 AI 推理中不可替代,做 GPU 选型或推理优化的开发者值得细读。原文
12:20IT之家(博客/媒体)砺算科技宣布其 LX 7G100 国产显卡创始版首批 1000 份在开放购买瞬间售罄,48 小时预约超 3 万人。该显卡售价 3299 元,采用自研 TrueGPU 架构和 6nm 制程,配备 12GB GDDR6 显存,支持 8K 60Hz 显示和 NRSS 超分辨率,面向游戏、AIPC 和内容创作。官方已启动加售计划,第二批将于 6 月 18 日上线。这款显卡的快速售罄反映了市场对国产独立 GPU 的强烈需求,也展示了砺算在图形渲染和通用计算领域的自主技术实力。AI产品国产显卡GPU砺算科技游戏AIPC推荐理由:国产 GPU 首次出现秒空现象,说明市场对自主架构显卡的渴求远超预期。关注国产芯片进展的玩家和创作者,可以蹲一下 6 月 18 日的第二批。原文
19:41rohanpaul_ai@rohanpaul_ai精选Ark Invest CEO Cathie Wood 引用 OpenAI 首席财务官 Sarah Friar 的观点,指出随着 Agentic AI 的兴起,市场对 GPU 的追逐可能忽略了 CPU 的重要性。Agentic AI 的工作模式涉及规划、工具调用、内存检查、文件检索、代码编写和数据库查询等复杂任务,这些任务需要大量通用计算,而 CPU 在这些场景下比 GPU 更高效。这可能导致计算架构从以 GPU 为中心转向 CPU 与 GPU 协同,改变硬件投资方向。行业Agentic AICPUGPU计算架构硬件趋势10 个信源在谈推荐理由:Agentic AI 正在改变计算瓶颈,做 AI 基础设施和推理部署的团队需要重新评估硬件策略——CPU 可能比想象中更重要,值得关注。原文
11:37IT之家(博客/媒体)精选加州大学圣迭戈分校团队研发出新型电源转换芯片,采用压电谐振器替代传统磁性元件,实现 48 伏到 4.8 伏的降压转换,峰值效率达 96.2%。该设计解决了数据中心向 GPU 供电时电压差大、能量损耗高的关键难题。相比此前压电转换器,输出电流提高约 5 倍,芯片尺寸仅略有增加。研究已发表于《Nature Communications》,但离商用还有距离,后续需优化材料与封装。论文供电芯片数据中心GPU压电谐振器Nature Communications推荐理由:数据中心供电效率每提升 1% 都能省下巨额电费,做数据中心基础设施或 GPU 供电设计的工程师值得关注这项突破,它可能改变下一代电源架构的走向。原文
00:10小互@imxiaohu精选Midjourney创始人公开表示,团队因采用Google TPU进行训练,研究进度相比使用Nvidia GPU技术栈落后约一年。他称如果回到过去,会从一开始就全部使用Nvidia的方案。这一言论反映了大模型训练中硬件生态适配的隐蔽成本。行业MidjourneyGoogleTPUNvidiaGPUAI训练2 个信源在谈推荐理由:创始人亲述选错硬件的代价原文
21:52Julien Chaumond@julien_cHuggingFace 推出硬件趋势页面,展示开源 AI 社区实际使用的 GPU、CPU 型号、VRAM 分布和推理硬件趋势。该页面基于真实社区使用数据,而非厂商宣传或基准测试,帮助开发者了解主流硬件配置。目前数据显示,NVIDIA 的 RTX 4090、A100 等 GPU 占据主导,VRAM 集中在 24GB 以上。这一工具对 AI 开发者选型、部署模型有直接参考价值。行业HuggingFace硬件趋势GPU开源AI社区数据推荐理由:HuggingFace 用真实社区数据告诉你大家都在用什么硬件跑模型,做部署选型的开发者可以直接参考,比看厂商宣传靠谱得多。原文
21:10IT之家(博客/媒体)英伟达CEO黄仁勋在斯坦福大学讲座中,强烈反对将GPU比作核武器的言论,并批评AI芯片出口管制政策。他认为这种类比荒谬,因为GPU被数十亿人广泛使用,而核武器则完全不同。黄仁勋主张全球应采用美国技术体系,限制出口会损害美国的技术优势。他直言出口管制已失败且适得其反,强调开放合作的重要性。行业英伟达黄仁勋AI芯片出口管制GPU推荐理由:黄仁勋的立场直接关系到AI芯片供应链和全球技术生态,关注AI硬件、出口政策或中美科技竞争的读者值得一看,能帮你理解行业领袖的真实态度。原文
01:10IT之家(博客/媒体)英伟达CEO黄仁勋将旧GPU涨价现象称为“好酒效应”,认为AI需求爆发导致GPU市场供需失衡,不仅新品价格高企,连4-5年前的旧芯片也在持续升值。CoreWeave CEO证实H100、A100等旧型号价格环比上涨,算力资源长期售罄。整个产业链从晶圆制造到云算力平台均面临产能紧张。这一现象反映了AI算力需求的持续增长,旧GPU的涨价速度甚至超过好酒陈化速度。行业英伟达GPUAI算力供需失衡涨价推荐理由:AI算力需求让旧GPU都成了硬通货,做AI训练或云服务的团队会发现成本压力持续上升,建议关注产业链动态。原文
22:16AI Breakfast@AiBreakfast一位网友提出将人类历史上最坚固的建筑(如金字塔等)改造为数据中心,安装80万个GPU。这一想法既是对古代建筑耐久性的致敬,也讽刺了现代数据中心的建设标准。虽然仍属创意设想,但引发了对AI算力基础设施与历史建筑融合的讨论。行业数据中心AI基础设施GPU建筑改造算力需求推荐理由:该观点以幽默方式揭示了AI算力扩张与土地、能源、基础设施的关系,值得行业思考未来数据中心选址与设计的可能性。原文