10:00IT之家(博客/媒体)74°Groq 去年底与英伟达签署 200 亿美元的 LPU 推理技术授权协议,部分团队加入英伟达。2026 年 6 月 22 日,Groq 宣布完成新一轮 6.5 亿美元融资,将转型为 AI 推理云服务供应商。目前其在全球运营 13 座数据中心,服务超 500 万开发者和数千家 AI 企业,Token 周消耗量以万亿计。Groq 计划到 2027 年底拥有 200MW 算力资源,部署最新推理技术和 NVIDIA LPX 系统。行业Groq英伟达LPUAI推理融资9 个信源在谈推荐理由:Groq 刚拿了 6.5 亿美元,转型做 AI 推理云,背后有英伟达的 LPU 技术和团队支持,目标是 2027 年搞定 200MW 算力。原文
18:25IT之家(博客/媒体)富国银行报告指出,高通有望深化与 AWS 的 AI 芯片合作,为 AWS 提供 AI200 芯片。AI200 单颗支持 768GB 内存,专为机架级 AI 推理设计。该合作符合 AWS 通过自研或第三方芯片降低推理成本、提升利润率的战略。AI200 预计 2026 年扩大部署,AWS 可能成为高通最大超大规模云端伙伴。目前 AWS 已提供高通 AI100 Ultra 芯片,性价比相对强劲。行业高通AWSAI200AI推理芯片推荐理由:高通 AI200 芯片有望进 AWS,推理成本要降原文
19:18marktechpost@Asif RazzaqNVIDIA 推出了 Dynamo Snapshot,这是一个基于 CRIU 和 cuda-checkpoint 工具的系统,用于在 Kubernetes 上对 vLLM 推理工作节点进行快照和恢复。该系统能够显著加速 AI 推理服务的启动时间,解决冷启动延迟问题。通过保存和恢复推理工作节点的状态,Dynamo Snapshot 使得在 Kubernetes 集群中快速扩缩容成为可能,尤其适用于需要频繁调整推理资源的场景。这一工具对于部署大规模 AI 推理服务的团队来说,可以提升资源利用率和响应速度。AI产品NVIDIADynamo SnapshotKubernetesAI推理CRIU9 个信源在谈推荐理由:NVIDIA 用 CRIU 快照解决了 Kubernetes 上 AI 推理的冷启动痛点,做模型推理部署的团队可以直接用这个工具来加速扩缩容,值得关注。原文
21:45IT之家(博客/媒体)撼与 Sparkle 在台北电脑展上展示了首款单槽设计的 Intel Arc Pro B70 32GB 显卡,型号为 Sparkle Intel Arc Pro B70 32 GB Blower 1S。该卡采用紧凑单槽形态,一台工作站最多可安装8块,实现总计256GB显存,能本地运行超2000亿参数的AI大模型。它搭载完整 BMG-G31 GPU,配备32个Xe2核心与32GB显存,定位AI、内容创作等专业负载。单槽版本TGP降至160W,虽可能影响持续性能,但大幅提升空间利用效率。该卡是了解Intel“Big Battlemage”架构的唯一窗口,售价尚未公布,预计近期上市。AI产品显卡工作站AI推理Intel Arc Pro B70单槽设计推荐理由:单槽设计让工作站能塞进8块GPU,256GB显存直接跑2000亿参数大模型,做本地AI推理或内容创作的团队值得关注,空间和预算都能省不少。原文
09:27IT之家(博客/媒体)精选据韩媒报道,SK海力士计划在大连二厂建设约250层的FG(浮栅)结构3D NAND产线。目前主流闪存原厂均采用CT(电荷阱)结构,SK海力士通过收购英特尔闪存业务保留了FG技术。公司已完成200层以上FG NAND研发,计划2026年Q3建设中试线,2027年H2实现量产。FG结构更适合QLC NAND,而AI推理工作负载对读取密集型QLC SSD需求旺盛,此举将巩固其在AI存储市场的竞争力。行业SK海力士FG NANDQLCAI推理存储芯片推荐理由:SK海力士押注FG NAND路线,直接服务于AI推理对高容量QLC SSD的爆发需求,做AI基础设施或存储方案的团队值得关注这一技术动向。原文
19:13IT之家(博客/媒体)撼与在COMPUTEX 2026上展示了多款eGPU设备,其中eGPU Studio-G Dual支持安装两块显卡,突破了传统单卡限制。该设备采用雷电5连接,内置1850W或1650W的ATX 3.1电源,为高端双卡配置提供充足电力。同时展出的还有eGPU Studio-G Ultra 850和面向内容创作者的eGPU Creator Station,后者内置RTX 3060 12GB显卡。这些设备均支持英特尔的Thunderbolt Share技术,适合需要多GPU加速的创作者和AI开发者。AI产品eGPU雷电5双显卡AI推理内容创作推荐理由:双卡eGPU解决了多GPU工作流的外接瓶颈,做AI训练或3D渲染的团队可以关注这款雷电5方案,直接提升扩展性。原文
19:11IT之家(博客/媒体)TrendForce 报告显示,2026 年第一季度 DRAM 内存产业营收环比暴增 81%,达到 970 亿美元。增长主要源于 AI 应用从训练转向推理,云服务商加速建设通用型服务器,带动 RDIMM 需求强劲。产能挤占导致一般型 DRAM 合约价单季几乎翻倍(+93~98%)。预计第二季度合约价将继续上涨 58~63%,且供不应求态势难以改变,因原厂库存见底且产能提升有限。行业DRAMAI推理服务器合约价上涨TrendForce推荐理由:DRAM 价格暴涨直接推高服务器和 PC 成本,做硬件采购、云基础设施或 AI 推理部署的团队需要提前规划预算,建议关注后续价格走势。原文
19:21Ate-a-Pi@svpino一个创新的AI推理市场概念被提出,它能够根据实时价格将请求路由到最便宜的合格模型。目前用户通常按固定费率支付给供应商,但这种方式即将改变。该市场声称可节省高达87%的推理成本。这一想法旨在打破固定定价模式,让AI推理更经济高效。AI产品推理模型成本优化市场/平台AI推理定价模式推荐理由:做AI推理的团队终于有了降本利器——动态路由到最便宜模型,直接省87%成本,做模型部署和成本优化的建议点开看看。原文
12:51IT之家(博客/媒体)精选英特尔在COMPUTEX前夕进一步介绍了其面向AI推理的数据中心GPU“Crescent Island”,该卡将于今年晚些时候面世。它支持从FP4到FP64的多种数据类型,配备高达480GB的LPDDR5x内存,采用350W功耗的PCIe AIC设计,主打每瓦词元效率。英特尔确认,其Xe3P GPU架构将应用于PC、数据中心、边缘和工作站四大领域,包括下一代PC芯片。AI产品英特尔数据中心GPUAI推理Crescent IslandXe3P推荐理由:做AI推理部署的团队终于有了英特尔的高内存选项——480GB LPDDR5x和350W功耗设计,适合需要大模型推理但不想堆多卡的场景,值得关注。原文
11:08Fireworks AI@FireworksAI_HQ精选Fireworks AI 发布了 Serverless 2.0,提供三种服务路径:Standard(弹性默认)、Priority(拥堵时最后降级,价格约 1.5 倍)和 Fast(Kimi K2.6 和 GLM 5.1 上超 100 tok/s)。该方案解决了传统 AI 推理中需要预留 GPU 才能保证可靠性的痛点,让开发者按需使用、灵活选择性能与成本。用户无需提前锁定资源即可获得高吞吐和低延迟,降低了 AI 部署的门槛。AI产品FireworksServerless 2.0AI推理GPUKimi K2.6推荐理由:做 AI 推理部署的团队终于不用为可靠性提前锁死 GPU 了——Fireworks 的三种路径按需选,Kimi K2.6 和 GLM 5.1 还能跑 100+ tok/s,值得试试。原文
22:12IT之家(博客/媒体)慧荣(Silicon Motion)发布了面向AI推理与KV缓存工作负载优化的固态硬盘主控芯片SM2524XT。该主控采用台积电6nm制程,拥有4个内核和DRAM-less架构,支持PCIe Gen5×4,顺序读取速率达14GB/s,随机性能代际提升25%。慧荣指出,KV缓存已成为AI PC响应速度的关键瓶颈,SM2524XT专为应对AI驱动的高度碎片化、延迟敏感的随机读写操作而设计,能在持续推理会话中保持稳定性能。AI产品慧荣SSD主控AI推理KV缓存存储优化推荐理由:AI PC和边缘推理场景的存储瓶颈终于有了针对性解决方案,做AI硬件或部署本地模型的开发者值得关注这款主控的实际表现。原文
17:18IT之家(博客/媒体)精选据路透社报道,字节跳动正在开发自有CPU,以应对AI推理阶段对CPU的高需求及芯片价格上涨、供应短缺问题。该项目处于早期阶段,计划部署在自有服务器和数据中心,支持内部运营及Coze等智能体产品。字节跳动同时探索基于Arm和开源RISC-V的两条架构路线,并已接触外部合作伙伴参与设计及制造。此举与谷歌、亚马逊等云服务商的自研芯片趋势一致,旨在降低成本并提升性能。行业字节跳动自研CPUAI推理芯片短缺Arm/RISC-V推荐理由:AI行业转向推理导致CPU短缺和涨价,字节跳动自研芯片是降本增效的关键一步。做AI基础设施或智能体开发的团队,值得关注这一趋势对供应链和成本的影响。原文
10:50arXiv cs.LG@Vasilios A. Siris, Adamantia Stamou, George D. Stamoulis, Konstantinos Varsos, Ramin Khalili精选AI 服务的广泛使用引发了环境可持续性担忧,其中 AI 推理的碳排放是主要贡献者。本文提出一个框架,基于用户对推理质量和延迟的估值以及环保意识,设计激励措施,同时权衡碳排放与这两个 QoE 参数。该框架可适应不同 AI 模型规模和资源分配下的权衡。激励通过实用的两级服务订阅实现,用户以折扣换取碳排放减少。在碳强度高时,折扣服务允许 AI 提供商以较低质量和较高延迟服务部分推理请求。论文AI推理碳排放用户激励服务质量绿色AI推荐理由:这篇论文为 AI 服务提供商提供了一个实用方案,通过用户激励平衡碳排放与服务质量,关注绿色 AI 的团队可以直接参考其两级订阅设计。原文
23:26IT之家(博客/媒体)爆料人@结城安穗-YuuKi_AnS 释出了英特尔数据中心GPU“Crescent Island”的PCB图片。该显卡采用PCIe Gen5+接口,配备20个LPDDR5X内存焊盘,总容量达160GB,支持15相核心供电与3相内存供电。它基于Xe3P微架构,面向风冷服务器,专为AI推理工作负载优化,预计2026年下半年向客户出样。此次曝光揭示了其硬件规格和设计细节,标志着英特尔在AI推理领域的进一步布局。AI产品英特尔Crescent IslandAI推理数据中心GPU硬件曝光推荐理由:数据中心AI推理市场迎来新玩家,做AI部署和服务器优化的团队值得关注——160GB LPDDR5X内存和Xe3P架构的配置,可能改变推理成本格局。原文
16:20IT之家(博客/媒体)联想集团董事长杨元庆在财报沟通会上表示,AI基础设施正从训练向推理快速转移,目前70-80%的GPU服务器用于训练,未来将反转至70%用于推理、30%用于训练。他强调训练需求不会减少,但仅靠大型云服务商已无法满足需求。联想2026财年AI相关收入同比增长105%,占总营收33%,第四季度占比达38%。行业联想GPU服务器AI推理AI训练算力趋势推荐理由:杨元庆的预测揭示了AI算力市场的结构性拐点——推理需求将主导未来,做AI应用部署和基础设施规划的团队值得关注这一趋势,提前调整算力采购策略。原文
16:43阿里云 Alibaba Cloud@alibaba_cloud阿里云宣布 Apache RocketMQ 5.x 引入 LiteTopic 功能,专为 AI 推理任务设计。传统消息队列限流无法应对 AI 推理的长耗时和不可预测性,LiteTopic 提供毫秒级细粒度流量治理,能有效管理 AI 推理流量。该功能解决了 AI 场景下消息队列的痛点,适合需要高精度流量控制的 AI 应用团队。AI产品RocketMQAI推理流量治理消息队列阿里云推荐理由:AI 推理任务流量波动大,传统 MQ 限流不够用——RocketMQ 5.x 的 LiteTopic 给了毫秒级控制能力,做 AI 推理服务或消息队列架构的团队值得关注。原文