全部 AI 动态 · AI 热点

6月23日

10:00

10:00IT之家（博客/媒体）

74°

Groq 去年底与英伟达签署 200 亿美元的 LPU 推理技术授权协议，部分团队加入英伟达。2026 年 6 月 22 日，Groq 宣布完成新一轮 6.5 亿美元融资，将转型为 AI 推理云服务供应商。目前其在全球运营 13 座数据中心，服务超 500 万开发者和数千家 AI 企业，Token 周消耗量以万亿计。Groq 计划到 2027 年底拥有 200MW 算力资源，部署最新推理技术和 NVIDIA LPX 系统。

行业 Groq 英伟达 LPU AI推理融资

推荐理由：Groq 刚拿了 6.5 亿美元，转型做 AI 推理云，背后有英伟达的 LPU 技术和团队支持，目标是 2027 年搞定 200MW 算力。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月14日

18:25

18:25IT之家（博客/媒体）

富国银行报告指出，高通有望深化与 AWS 的 AI 芯片合作，为 AWS 提供 AI200 芯片。AI200 单颗支持 768GB 内存，专为机架级 AI 推理设计。该合作符合 AWS 通过自研或第三方芯片降低推理成本、提升利润率的战略。AI200 预计 2026 年扩大部署，AWS 可能成为高通最大超大规模云端伙伴。目前 AWS 已提供高通 AI100 Ultra 芯片，性价比相对强劲。

行业高通 AWS AI200 AI推理芯片

推荐理由：高通 AI200 芯片有望进 AWS，推理成本要降

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月5日

19:18

marktechpost@Asif Razzaq

NVIDIA 推出了 Dynamo Snapshot，这是一个基于 CRIU 和 cuda-checkpoint 工具的系统，用于在 Kubernetes 上对 vLLM 推理工作节点进行快照和恢复。该系统能够显著加速 AI 推理服务的启动时间，解决冷启动延迟问题。通过保存和恢复推理工作节点的状态，Dynamo Snapshot 使得在 Kubernetes 集群中快速扩缩容成为可能，尤其适用于需要频繁调整推理资源的场景。这一工具对于部署大规模 AI 推理服务的团队来说，可以提升资源利用率和响应速度。

AI产品 NVIDIA Dynamo Snapshot Kubernetes AI推理 CRIU

推荐理由：NVIDIA 用 CRIU 快照解决了 Kubernetes 上 AI 推理的冷启动痛点，做模型推理部署的团队可以直接用这个工具来加速扩缩容，值得关注。

原文

6月4日

21:45

21:45IT之家（博客/媒体）

撼与 Sparkle 在台北电脑展上展示了首款单槽设计的 Intel Arc Pro B70 32GB 显卡，型号为 Sparkle Intel Arc Pro B70 32 GB Blower 1S。该卡采用紧凑单槽形态，一台工作站最多可安装8块，实现总计256GB显存，能本地运行超2000亿参数的AI大模型。它搭载完整 BMG-G31 GPU，配备32个Xe2核心与32GB显存，定位AI、内容创作等专业负载。单槽版本TGP降至160W，虽可能影响持续性能，但大幅提升空间利用效率。该卡是了解Intel“Big Battlemage”架构的唯一窗口，售价尚未公布，预计近期上市。

AI产品显卡工作站 AI推理 Intel Arc Pro B70 单槽设计

推荐理由：单槽设计让工作站能塞进8块GPU，256GB显存直接跑2000亿参数大模型，做本地AI推理或内容创作的团队值得关注，空间和预算都能省不少。

原文

09:27

09:27IT之家（博客/媒体）

精选

据韩媒报道，SK海力士计划在大连二厂建设约250层的FG（浮栅）结构3D NAND产线。目前主流闪存原厂均采用CT（电荷阱）结构，SK海力士通过收购英特尔闪存业务保留了FG技术。公司已完成200层以上FG NAND研发，计划2026年Q3建设中试线，2027年H2实现量产。FG结构更适合QLC NAND，而AI推理工作负载对读取密集型QLC SSD需求旺盛，此举将巩固其在AI存储市场的竞争力。

行业 SK海力士 FG NAND QLC AI推理存储芯片

推荐理由：SK海力士押注FG NAND路线，直接服务于AI推理对高容量QLC SSD的爆发需求，做AI基础设施或存储方案的团队值得关注这一技术动向。

原文

6月3日

19:13

19:13IT之家（博客/媒体）

撼与在COMPUTEX 2026上展示了多款eGPU设备，其中eGPU Studio-G Dual支持安装两块显卡，突破了传统单卡限制。该设备采用雷电5连接，内置1850W或1650W的ATX 3.1电源，为高端双卡配置提供充足电力。同时展出的还有eGPU Studio-G Ultra 850和面向内容创作者的eGPU Creator Station，后者内置RTX 3060 12GB显卡。这些设备均支持英特尔的Thunderbolt Share技术，适合需要多GPU加速的创作者和AI开发者。

AI产品 eGPU 雷电5 双显卡 AI推理内容创作

推荐理由：双卡eGPU解决了多GPU工作流的外接瓶颈，做AI训练或3D渲染的团队可以关注这款雷电5方案，直接提升扩展性。

原文

19:11

19:11IT之家（博客/媒体）

TrendForce 报告显示，2026 年第一季度 DRAM 内存产业营收环比暴增 81%，达到 970 亿美元。增长主要源于 AI 应用从训练转向推理，云服务商加速建设通用型服务器，带动 RDIMM 需求强劲。产能挤占导致一般型 DRAM 合约价单季几乎翻倍（+93~98%）。预计第二季度合约价将继续上涨 58~63%，且供不应求态势难以改变，因原厂库存见底且产能提升有限。

行业 DRAM AI推理服务器合约价上涨 TrendForce

推荐理由：DRAM 价格暴涨直接推高服务器和 PC 成本，做硬件采购、云基础设施或 AI 推理部署的团队需要提前规划预算，建议关注后续价格走势。

原文

6月2日

19:21

Ate-a-Pi@svpino

一个创新的AI推理市场概念被提出，它能够根据实时价格将请求路由到最便宜的合格模型。目前用户通常按固定费率支付给供应商，但这种方式即将改变。该市场声称可节省高达87%的推理成本。这一想法旨在打破固定定价模式，让AI推理更经济高效。

AI产品推理模型成本优化市场/平台 AI推理定价模式

推荐理由：做AI推理的团队终于有了降本利器——动态路由到最便宜模型，直接省87%成本，做模型部署和成本优化的建议点开看看。

原文

6月1日

12:51

12:51IT之家（博客/媒体）

精选

英特尔在COMPUTEX前夕进一步介绍了其面向AI推理的数据中心GPU“Crescent Island”，该卡将于今年晚些时候面世。它支持从FP4到FP64的多种数据类型，配备高达480GB的LPDDR5x内存，采用350W功耗的PCIe AIC设计，主打每瓦词元效率。英特尔确认，其Xe3P GPU架构将应用于PC、数据中心、边缘和工作站四大领域，包括下一代PC芯片。

AI产品英特尔数据中心GPU AI推理 Crescent Island Xe3P

推荐理由：做AI推理部署的团队终于有了英特尔的高内存选项——480GB LPDDR5x和350W功耗设计，适合需要大模型推理但不想堆多卡的场景，值得关注。

原文

5月30日

11:08

Fireworks AI@FireworksAI_HQ

精选

Fireworks AI 发布了 Serverless 2.0，提供三种服务路径：Standard（弹性默认）、Priority（拥堵时最后降级，价格约 1.5 倍）和 Fast（Kimi K2.6 和 GLM 5.1 上超 100 tok/s）。该方案解决了传统 AI 推理中需要预留 GPU 才能保证可靠性的痛点，让开发者按需使用、灵活选择性能与成本。用户无需提前锁定资源即可获得高吞吐和低延迟，降低了 AI 部署的门槛。

AI产品 Fireworks Serverless 2.0 AI推理 GPU Kimi K2.6

推荐理由：做 AI 推理部署的团队终于不用为可靠性提前锁死 GPU 了——Fireworks 的三种路径按需选，Kimi K2.6 和 GLM 5.1 还能跑 100+ tok/s，值得试试。

原文

5月28日

22:12

22:12IT之家（博客/媒体）

慧荣（Silicon Motion）发布了面向AI推理与KV缓存工作负载优化的固态硬盘主控芯片SM2524XT。该主控采用台积电6nm制程，拥有4个内核和DRAM-less架构，支持PCIe Gen5×4，顺序读取速率达14GB/s，随机性能代际提升25%。慧荣指出，KV缓存已成为AI PC响应速度的关键瓶颈，SM2524XT专为应对AI驱动的高度碎片化、延迟敏感的随机读写操作而设计，能在持续推理会话中保持稳定性能。

AI产品慧荣 SSD主控 AI推理 KV缓存存储优化

推荐理由：AI PC和边缘推理场景的存储瓶颈终于有了针对性解决方案，做AI硬件或部署本地模型的开发者值得关注这款主控的实际表现。

原文

17:18

17:18IT之家（博客/媒体）

精选

据路透社报道，字节跳动正在开发自有CPU，以应对AI推理阶段对CPU的高需求及芯片价格上涨、供应短缺问题。该项目处于早期阶段，计划部署在自有服务器和数据中心，支持内部运营及Coze等智能体产品。字节跳动同时探索基于Arm和开源RISC-V的两条架构路线，并已接触外部合作伙伴参与设计及制造。此举与谷歌、亚马逊等云服务商的自研芯片趋势一致，旨在降低成本并提升性能。

行业字节跳动自研CPU AI推理芯片短缺 Arm/RISC-V

推荐理由：AI行业转向推理导致CPU短缺和涨价，字节跳动自研芯片是降本增效的关键一步。做AI基础设施或智能体开发的团队，值得关注这一趋势对供应链和成本的影响。

原文

5月27日

10:50

arXiv cs.LG@Vasilios A. Siris, Adamantia Stamou, George D. Stamoulis, Konstantinos Varsos, Ramin Khalili

精选

AI 服务的广泛使用引发了环境可持续性担忧，其中 AI 推理的碳排放是主要贡献者。本文提出一个框架，基于用户对推理质量和延迟的估值以及环保意识，设计激励措施，同时权衡碳排放与这两个 QoE 参数。该框架可适应不同 AI 模型规模和资源分配下的权衡。激励通过实用的两级服务订阅实现，用户以折扣换取碳排放减少。在碳强度高时，折扣服务允许 AI 提供商以较低质量和较高延迟服务部分推理请求。

论文 AI推理碳排放用户激励服务质量绿色AI

推荐理由：这篇论文为 AI 服务提供商提供了一个实用方案，通过用户激励平衡碳排放与服务质量，关注绿色 AI 的团队可以直接参考其两级订阅设计。

原文

5月26日

23:26

23:26IT之家（博客/媒体）

爆料人@结城安穗-YuuKi_AnS 释出了英特尔数据中心GPU“Crescent Island”的PCB图片。该显卡采用PCIe Gen5+接口，配备20个LPDDR5X内存焊盘，总容量达160GB，支持15相核心供电与3相内存供电。它基于Xe3P微架构，面向风冷服务器，专为AI推理工作负载优化，预计2026年下半年向客户出样。此次曝光揭示了其硬件规格和设计细节，标志着英特尔在AI推理领域的进一步布局。

AI产品英特尔 Crescent Island AI推理数据中心GPU 硬件曝光

推荐理由：数据中心AI推理市场迎来新玩家，做AI部署和服务器优化的团队值得关注——160GB LPDDR5X内存和Xe3P架构的配置，可能改变推理成本格局。

原文

5月22日

16:20

16:20IT之家（博客/媒体）

联想集团董事长杨元庆在财报沟通会上表示，AI基础设施正从训练向推理快速转移，目前70-80%的GPU服务器用于训练，未来将反转至70%用于推理、30%用于训练。他强调训练需求不会减少，但仅靠大型云服务商已无法满足需求。联想2026财年AI相关收入同比增长105%，占总营收33%，第四季度占比达38%。

行业联想 GPU服务器 AI推理 AI训练算力趋势

推荐理由：杨元庆的预测揭示了AI算力市场的结构性拐点——推理需求将主导未来，做AI应用部署和基础设施规划的团队值得关注这一趋势，提前调整算力采购策略。

原文

5月19日

16:43

阿里云 Alibaba Cloud@alibaba_cloud

阿里云宣布 Apache RocketMQ 5.x 引入 LiteTopic 功能，专为 AI 推理任务设计。传统消息队列限流无法应对 AI 推理的长耗时和不可预测性，LiteTopic 提供毫秒级细粒度流量治理，能有效管理 AI 推理流量。该功能解决了 AI 场景下消息队列的痛点，适合需要高精度流量控制的 AI 应用团队。

AI产品 RocketMQ AI推理流量治理消息队列阿里云

推荐理由：AI 推理任务流量波动大，传统 MQ 限流不够用——RocketMQ 5.x 的 LiteTopic 给了毫秒级控制能力，做 AI 推理服务或消息队列架构的团队值得关注。

原文