全部 AI 动态 · AI 热点

6月11日

06:13

Sundar Pichai@sundarpichai

78°

Google 发布了 DiffusionGemma，这是一个基于 Gemma 4 的实验性开放模型，采用文本扩散技术。与传统逐词预测不同，DiffusionGemma 能同时生成整段文本，实现高达 4 倍的推理加速。该模型目前以研究预览形式开放，旨在探索更高效的文本生成方式。这对于需要低延迟文本生成的场景（如实时对话、内容创作）具有重要意义。

AI模型文本扩散推理加速 Gemma 4 开放模型 Google

推荐理由：推理速度提升 4 倍意味着更低的延迟和更低的成本，做实时文本生成或大规模内容生产的团队值得关注这个新方向。

原文

03:03

Google AI Developers@googleaidevs

72°

Google 发布了 DiffusionGemma，一款基于文本扩散技术的实验性开放模型，采用 Apache 2.0 许可证。该模型通过将瓶颈从内存带宽转移到原始计算，在专用 GPU 上实现高达 4 倍的 token 输出速度。推理时仅激活 3.8B 参数，量化后可在 24GB VRAM 的高端消费级 GPU 上运行。它支持并行 token 生成和自我纠正，特别适合代码填充、内联编辑和非线性结构任务。DiffusionGemma 优先考虑速度而非原始质量，在计算受限的硬件上加速效果最佳，而标准 Gemma 4 仍推荐用于生产环境和内存受限设备。

AI模型文本扩散开放模型 Google DiffusionGemma 代码填充

推荐理由：DiffusionGemma 把文本生成速度推到了新高度，做代码补全、实时编辑的开发者可以直接在消费级 GPU 上体验 4 倍加速，值得一试。

原文

01:33

Patrick Loeber@patloeber

Google 发布了 DiffusionGemma，一种基于扩散模型的文本生成新方法，相比传统自回归模型实现了4倍的速度提升。该模型已在 Hugging Face 上以 Apache 2.0 许可证开源，允许自由使用和修改。这一突破有望大幅降低文本生成的计算成本，对需要快速响应的应用场景尤为重要。开发者可以立即下载并集成到自己的项目中。

AI模型文本生成扩散模型开源/仓库 Google DiffusionGemma

推荐理由：文本生成速度提升4倍，对需要低延迟推理的开发者来说是个直接可用的利器，建议试试这个开源模型。

原文

6月10日

17:03

小互@imxiaohu

78°

Google 发布了 Gemini 3.5 Live Translate，一款支持 70 多种语言的实时翻译模型。该模型能边听边译，仅比说话人慢几秒，同时保留语调、节奏和音高。它还能自动滤除噪音，在嘈杂环境中也能使用。Google Translate App 新增了「听筒模式」，贴耳即可听翻译。开发者可通过 Gemini Live API 和 Google AI Studio 直接调用，并支持自动语言检测。

AI产品实时翻译 Gemini 3.5 语音模型 Google API

推荐理由：实时翻译终于有了「人味」——保留语调节奏，做跨国会议、播客或直播的团队可以直接用 API 集成，体验比传统逐句翻译好太多。

原文

03:08

Jeff Dean@JeffDean

Google 在语音翻译领域长期投入，最新推出 Gemini 3.5 Live Translate 模型，支持超过 70 种语言的语音到语音实时翻译。该模型旨在让跨语言对话更自然，已集成到 Google Translate 和 Google AI Studio 的 Live API 中。合作伙伴 Grab 正在利用该技术帮助司机与乘客沟通，展示了实际应用场景。这是 Google 在语音翻译领域的最新进展，有望提升日常应用中的多语言交流体验。

AI产品语音翻译 Gemini 3.5 实时翻译 Google 多语言

推荐理由：Google 把语音翻译推进到新阶段，70+ 语言实时互译对跨国出行、客服、会议场景的团队是直接利好，开发者可以立刻通过 Live API 接入试试。

原文

00:13

Google Gemini App@GeminiApp

精选

Gemini 3.5 Flash 能处理复杂视觉数据并转化为可运行的交互代码。它可分析参考图像的照明条件，构建一个交互式3D可视化器来预览光照设置。该模型演示了从视觉输入到功能性代码的端到端能力。

AI模型 Gemini 3.5 Flash 代码生成 3D可视化 Google

推荐理由：看Gemini 3.5 Flash从图生成3D代码

原文

6月9日

23:59

rohanpaul_ai@rohanpaul_ai

76°

Google 发布了 Gemini 3.5 Live Translate，一种实时语音到语音翻译模型。与等待完整句子的传统系统不同，它能在说话人仍在讲话时就开始翻译，通过流式翻译技术预测并更新翻译内容。该模型支持 70 多种语言，延迟仅几秒，并能保留语速、音调和语调。它已通过 Gemini Live API、Google Meet 预览版以及 Android/iOS 上的 Google Translate 向用户推出。

AI产品 Gemini 3.5 实时翻译语音翻译 Google 流式翻译

推荐理由：实时语音翻译终于不再是“等说完再翻”的延迟体验——做跨国会议、直播或外语学习的人可以直接用上，建议试试 Gemini Live API 或 Google Translate 的更新。

原文

23:23

Google AI Developers@googleaidevs

精选

Gemini 3.5 Live Translate 是谷歌最新的音频模型，支持 70+ 语言的低延迟实时语音翻译。它通过流式处理语音，实现近实时的翻译输出，并具备多语言输入、自动语言检测、原生音频处理（保留语调、节奏和音高）以及噪声鲁棒性（在嘈杂环境中过滤背景噪音）等特点。开发者可利用该模型构建更自然的语音交互应用。

AI模型 Gemini 3.5 Live Translate Google 语音翻译多语言低延迟

推荐理由：谷歌新模型，能实时翻译70+语言

原文

15:16

AI Will@FinanceYF5

Google 在 Gemini Live 中新增了图像创建和编辑功能，用户可以在使用 Gemini 应用时实时生成或修改图像。该功能通过实时摄像头共享实现，用户可以向 Gemini 展示正在观看的内容，并即时要求其创建、调整或解释视觉内容。这一更新将 Gemini 从纯文本助手扩展为多模态交互工具，提升了实时视觉处理的实用性。目前该功能已上线，适用于支持 Gemini Live 的设备。

AI产品 Google Gemini Live 实时图像生成多模态 AI助手

推荐理由：实时图像生成与编辑让 Gemini 成为更强大的多模态助手，适合需要即时视觉创作或修改的用户，比如设计师、内容创作者和日常用户，建议打开 Gemini 试试这个新功能。

原文

07:59

berryxia@berryxia

72°

Google NotebookLM 迎来重大升级，从笔记助手进化为能独立完成复杂多步研究的Agent。新版本内置Agentic能力、更强推理逻辑和多种输出格式，可自动拆解任务、推理并输出结果。它还能从网络获取新资料，但最终生成答案时严格依赖用户选定的来源，有效减少幻觉。这标志着AI从“人机对话”转向“人机搭档”，提升了研究、生产和学习的效率。

AI产品 NotebookLM Agent 研究工具减少幻觉 Google

推荐理由：NotebookLM 解决了AI研究工具常见的幻觉问题，做深度研究、写报告或学习的用户可以直接体验，感受Agent级生产力与可靠性的结合。

原文

6月8日

22:50

rohanpaul_ai@rohanpaul_ai

据 The Information 报道，Google 已选择 Intel 为其制造超过 300 万颗 TPU 芯片，计划于 2028 年交付。这对 Intel 的晶圆代工业务是一次重大胜利，使其成为 NVIDIA 主要 AI 竞争对手的工厂。由于 AI 热潮导致芯片需求激增，台积电产能紧张，多家 AI 芯片设计公司转向 Intel 作为第二供应商，以降低供应链风险。此举对 Google、NVIDIA、Apple、Tesla 等公司而言，意味着供应链多元化的重要进展。

行业 Google Intel TPU 芯片制造供应链

推荐理由：AI 芯片供应链正在重构，做 AI 基础设施或依赖 GPU/TPU 的团队值得关注——Intel 代工崛起可能改变未来芯片成本和供应格局。

原文

6月6日

15:44

Aadit Sheth@aaditsh

72°

据一份新文件显示，SpaceX 与 Google 达成协议，从 2026 年 10 月起每月向 Google 提供约 11 万块 NVIDIA GPU 的计算能力，月费高达 9.2 亿美元，合同总额约 300 亿美元。Google 自身拥有 TPU 和庞大云基础设施，却向一家火箭公司租用 GPU，引发行业震动。这可能意味着 Google 的 AI 算力需求已超出自身建设速度，或 SpaceX 在 AI 基础设施方面有未公开的突破。合同允许任何一方在 2026 年 12 月后提前 90 天终止，Google 保留其 AI 模型和数据的知识产权。

行业 GPU 算力租赁 Google SpaceX NVIDIA

推荐理由：这则消息揭示了 AI 算力需求已大到连 Google 都要向火箭公司租 GPU，做 AI 基础设施或关注算力瓶颈的从业者值得点开，看看背后到底发生了什么。

原文

11:12

小互@imxiaohu

根据 SpaceX 公布的文件，Google 与其签订了一份从 2026 年 10 月至 2029 年 6 月的算力购买协议，每月支付 9.2 亿美元，包括约 11 万块 NVIDIA GPU、CPU、内存等组件。此前 Anthropic 也向 SpaceX 每月支付 12.5 亿美元购买算力。两项协议合计每年为 SpaceX 带来约 260 亿美元收入。这一事件凸显了 SpaceX 在算力租赁市场的巨大潜力，以及科技巨头对 GPU 算力的旺盛需求。

行业算力租赁 SpaceX NVIDIA GPU Google Anthropic

推荐理由：算力租赁市场迎来新巨头，做 AI 基础设施或云服务的团队值得关注——SpaceX 的入局可能改变 GPU 供应格局，每月 9.2 亿美元的协议说明需求有多疯狂。

原文

08:27

rohanpaul_ai@rohanpaul_ai

Anthropic 表示其 80% 的新生产代码由 Claude 编写，标志着 AI 编程在大型科技公司中的深度应用。Google 新论文显示通用 LLM 通过规划证明和逐步检查，在形式数学任务上从低于 10% 提升至 70% 的准确率。Google 开源 Gemma 4 12B 模型，支持音频和视频分析，可在消费级 16GB GPU 上完全本地运行。阿里巴巴发布 Qwen3.7-Plus，支持文本、视频和图像输入，价格低廉但保持闭源。Anthropic 的化学报告也展示了令人惊讶的结果。

行业 Anthropic Claude Google Gemma 4 Qwen3.7-Plus AI编程数学推理开源模型

推荐理由：AI 编程和数学推理的突破正在改变开发和研究方式，做 AI 应用或数学研究的团队值得关注这些进展，尤其是 Claude 的代码生成和 Gemma 4 的本地部署能力。

原文

05:50

rohanpaul_ai@rohanpaul_ai

Anthropic 此前承诺每月向 SpaceX 支付 12.5 亿美元用于 GPU 算力，加上 Google 新披露的每月 9.2 亿美元云合同，两家 AI 实验室合计每月支付 21.7 亿美元，年化收入达 260 亿美元。Google 在 2015 年以约 9 亿美元投资 SpaceX 获得约 7% 股份，如今 SpaceX 目标 IPO 估值 1.75 万亿美元，Google 持股价值约 870-1070 亿美元，回报率高达 97-119 倍。这笔交易不仅体现了 AI 算力需求的爆发，也凸显了 SpaceX 从卫星互联网到发射主导权再到 AI 算力合同的业务转型。

行业算力 Anthropic Google SpaceX AI 基础设施

推荐理由：AI 算力军备竞赛的账单终于公开了——做 AI 基础设施或云计算的从业者，看完这个数字会重新理解算力定价和供应链格局。

原文

04:59

rohanpaul_ai@rohanpaul_ai

SpaceX披露与Google的新云服务协议，Google每月向SpaceX支付9.2亿美元（约110亿美元/年），用于在xAI数据中心获取计算能力。这凸显了AI算力正成为像发射能力或能源一样的战略商品。能够融资、供电、冷却和运营大型GPU集群的公司，可能在其原有业务之外获得巨大杠杆。

行业 AI算力云服务 SpaceX Google xAI

推荐理由：AI算力正成为战略资源，关注基础设施布局的投资者和云服务从业者值得了解这一趋势——它可能重塑科技公司的竞争格局。

原文

04:19

Paul Couvert@itsPaulAi

88°

Google 发布了 Gemma 4 QAT 模型，相比前代内存需求降低 3 倍，使得高性能模型能在本地设备上运行。其中 Gemma 4 E4B 模型性能优于 GPT-4o，仅需 2GB RAM 即可在手机上运行。而 Gemma 4 31B 模型（约 Opus 4 级别）现在可以在笔记本电脑上运行。这标志着本地 AI 部署的重大突破，让更多用户无需依赖云端即可使用强大模型。

AI模型 Google Gemma 4 本地 AI 模型压缩量化

推荐理由：本地 AI 爱好者终于等到了——Gemma 4 QAT 让旗舰级模型跑在手机和笔记本上，做边缘计算或隐私敏感应用的开发者可以直接试试。

原文

6月5日

16:38

AI Will@FinanceYF5

72°

Google 提出 LEAP 框架，通过将数学问题拆解为目标树，并利用 Lean 验证器的反馈进行迭代学习，显著提升了大语言模型在数学竞赛中的表现。在 Putnam 2025 测试中，模型解出了全部 12 题，正确率从 10% 提升至 70%，在 IMO 风格基准上甚至超过了专用金牌级系统 48%。该框架不改变模型本身，仅通过结构优化释放了推理潜力，为 AI 数学推理提供了新思路。

论文 LEAP框架数学推理 Lean验证器目标树 Google

推荐理由：数学竞赛和形式化验证的开发者可以关注——LEAP 用结构优化而非模型升级就实现了 7 倍正确率提升，值得在类似推理任务中尝试。

原文

06:26

rohanpaul_ai@rohanpaul_ai

76°

Google 发布新论文 LEAP，提出一种智能体框架，让通用大语言模型（LLM）能够通过规划证明步骤、分解子目标、重用已有引理并与形式验证器 Lean 交互，显著提升形式数学证明能力。在 Putnam 2025 和 IMO 风格基准测试中，LEAP 将通用 LLM 的成功率从不足 10% 提升至 70%，并解决了所有 12 道 Putnam 2025 问题。该研究揭示了通用 LLM 在形式数学中的弱点并非数学能力不足，而是缺乏与验证器的结构化交互。LEAP 将证明存储为有向图，支持子目标复用，避免一次性生成庞大证明的失败模式。

论文 Google LEAP 形式数学智能体推理模型

推荐理由：这项研究解决了通用 LLM 在形式数学中「一次性写完整证明」的致命短板，做 AI 推理、数学辅助工具或形式验证的开发者值得关注——LEAP 的智能体框架思路可能启发更多复杂推理场景的改进。

原文

6月4日

23:12

Philipp Schmid@_philschmid

72°

Google 昨日发布 Gemma 4 12B 模型，并附有详细架构图解。该模型创新性地移除了视觉和音频编码器，仅用一个 12B 参数模型即可处理文本、图像和音频，无需独立的编码器模块。图解展示了编码器通常如何连接模态与大语言模型，以及 Gemma 4 如何通过单一模型实现多模态理解。这一设计简化了模型结构，降低了部署复杂度，对多模态 AI 研究者和开发者具有重要参考价值。

AI模型 Gemma 4 多模态模型架构 Google 图解

推荐理由：多模态模型架构的一次简化尝试，做模型部署或边缘推理的团队值得看看图解，理解无编码器方案如何降低资源开销。

原文

12:14

小互@imxiaohu

83°

Google 将 AI Edge Gallery 从手机端扩展到 macOS 桌面，用户下载安装后即可本地运行 Gemma 4 12B 模型。该应用内置沙盒 Python 环境，支持在聊天中编写代码并执行画图等操作。此外，Eloquent 功能支持语音交互，用户可以直接对着电脑说话。这降低了本地运行大模型的门槛，适合开发者和 AI 爱好者快速体验。

AI产品 Google AI Edge Gallery Gemma 4 macOS 本地模型

推荐理由：本地跑大模型终于不用折腾环境了，做原型验证或离线使用的开发者直接下载就能用，还带 Python 沙盒和语音交互，值得一试。

原文

10:00

Jeff Dean@JeffDean

精选

谷歌发布Gemma 4 12B模型，采用Apache 2.0许可证开放权重。该模型采用无编码器多模态架构，统一处理文本、图像等输入。12B参数规模可在笔记本电脑上直接运行，兼顾边缘效率与高级推理。

AI模型 Gemma 4 12B Google Apache 2.0 多模态开源模型

推荐理由：12B模型笔记本就能跑

原文

08:22

berryxia@berryxia

Google 昨晚发布了 Gemma 4 12B 多模态大模型，该模型支持文本和图像输入，最低只需 16GB 内存即可运行。这降低了多模态模型的本地部署门槛，适合个人开发者和资源受限的环境。与 Qwen 等同类模型的对比结果值得关注，可能影响开源多模态模型的竞争格局。

AI模型多模态模型 Gemma 4 Google 本地部署开源模型

推荐理由：多模态模型本地运行门槛进一步降低，做 AI 应用或本地部署的开发者可以关注 Gemma 4 与 Qwen 的对比，评估是否值得迁移或尝试。

原文

02:42

Google AI Developers@googleaidevs

Google AI 开发者团队宣布推出 Gemma 3 模型，该模型兼容 llama.cpp、MLX、LM Studio、vLLM、Ollama、UnslothAI 和 SGLang 等主流推理框架。权重已同步上传至 Kaggle 和 Hugging Face 平台，开发者可自由下载使用。这一发布意味着 Gemma 3 能无缝融入现有 AI 工具链，降低部署门槛。

AI模型 Gemma 3 Google 推理框架开源/仓库模型部署

推荐理由：Google 终于把 Gemma 3 的兼容性做全了——主流推理框架全覆盖，做本地部署或模型微调的开发者可以直接去 Hugging Face 下载权重，省去适配烦恼。

原文

02:35

Demis Hassabis@demishassabis

精选

Google 发布 Gemma 4 12B 模型，庆祝其总下载量突破 1.5 亿次。该模型体积小巧，仅需 16GB VRAM 即可在笔记本上本地运行。采用 Apache 2.0 开源许可证，开发者可自由使用和修改。

AI模型 Gemma Gemma 4 Google 开源模型

推荐理由：小模型也能本地跑，性能强

原文

01:57

Paul Couvert@itsPaulAi

Google 发布了 frame.md，这是 design.md 的视频版本，旨在让 AI 代理能够根据品牌规范生成视频。design.md 此前已用于保持屏幕上的品牌一致性，但应用到视频时，代理会将其转回网页和幻灯片。frame.md 解决了这一问题，它教会代理如何制作品牌视频，用户只需将 design.md 转换为 frame.md 即可。这一创新有望简化视频内容创作流程，尤其适合需要大量品牌视频的团队。

AI产品 Google frame.md 视频生成品牌一致性 AI代理

推荐理由：做品牌视频的团队终于有了 AI 可读的规范——frame.md 让代理直接生成符合品牌调性的视频，省去反复调整的麻烦，建议内容创作者和营销团队点开看看。

原文

00:33

Philipp Schmid@_philschmid

76°

Google 发布了 Gemma 4 12B，这是其首个支持原生音频输入的中型多模态模型。该模型采用无编码器架构，直接将视觉和音频信息融入大语言模型，仅需 16GB 内存即可运行。在基准测试中，其性能接近 26B 参数模型，且采用 Apache 2.0 开源许可。这标志着中小型模型在多模态能力上的重要突破，尤其适合资源受限的开发者。

AI模型 Gemma 4 多模态模型音频输入开源/仓库 Google

推荐理由：Gemma 4 12B 让中小团队也能用上原生音频多模态模型，16GB 内存门槛极低，做语音交互或视觉应用的开发者可以直接下载试试。

原文

00:12

Google Gemini App@GeminiApp

Google 宣布 Gemini Spark 进入 Beta 阶段，首先面向美国地区的 AI Ultra 订阅用户开放。Gemini Spark 是 Google 最新推出的 AI 模型，旨在提供更高效、更智能的对话体验。此次 Beta 发布标志着 Google 在 AI 领域的又一重要进展，用户可以通过订阅服务率先体验。该模型可能集成在 Gemini 应用中，支持更复杂的任务处理。

AI产品 Google Gemini Spark AI Ultra Beta 订阅服务

推荐理由：Google 在 AI 订阅服务上再落一子，Gemini Spark 的 Beta 上线意味着付费用户能抢先体验新能力。如果你是 AI Ultra 订阅者或关注 Google AI 生态，值得关注这次更新，看看它能否提升你的日常效率。

原文

6月3日

23:54

elvis@omarsar0

76°

Google 发布新研究 LEAP（Lean-Enhanced Agentic Programming），通过将通用大语言模型封装在智能体框架中，每一步都基于 Lean 编译器进行验证，并迭代利用验证器反馈。该框架使同一个通用模型解决了全部 12 道 Putnam 2025 数学竞赛题，并将 Lean-IMO-Bench 的一次性求解率从不到 10% 提升至 70%，超越了得分为 48% 的专用金牌系统。这项研究展示了定制智能体框架在数学推理任务上的巨大潜力，论文已发布在 arXiv 上。

论文智能体数学推理 Lean Google LEAP

推荐理由：做数学推理或智能体开发的团队值得关注——LEAP 用通用模型+验证反馈循环就超越了专用系统，说明智能体框架设计比模型本身更关键，建议点开论文看具体架构。

原文

6月2日

12:07

AI Will@FinanceYF5

Google 展示了其 Gemini Omni 模型的新能力，允许用户通过自然语言指令改变视频中的摄像机角度、调整视角或修改光照效果，同时保持物理规律和角色一致性。演示中，用户输入“把场景改成沙漠（其他不变）”，视频即被重新渲染。这一技术突破了传统视频编辑的局限，为内容创作者提供了前所未有的灵活性和控制力。它标志着多模态 AI 在视频理解和生成方面的重要进展，有望简化影视制作、广告和社交媒体内容创作流程。

AI产品 Gemini Omni 视频编辑多模态AI 内容创作 Google

推荐理由：视频创作者和后期团队终于可以像改文字一样改视频了——Gemini Omni 让你一句话调整视角和光照，还保持物理和角色一致，做内容生产的建议点开看看怎么用。

原文

10:23

AI Will@FinanceYF5

Google 在 YouTube 上推出名为 Ask YouTube 的对话式搜索体验，允许用户提出更复杂的查询，如规划加州海岸公路旅行或教孩子骑自行车的技巧。该功能会从 YouTube 全库（包括长视频和 Shorts）中整理最相关的视频，并以交互式结构化结果呈现，取代传统的视频推荐列表。目前仅对美国 Premium 会员开放，后续将向所有用户推广。这标志着 YouTube 搜索从关键词匹配向 AI 对话式理解的升级。

AI产品对话式搜索 YouTube Google AI 搜索 Premium 会员

推荐理由：YouTube 重度用户终于可以像聊天一样搜视频了——复杂问题直接问，不用再手动翻几十个结果。做内容创作或经常用 YouTube 查攻略的，值得先试 Premium 体验。

原文

09:13

Gary Marcus@GaryMarcus

精选

Gary Marcus 指出，当前 AI 行业（包括 Google）被误认为会重现搜索引擎的赢家通吃格局（Google 占超 95% 搜索市场），但实际各家都在用同样的数据和方案，没有护城河。他认为没有明确赢家时只能打价格战，导致企业成本远超未来利润。他以 Alphabet 为例：去年 1600 亿美元运营现金流，却仍需发行 400 亿美元股权融资 AI 算力。

行业 Gary Marcus Google Alphabet AI市场竞争价格战

推荐理由：Gary Marcus 质疑AI行业泡沫

原文

00:45

Patrick Loeber@patloeber

精选

Google 于 6 月 1 日正式停用 Gemini 2.0 Flash 和 Gemini 2.0 Flash-Lite 两款模型。官方推荐用户迁移至 Gemini 3.5 Flash 和 Gemini 3.1 Flash-Lite。此次调整不涉及其他 Gemini 版本。

AI模型 Gemini 2.0 Flash Gemini 3.5 Flash Google 模型升级

推荐理由：旧模型退役，快换新版本

原文

5月30日