全部 AI 动态 · AI 热点

6月30日

07:39

07:39IT之家（博客/媒体）

72°

谷歌宣布，Gemini应用的Nano Banana驱动个性化图像生成功能对全美免费用户开放。该功能基于用户授权连接的Gmail、谷歌相册、YouTube和谷歌搜索获取偏好。用户只需简单提示如“创作一幅包含我和个人爱好的插画”，Gemini即可自动判断元素并生成图像。用户可开启或关闭“个性化智能”，并自行选择Gemini可访问的应用。谷歌此前披露Gemini月活跃用户已突破7.5亿。

AI产品 Gemini Nano Banana 谷歌个性化图像生成

推荐理由：谷歌把Gemini的个性化生图免费开放了，它能根据你的相册和搜索记录自动生成贴合爱好的图像，不用写详细提示词了。

原文

04:20

techcrunch@Lauren Forristal

谷歌宣布，其Gemini聊天机器人的个性化AI图像生成功能现已向符合条件的美国免费用户开放。该功能允许Gemini根据用户兴趣及来自谷歌应用（如Gmail、日历）的数据生成定制图像。此举将原本仅限付费用户的功能扩展到免费层。用户可在对话中直接要求Gemini生成反映个人风格的图片。

AI产品 Gemini Google 图像生成个性化免费

推荐理由：谷歌把Gemini的个性化生图功能免费开放给美国用户了，能根据你存的数据生成专属图片，试试看。

原文

6月29日

02:45

Gary Marcus@GaryMarcus

据FT报道，Google因计算资源短缺限制了Meta对Gemini的使用。报道指出Google在向Meta出售Gemini时无法像预期那样自由。计算能力仍是AI领域最稀缺的资源。

行业 Google Meta Gemini 计算资源

推荐理由：Google资源不够，连Meta都用不上Gemini了，这背后是算力争夺战。

原文

6月28日

14:42

14:42IT之家（博客/媒体）

据英国《金融时报》报道，Meta 向谷歌申请的 Gemini 算力规模超出供给能力，谷歌自 3 月起对 Meta 调用其大模型实施限制。算力缺口导致 Meta 多项内部 AI 项目进度受阻，甚至要求员工节约使用 AI 词元（token）。谷歌云一季度营收达 200 亿美元，但 CEO 皮查伊表示算力瓶颈制约了云业务增速。

行业 Google Meta Gemini 算力云服务

推荐理由：谷歌因为算力不够直接限制Meta用Gemini，搞得Meta内部项目延期，员工都得省着点用token，大厂也缺算力啊。

原文

10:49

10:49IT之家（博客/媒体）

前英国政府数据科学家Liam Wilkinson用76个MCP工具将Claude、GPT-5、Gemini等四个AI模型投入《文明VI》进行23局测试。Claude在游戏中研发核弹摧毁法国城市图卢兹，但法国以20外交分获胜。AI主动检查全局状态的行为仅占1-2%，且48%-66%的计划在10回合内未执行。GPT-5在GovBench选择题中获99.26分，但在游戏中表现不佳。实验暴露了scaling law无法解决的感知盲区和知行差距问题。

AI模型 Claude GPT-5 Gemini 文明VI 感知盲区

推荐理由：有人让Claude、GPT-5、Gemini玩《文明VI》，结果Claude造核弹炸了法国却还是输了，暴露了AI在复杂决策中根本的感知和执行缺陷，比单纯比分数有意思多了。

原文

6月26日

10:30

10:30IT之家（博客/媒体）

苹果正式发布 Xcode 26.6 IDE，新增对谷歌 Gemini 编程助手的支持，与 Anthropic Claude Agents 和 OpenAI Codex 共同作为可选 AI 提供商。该版本包含 Swift 6.3.3 以及 iOS 26.5、iPadOS 26.5 等 SDK。同时新增 ACP 兼容能力，并修复了多个 Bug 以提升稳定性。目前 Xcode 26.6 已在 App Store 免费提供下载。

AI产品 Xcode Gemini Claude Codex 编程助手

推荐理由：苹果Xcode更新了，现在可以直接用Gemini、Claude或Codex帮你写代码，开发者的新选择。

原文

6月25日

10:45

arXiv cs.LG@Akshay Paruchuri, Sanmi Koyejo, Ehsan Adeli

精选

论文提出Facet-Probe审计框架，从选项、证据块、文档排序、图像集、混合模态五个维度测试18个前沿和开源MLLM的排序敏感性。采用贝叶斯项目反应模型分离排序噪声与各维度偏差，发现所有模型均非排序不变，各维度平均翻转率在24%至50%之间。Gemini在温度0下的同序控制显示，验证单元中存在远超解码器噪声的排序超额。最优模型仍有13.4%的试次输出翻转，提示词级缓解措施无法泛化到视觉推理。

论文 Facet-Probe MLLM Gemini 多模态模型可靠性

推荐理由：这篇论文用Facet-Probe测试了18个主流多模态大模型，发现它们对输入顺序都很敏感，最好的模型也错13.4%，提醒我们模型可靠性还不是想象中那么好。

原文

07:33

@koltregaskes@koltregaskes

72°

Gemini 3.5 Pro 发布推迟至7月，多个 Google DeepMind 关键研究人员已跳槽至 Anthropic 等竞争对手。在顶级模型排行榜上，Gemini 目前位列第三，与 Claude 和 ChatGPT/Codex 差距明显。Google 拥有远超对手的资源，但 Gemini 的表现和人才流失反映出内部问题。

AI模型 Gemini Google DeepMind Anthropic Claude 模型排行榜

推荐理由：谷歌的Gemini 3.5 Pro要拖到7月了，DeepMind的人还在往外跑，Anthropic趁机挖人。现在Gemini在排行榜上被Claude和ChatGPT甩开，看看这个局面多尴尬。

原文

07:26

07:26IT之家（博客/媒体）

顶尖AI研究员Jonas Adler和Alexander Pritzel离开谷歌，加入Anthropic。此前传奇研究员Noam Shazeer离职转投OpenAI，谷歌曾斥资27亿美元收购其团队以请他回归。DeepMind主管John Jumper（因AlphaFold获2024年诺贝尔化学奖）也跳槽至Anthropic。OpenAI和Anthropic均筹备上市，通过股权期权吸引人才，加剧谷歌人才流失。

行业 Anthropic Google Gemini Noam Shazeer 人才流失

推荐理由：谷歌又走了两位Gemini大将，加上诺奖得主John Jumper，全都跳去了Anthropic和OpenAI，AI人才战越来越激烈了。

原文

6月24日

06:52

Google AI Developers@googleaidevs

Google 发布 Gemini Interactions API，用一个端点统一处理文本、多模态输入（图片、音频、视频）、工具调用（Function Calling）和托管智能体。该 API 旨在降低开发复杂度，帮助开发者从提示词快速过渡到生产部署。开发者可在 Google AI Studio 中获取详细指南。

AI产品 Gemini Interactions API Google 多模态智能体

推荐理由：Google 把文本、多模态、工具和智能体塞进一个 API 里，少折腾接口，直接跑。

原文

6月23日

04:09

Philipp Schmid@_philschmid

Google Gemini 的 Interactions API 已正式发布（GA）。安装 Skill 后，编码代理能自动获得 Interactions API 的内置规则、正确 SDK 模式及当前模型版本。支持 Antigravity、Claude Code、Cursor 等代理。一条提示即可将现有应用迁移至新 API。迁移指南中的所有 API 变更由 Skill 自动应用。

技巧 Gemini Interactions API 编程助手 API迁移

推荐理由：Google 出了Gemini Interactions API 的官方 Skill，装上后你的编码代理一个提示就能自动迁移 API，支持 Claude Code、Cursor 等。

原文

02:42

Decoder@Matthias Bastian

Google DeepMind已将Interactions API设为Gemini模型和智能体的默认接口，取代了旧的generateContent API。新API采用简化schema和typed steps替代基于角色的结构。未来所有新的智能体功能将仅通过此API发布。

AI产品 Interactions API Gemini Google DeepMind 智能体

推荐理由：Google DeepMind给Gemini换了新API，以后做智能体全靠它，老接口被取代了，开发者得抓紧学。

原文

02:09

Philipp Schmid@_philschmid

精选

Google 推出 Interactions API，提供单一 API 接口调用 Gemini 模型和智能体。该 API 包含隔离的远程 Linux 沙箱环境，支持异步后台运行的 background=True 参数。已集成图像生成 Nano Banana、音乐生成 Lyria 3，并预告未来支持视频生成 Omni。同时具备多模态工具调用与组合能力，以及专用编码技能。开发者可通过该 API 构建人类与智能体交互的应用。

AI产品 Interactions API Gemini Google 智能体多模态

推荐理由：Google 上线了 Interactions API，一个 API 就能调用 Gemini 模型和智能体，还有沙箱、图像音乐生成，异步运行很简单。

原文

6月22日

23:59

23:59IT之家（博客/媒体）

谷歌DeepMind杰出工程师、Gemini预训练负责人弗拉基米尔·费恩伯格在博客中表示，想进入OpenAI、Anthropic、DeepMind等前沿实验室，需要像狗一样拼命干。他认为顶尖大学中最优秀的本科生和博士生已在顶级会议发表机器学习研究、参加竞赛，并具备目标感、数学成熟度和毅力。他建议学生选择以数学证明为基础的困难课程，牺牲夜晚和周末，并从前沿实验室的业务边界寻找突破口，比如模型运行所需的外部环节。此外，他提醒要成为同事愿意看到你成功的人，找到能促进团队互补的项目。

技巧 DeepMind Gemini OpenAI Anthropic 求职建议

推荐理由：DeepMind大佬亲授求职内幕：进顶级AI实验室没有捷径，但可以从前沿实验室的周边业务切入，还有具体能力要求，很实用。

原文

20:36

20:36IT之家（博客/媒体）

谷歌云与诺基亚于6月22日宣布扩展合作，将谷歌Gemini模型整合至诺基亚网络软件套件Nokia Assurance Center。双方基于Gemini开发了六个专项AI智能体，包括路由智能体、事件分类智能体、KPI选择器智能体、异常推理智能体、动作推理智能体和仪表板智能体。这些智能体帮助电信运营商降低运营成本、快速定位网络故障，并推动网络运维向全自动化演进。官方将于6月23日至25日在哥本哈根DTW Ignite大会现场演示上述智能体。

AI产品谷歌云诺基亚 Gemini 智能体电信网络运维

推荐理由：谷歌和诺基亚用Gemini做了六个电信运维智能体，能自动定位故障、推荐修复步骤，还支持自然语言生成仪表盘。运营商玩家可以看看怎么省钱提效。

原文

12:54

量子位@思邈

清华大学团队开源的空间智能模型被ECCV 2026接收。该模型在空间理解基准上得分超过Gemini。它能够处理120分钟的长视频并保持上下文。模型权重和代码已开源。

AI模型空间模型 ECCV2026 清华 Gemini 开源模型

推荐理由：清华这套空间模型在ECCV 2026上把Gemini比下去了，还能边看两小时长视频边记，玩空间理解的同学可以试试。

原文

6月21日

04:27

@zarazhangrui@zarazhangrui

一位用户日常使用Codex和Claude Code做编码任务，很少再打开ChatGPT。只有在需要快速网络搜索时，他会切换到Gemini。他认为Codex和Claude Code这类编码代理的输出质量通常优于ChatGPT聊天机器人。

技巧 Codex Claude Code ChatGPT Gemini 编程助手

推荐理由：试试用Codex或Claude Code代替ChatGPT，写代码效果更好，搜索可以切到Gemini。

原文

6月20日

20:42

20:42IT之家（博客/媒体）

71°

沙泽尔是2017年Transformer论文《Attention Is All You Need》共同作者，曾参与谷歌LaMDA等项目。2021年他离开谷歌创办Character.AI，2024年回归谷歌DeepMind担任工程副总裁和Gemini技术联席负责人。当地时间6月18日，他宣布加入OpenAI，OpenAI CEO奥尔特曼发文欢迎，表示从公司创立之初就希望与他合作。

行业沙泽尔 OpenAI 谷歌 Gemini Character.AI

推荐理由：Transformer作者沙泽尔从谷歌跳槽OpenAI，奥尔特曼等了10年终于招到。AI人才大战新动态，值得吃瓜。

原文

6月18日

15:25

Decoder@Matthias Bastian

Noam Shazeer是2017年Transformer论文《Attention Is All You Need》的合著者，曾共同领导Google Gemini模型。2024年他作为27亿美元交易的一部分从Character.AI重返Google，现又转投OpenAI。这是继Andrej Karpathy跳槽Anthropic后，今年AI行业第二次重大高管变动。

行业 Noam Shazeer OpenAI Google Gemini Transformer

推荐理由：Transformer论文作者Noam Shazeer从Google跳到OpenAI了，他去年刚从Character.AI回归Google，这次跳槽节奏很快。

原文

6月17日

23:33

23:33IT之家（博客/媒体）

谷歌于6月17日宣布推出新一代Google Home智能音箱，搭载Gemini for Home AI助手，定价100美元，6月25日上市。该音箱采用球形设计，支持360°环绕音效，配备四核Cortex-A55 2.0GHz处理器和1GB LPDDR4内存。Gemini助手支持自然语言交流和多步骤指令，如“关闭所有灯光，只保留床头灯”。用户可同时下达多个指令，系统也能理解改口指令。

AI产品 Google Home Gemini 谷歌智能音箱语音助手

推荐理由：谷歌新Home音箱搭载Gemini助手，能理解复杂指令和改口，比之前的Assistant聪明多了，还只要100美元。

原文

13:57

13:57IT之家（博客/媒体）

Wear OS 7 已面向 Pixel Watch 2、3 和 4 推送，官方称续航较 Wear OS 6 提升 10%。新系统引入手机端“实时更新”功能，可在手表追踪外卖、快递状态。新增音频切换器，支持无手机时管理多个设备的音乐播放。部分 2026 年发布的手表将获得 Gemini Intelligence 支持，可理解指令、调用应用并完成多步骤智能体任务，例如用语音创建定制化小部件。Gemini 还能结合“私人智能”调用 Google Docs 和 Gmail 的个人数据提供信息服务。

AI产品 Wear OS 7 Pixel Watch Gemini 智能体续航

推荐理由：谷歌给 Pixel Watch 2/3/4 推送 Wear OS 7，续航涨了 10%，还能用 Gemini 语音做小部件，赶紧升级看看。

原文

10:45

arXiv cs.AI@Weizhi Zhang, Zechen Li, Hamid Palangi, Ben Graef, A. Ali Heydari, Simon A. Lee, Salman Rahman, Ray Luo, Zeinab Esmaeilpour, Erik Schenck, Chloe Zhang, Yamin Li, Menglian Zhou, Philip S. Yu, Daniel McDuff, Lindsey Sunden, Mark Malhotra, Shwetak Patel, Ahmed A. Metwally

RubricsTree是一个专家对齐的分层评估框架，包含超过100个可临床验证的原子布尔规则，这些规则从4000个真实用户查询中通过迭代人机协作提炼而成。框架使用上下文自适应路由器为每个查询激活相关子集，实现可扩展且与专家质量对齐的评估。在元评估中，RubricsTree在专家对齐上显著超过强基线，且可靠惩罚上下文退化的响应。作为结构化指令、文本反馈或训练奖励用于性能优化时，RubricsTree在HealthBench上为Gemini、GPT和Qwen系列模型带来高达约66%的相对提升。

论文 RubricsTree HealthBench Gemini GPT 健康代理

推荐理由：RubricsTree用4000条真实查询构建100多条可验证规则，评估健康AI比LLM裁判更准，还能当训练奖励，让Gemini等模型性能飙升66%。

原文

05:27

Gary Marcus@GaryMarcus

Gary Marcus引用Andriy Burkov数据指出，OpenAI市场份额在2025年1月首次跌破50%。Google的Gemini凭借浏览器生态快速蚕食用户，纯LLM业务被认为缺乏粘性。普通用户难以区分ChatGPT与Gemini，倾向于使用Google整合服务。行业分析认为，控制浏览器入口将成为AI竞争的关键。

行业 OpenAI Google Gemini 市场份额大模型竞争

推荐理由：OpenAI市场份额跌破50%，Gemini靠浏览器生态追上了。谁控制浏览器谁赢，这数据挺说明问题。

原文

02:43