精选 AI 资讯 · AI 热点

7月3日

11:04

berryxia@berryxia

精选

Google推出Paper Assistant Tool (PAT)，一个专门辅助学术审稿的AI框架。该工具能通读全文，检查理论推导、验证实验结果、标记潜在问题。其核心使用inference scaling进行深度分析，在SPOT benchmark上数学错误检测召回率提升34%。PAT已在STOC和ICML会议试点，帮助审稿人提前发现关键问题。

AI产品 Google Paper Assistant Tool SPOT benchmark 科研评审学术出版

推荐理由：Google搞了个审稿神器PAT，数学错误检测召回率飙升34%，已经在顶会试点。审稿人终于有AI帮手了。

原文

08:57

向阳乔木@vista8

精选

Google 发布了两个新的 Gemini 媒体模型：Nano Banana 2 Lite 和 Gemini Omni Flash。这两个模型均可在 Gemini 应用和 API 中使用。在 API 中，Nano Banana 2 Lite 能在 4 秒内生成图片，价格约为 1 美元 30 张 1K 分辨率图片。Gemini Omni Flash 的定价为 0.10 美元/秒。

AI模型 Gemini Nano Banana 2 Lite Gemini Omni Flash Google 图片生成

推荐理由：Google 发了两个新 Gemini 媒体模型，Nano Banana 2 Lite 生成图片只要 4 秒，1 美元能买 30 张；Omni Flash 按秒收费 0.1 美元，适合实时处理。

原文

7月2日

11:49

AI Will@FinanceYF5

精选

截至2026/5/30，OpenAI重大模型平均每51.8天更新一次，Anthropic为59.8天，Google为75.8天。三家公司迭代节奏差距明显，OpenAI保持最快发布频率。速度正成为AI公司竞争的新关键指标。

行业 OpenAI Anthropic Google 模型迭代速度

推荐理由：OpenAI 平均51.8天就发一个新模型，比Anthropic快8天、比Google快24天，迭代节奏才是真正的护城河。

原文

7月1日

03:51

Google AI@GoogleAI

精选

Google推出Nano Banana 2 Lite，这是其最快且成本最低的Gemini图像模型，文本转图像仅需不到4秒，已通过Gemini API和Google AI Studio提供。同时公开预览Gemini Omni Flash，这是一款原生多模态模型，用于高效视频生成和对话式编辑，可通过API和Enterprise Agent Platform使用。两者结合可快速生成图像并即时动画化，室内设计demo展示上传照片后生成定制概念并转化为动态视频。

AI模型 Nano Banana 2 Lite Gemini Omni Flash Google 图像生成视频生成

推荐理由：Google一口气发了两个模型：一个4秒出图，一个直接生成视频，还能连起来用，成本还低，搞创作的可以试试。

原文

03:07

The Rundown AI@therundownai

精选73°

Google今天发布两个新模型：Nano Banana 2 Lite用于图像生成，Gemini Omni Flash用于视频生成。Lite可在4秒内生成一张图像，价格为每千张0.034美元，适合高吞吐低成本任务。Omni Flash在LMArena文本到视频排行榜排名第一，在图像到视频和视频编辑中位列前二，仅次于Seedance 2.0，价格为每秒0.10美元。OpenAI的gpt-image-2仍在图像排行榜上保持领先。

AI模型 Nano Banana 2 Lite Gemini Omni Flash Google 图像生成视频生成

推荐理由：Google新出了两个模型：Lite低成本快速出图（4秒/张，千张34美元），Omni Flash视频生成在LMArena登顶，性价比不错。想省钱做图或搞视频的可以关注。

原文

00:52

Logan Kilpatrick@OfficialLoganK

精选

Google 发布两款新生成式媒体模型 Nano Banana 2 Lite 和 Gemini Omni Flash，集成在 Gemini API 和 AI Studio 中。Nano Banana 2 Lite 图像生成速度低于 4 秒，成本仅 $0.034/千张。Gemini Omni Flash 在视频编辑任务上达到 SOTA，定价 $0.10/秒，与 Veo 3.1 Fast 相同。两者均强调高效与低成本。

AI模型 Nano Banana 2 Lite Gemini Omni Flash Google 图像生成视频编辑

推荐理由：Google 发了两款新模型：一个 4 秒出图、千张只要 3 分 4；另一个视频编辑达到 SOTA 且和 Veo 3.1 Fast 一样便宜。

原文

6月26日

00:30

Google AI Developers@googleaidevs

精选73°

Google AI Devs 宣布 Gemini 3.5 Flash 的 Computer Use 工具正式可用。该工具支持在浏览器、移动和桌面环境中构建可看可操作的智能体，处理长时任务。新增特性包括：内置移动和桌面操作系统支持、所有函数调用的意图参数、可定制客户端函数支持人机交互接管、提示注入检测及可配置安全策略。可用于自动化 QA 测试和业务流程等场景。

AI产品 Gemini 3.5 Flash Computer Use 智能体自动化测试 Google

推荐理由：Google 给 Gemini 3.5 Flash 加了 Computer Use 工具，能让智能体跨浏览器、手机和桌面干活，还能自定义安全策略，实用！

原文

6月24日

06:51

Google AI Developers@googleaidevs

精选73°

Google 在 Gemini API 中推出 Managed Agents 功能，开发者只需一个 prompt 即可创建自主 Agent。该功能自动提供安全临时 Linux 沙箱，无需基础设施配置。Agent 可自主规划、纠错、执行代码。通过 agents.md 和 skills.md 文件定义指令和工具，Agent 能一次 API 调用完成研究主题、生成音频对话、创作音乐和专辑封面等复杂任务。

AI产品 Gemini API Managed Agents Google 智能体

推荐理由：Google 出了 Managed Agents，零配置让 Agent 自动干活，一个 prompt 就能研究主题并做出一个广播节目，比手动搭基础设施省心太多了。

原文

00:33

Philipp Schmid@_philschmid

精选71°

这篇指南由 Google AI Studio 发布，帮助开发者上手 Gemini Interactions API。它通过 `previous_interaction_id` 实现对话链式衔接，演示了如何启用和处理 streaming 响应。指南还展示了执行本地函数调用的完整循环，并介绍了在远程沙箱中运行 Antigravity Agent 的方法。

技巧 Gemini Interactions API Google 智能体工具调用

推荐理由：Google 官方出的 Gemini 交互 API 教程，从 streaming 到 agent 沙箱都有代码示例，想写多轮工具调用可以看这个。

原文

6月23日

02:09

Philipp Schmid@_philschmid

精选

Google 推出 Interactions API，提供单一 API 接口调用 Gemini 模型和智能体。该 API 包含隔离的远程 Linux 沙箱环境，支持异步后台运行的 background=True 参数。已集成图像生成 Nano Banana、音乐生成 Lyria 3，并预告未来支持视频生成 Omni。同时具备多模态工具调用与组合能力，以及专用编码技能。开发者可通过该 API 构建人类与智能体交互的应用。

AI产品 Interactions API Gemini Google 智能体多模态

推荐理由：Google 上线了 Interactions API，一个 API 就能调用 Gemini 模型和智能体，还有沙箱、图像音乐生成，异步运行很简单。

原文

6月18日

13:03

@atomic_chat_hq@atomic_chat_hq

精选

Diffusion Gemma 在单个H100（FP8）上速度达763 tok/s，比Gemma 4的218 tok/s快约4倍。但事实准确性测试中，Diffusion Gemma 33个事实正确、28个错误，而Gemma 4为45正确、5错误。话题越冷门错误越多：乔布斯传4错、俄罗斯方块12错、BeOS故事12错。Diffusion Gemma胡编了乔布斯的母亲名字和游戏同事名称，并将BeBox价格虚构为$9,999（实际$1,600）。

AI模型 Diffusion Gemma Gemma 4 Google 推理模型事实准确性

推荐理由：想用更快的推理速度就得接受更多幻觉，Google官方也为此打预防针了。

原文

13:00

@atomic_chat_hq@atomic_chat_hq

精选

Google Gemma 4 12B模型在RTX 4090上实测仅需9GB VRAM，生成8.9k tokens，速度80 tok/s，性能接近26B版本。其对比的Gemma 4 26B-A4B使用15GB VRAM，生成6.9k tokens，速度138 tok/s，所有场景胜出。但12B在近半VRAM下表现十分接近，成为16GB笔记本的理想选择。

AI模型 Gemma 4 12B 26B-A4B Google 推理模型

推荐理由：新Gemma 4 12B别看参数小，实测代码能力接近26B版，而且只需要9GB显存，16GB笔记本就能跑。

原文

6月17日

23:30

Philipp Schmid@_philschmid

精选

Phil Schmid 在推文中引用 Vicki Boykis 的教程，指出 Google 最新 Gemma 4 系列模型能在本地运行 agentic coding 循环，准确率和速度达到前沿模型的约 75%。该教程演示了如何使用本地模型进行编码任务。此前本地模型难以高效完成 agentic 工作流，Gemma 4 将这一差距缩小。

技巧 Gemma 4 Google 智能体编程助手本地模型

推荐理由：Vicki Boykis 教你用 Google Gemma 4 在本地跑 agentic coding，速度能到主流模型的 75%，不用联网也能用智能体写代码了。

原文

6月13日

13:08

Epoch AI@EpochAIResearch

精选72°

Epoch AI 发布 FrontierMath 基准测试 v2 版本，修复了 42% 的问题错误。新版本中，GPT-5.5 (xhigh) 在 Tier 1-3 上取得 85% 的准确率，Google 的 AI co-mathematician 在 Tier 4 上达到 76%。所有模型得分普遍提高，排名基本不变。

AI模型 FrontierMath GPT-5.5 Google Epoch AI 推理模型

推荐理由：数学基准更新，GPT-5.5和Google AI成绩亮眼

原文

13:08

rohanpaul_ai@rohanpaul_ai

精选73°

据 The Information 报道，Anthropic 正从租用云算力转向自建数据中心，计划在美国部署超 1GW 容量，Google 可能为其租赁付款提供担保。此前 Anthropic 已通过云服务商承诺超 10GW 服务器租赁，包括与 Google 的 2000 亿美元协议。该公司还锁定了与 Akamai、AWS、CoreWeave 和 Fluidstack 的大额云交易，涵盖 Amazon Trainium 硬件和 500 亿美元 Fluidstack 合作。此外，Anthropic 已签署 SpaceX/xAI 的 Colossus 1 数据中心整租协议，月费 12.5 亿美元，并预留 Colossus II 空间。

行业 Anthropic Google 数据中心算力云服务

推荐理由：Anthropic 自建数据中心，算力策略大转向

原文

6月12日

12:31

karminski-牙医 (AI工具)@karminski3

精选

Google发布了Gemma小模型的Diffusion版本，名为Diffusion Gemma，大小26B但激活参数量仅4B。与NVIDIA合作针对RTX 4090和5090优化，5090上每秒可生成700+ token。Diffusion模型像刮奖一样逐片生成文本，速度远快于传统逐字生成模型，但输出质量略低。在AIME 2026数学测试中达到Gemma4-26B-A4B的94%水平，在Agent能力测试中达到82%。4bit量化版本仅需16G显存即可运行。

AI模型 Diffusion模型 Gemma Google NVIDIA 推理加速

推荐理由：Diffusion Gemma把文本生成速度拉到单卡700TPS，做实时对话或高吞吐推理的团队可以直接用，4bit量化16G显存就能跑，值得试试能否做投机解码的草稿模型。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月7日

06:12

marktechpost@Asif Razzaq

精选

Google 推出了 Colab CLI 命令行工具，允许开发者和 AI 智能体在终端中直接连接远程 Colab 的 GPU 和 TPU 运行时，运行本地 Python 代码。这意味着无需打开浏览器，就能利用 Colab 的免费或付费计算资源。该工具支持无缝集成到现有工作流，尤其适合需要频繁迭代的机器学习实验和自动化任务。Colab CLI 的发布降低了 GPU/TPU 的使用门槛，让远程计算像本地命令一样简单。

AI产品 Colab CLI GPU/TPU 命令行工具机器学习 Google

推荐理由：Colab CLI 解决了开发者频繁切换浏览器和终端的痛点，做机器学习实验或跑 AI 模型的团队可以直接在终端里调用远程 GPU/TPU，省时又省心。建议试试，尤其是习惯命令行工作流的开发者。

原文

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

5月23日

21:11

Decoder@Jonathan Kemper

精选

Google 在其 Lighthouse 分析工具中新增了名为“Agentic Browsing”的实验性审计类别，用于测试网站对 AI 智能体的兼容性。该审计会检查网站是否包含 llms.txt 文件，该文件可帮助 AI 模型理解网站结构和内容。此举旨在推动网站优化以更好地支持 AI 代理的浏览和交互，提升智能体在网页上的自动化操作能力。这对依赖 AI 代理进行数据抓取或自动化任务的开发者具有重要意义。

AI产品 Google Lighthouse Agentic Browsing llms.txt 网站优化

推荐理由：做网站优化或 AI 代理开发的团队，这个新审计能帮你提前适配智能体浏览标准，建议点开看看具体检测项。

原文

08:27

rohanpaul_ai@rohanpaul_ai

精选72°

Google 发表新论文，提出 SensorFM，一个基于 500 万人超过 1 万亿分钟未标记穿戴传感器数据训练的基础模型。该模型旨在学习人类生理活动的通用模式，而非仅处理孤立事件。SensorFM 在 35 项预测任务中的 34 项上超越了传统特征工程方法，涵盖心血管、代谢、心理健康、睡眠和生活方式等领域。研究表明，穿戴数据的价值在于先学习其内在结构，而非过早压缩为粗略摘要。

论文基础模型穿戴设备生理信号 Google SensorFM

推荐理由：穿戴设备厂商和健康 AI 研究者终于有了一个通用基础模型，不用再为每个健康任务单独设计特征工程。做可穿戴健康分析的团队可以直接参考 SensorFM 的预训练思路，大幅降低模型开发成本。

原文

5月21日

07:59

LlamaIndex@llama_index

精选

Google 发布了 Agents API，这是一个在沙盒 Linux 环境中构建和运行自定义智能体的服务。LlamaIndex 团队随即构建了一个模板，使这些智能体能够集成 LlamaParse 和 LiteParse，自动处理非结构化文档。工作流程包括配置 Git 仓库、克隆到沙盒、安装解析工具和技能，然后让智能体自主执行任务。该方案让智能体可以直接处理真实世界的复杂文档，适合需要自动化文档处理的开发者。

AI产品智能体 Google LlamaIndex 文档解析沙盒环境

推荐理由：Google 的 Agents API 让智能体有了安全沙盒环境，LlamaIndex 的模板直接打通了文档解析能力，做文档自动化处理的团队可以立刻上手试试。

原文

5月20日

15:12

AI Will@FinanceYF5

精选72°

Google 提出 Nexus 框架，将时间序列预测从纯数值模式匹配转向事件驱动的推理问题。Nexus 通过多个智能体分别处理历史文本事件、宏观环境、局部冲击，并由合成器校准，让模型理解数字背后的原因。在 Zillow 房价测试中，基于 Claude 的版本相比直接思维链提示，平均绝对百分比误差（MAPE）降低 86.6%。虽然目前仅在有限数据集上验证，但方向明确：未来的预测不仅要外推曲线，还要解释曲线为何移动。

论文时间序列预测智能体推理模型 Google Claude

推荐理由：做时间序列预测的团队终于有了一个能理解「为什么涨跌」的框架，Nexus 把事件和数字结合，效果显著。做量化、经济预测或房地产分析的建议点开论文看看。

原文

15:08

AI Will@FinanceYF5

精选72°

Google 新论文 Nexus 提出，时间序列预测不应仅依赖历史曲线，还需理解背后的事件。该方法将预测任务拆分为多个 agent：整理事件、判断环境、追踪冲击和综合校准。在 Zillow 数据集测试中，使用 Claude 的 Nexus 版本比普通 CoT 提示平均 MAPE 降低 86.6%。这标志着预测模型从单纯画曲线转向解释曲线为何变动，为金融、房地产等领域提供更可解释的预测。

论文时间序列预测多智能体事件驱动 Google Claude

推荐理由：做时间序列预测的团队终于有了新思路——Nexus 把事件理解引入预测，MAPE 降低 86.6% 的效果值得在业务中试试。

原文

5月17日

23:39

rohanpaul_ai@rohanpaul_ai

精选72°

Google 发布新论文 Nexus，提出将时间序列预测重构为推理问题，通过多智能体框架引入事件上下文。在 Zillow 房价测试中，基于 Claude 的版本相比直接思维链提示，平均绝对百分比误差（MAPE）降低 86.6%。Nexus 将任务分解为多个智能体：一个将混乱历史文本转为事件时间线，一个读取宏观环境，一个追踪局部冲击，最后由合成器结合历史误差校准。论文认为，大多数时间序列模型擅长模式但忽视因果，而 Nexus 通过结构化上下文让语言模型更好地利用事件信息。目前证据限于 Zillow 数据和七支股票，但方向明确：未来预测不仅要外推曲线，还要解释曲线变动的原因。

论文时间序列预测多智能体框架因果推理 Google Claude

推荐理由：Nexus 把时间序列预测从纯数字游戏变成因果推理，做金融、房地产或供应链预测的团队值得关注——它用事件上下文把误差砍掉 86%，思路可以直接借鉴。

原文