精选 AI 资讯 · AI 热点

6月25日

10:45

arXiv cs.LG@Akshay Paruchuri, Sanmi Koyejo, Ehsan Adeli

精选

论文提出Facet-Probe审计框架，从选项、证据块、文档排序、图像集、混合模态五个维度测试18个前沿和开源MLLM的排序敏感性。采用贝叶斯项目反应模型分离排序噪声与各维度偏差，发现所有模型均非排序不变，各维度平均翻转率在24%至50%之间。Gemini在温度0下的同序控制显示，验证单元中存在远超解码器噪声的排序超额。最优模型仍有13.4%的试次输出翻转，提示词级缓解措施无法泛化到视觉推理。

论文 Facet-Probe MLLM Gemini 多模态模型可靠性

推荐理由：这篇论文用Facet-Probe测试了18个主流多模态大模型，发现它们对输入顺序都很敏感，最好的模型也错13.4%，提醒我们模型可靠性还不是想象中那么好。

原文

6月23日

02:09

Philipp Schmid@_philschmid

精选

Google 推出 Interactions API，提供单一 API 接口调用 Gemini 模型和智能体。该 API 包含隔离的远程 Linux 沙箱环境，支持异步后台运行的 background=True 参数。已集成图像生成 Nano Banana、音乐生成 Lyria 3，并预告未来支持视频生成 Omni。同时具备多模态工具调用与组合能力，以及专用编码技能。开发者可通过该 API 构建人类与智能体交互的应用。

AI产品 Interactions API Gemini Google 智能体多模态

推荐理由：Google 上线了 Interactions API，一个 API 就能调用 Gemini 模型和智能体，还有沙箱、图像音乐生成，异步运行很简单。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

11:18

11:18IT之家（博客/媒体）

精选76°

苹果在 Xcode 27 Beta 中新增对谷歌 Gemini 的原生支持，使其成为继 OpenAI Codex 和 Anthropic Claude Agent 之后第三个内置的 AI 编程智能体。开发者无需切换工具即可在 Xcode 内完成复杂多步骤任务，如构建新功能、审查代码和修复 Bug。Gemini 能理解项目上下文，辅助生成样板代码，并根据项目文档更新整个项目。这一集成进一步丰富了苹果开发平台的 AI 编程能力，为开发者提供了更多选择。

AI产品 Xcode Gemini AI编程智能体苹果开发平台 Codex

推荐理由：苹果开发平台终于集齐三大 AI 编程智能体，做 iOS/macOS 开发的团队可以无缝切换使用 Gemini、Codex 或 Claude，建议在 Xcode 27 Beta 中体验多智能体协作的便利。

原文

6月9日

08:12

08:12Simon Willison’s Weblog（博客/媒体）

精选

苹果在WWDC 2026上发布了新版Siri AI，采用基于Gemini的定制模型，运行在私有云上。新Siri利用视觉大模型从用户屏幕提取信息，无需应用单独适配。苹果还推出了Core AI库，支持PyTorch模型在苹果硬件上运行。iOS 27开发者测试版已包含新功能，但需排队等待使用。

AI产品苹果 Siri AI 视觉大模型 Gemini Core AI

推荐理由：苹果终于用视觉LLM绕开了应用适配难题，做iOS开发或关注AI助手的开发者值得关注，新Core AI库也让本地模型部署更简单。

原文

6月4日

10:32

AI Will@FinanceYF5

精选

Sergey Brin在AGI House的炉边对话中表示，从核聚变到蛋白质折叠，专用科学模型正被通用模型取代，Gemini在数学和科学问答上已达到SOTA水平。他还讨论了“能解NP完全问题=超级智能”的观点，认为这很不寻常，因为大多数计算机科学家认为P≠NP，超级智能也无法做到。

行业通用模型科学模型 Gemini NP完全问题超级智能

推荐理由：Brin的洞察揭示了AI科学应用的范式转变——通用模型正在吞噬专用领域，做科学计算或AI研究的团队值得关注Gemini的最新进展。

原文

6月3日

10:19

10:19IT之家（博客/媒体）

精选

谷歌联系安卓应用开发者，希望付费获取私有代码库访问权，用于改进 Gemini、Antigravity 2.0 等开发者工具。开发者保留 100% 知识产权，授权为非独占，项目归属不变。谷歌寻找高质量真实世界代码库，包括运行中和已归档项目，以理解复杂逻辑并开发编码评测和基准测试。生产环境代码比公开仓库更接近日常软件开发，适合训练面向真实工程场景的 AI 工具。此举反映谷歌在编程 AI 领域面临 GitHub Copilot 和 Claude Code 的竞争压力，但也引发开发者对代码使用和隐私的信任问题。

行业谷歌 Gemini AI 编程代码库开发者工具

推荐理由：谷歌直接买代码来训练 AI 编程工具，说明真实工程数据比公开仓库更值钱——做安卓开发的开发者可以关注这个变现机会，同时警惕代码授权边界。

原文

08:47

Google DeepMind@GoogleDeepMind

精选

Google DeepMind 推出了 Co-Scientist，一个基于 Gemini 的多智能体系统，旨在作为科研人员的专属研究伙伴。该系统能够自动生成、辩论并演化针对复杂科学问题的新假设。Co-Scientist 通过多智能体协作，模拟科研团队的工作流程，有望加速科学发现过程。这一工具将帮助科学家更高效地探索未知领域，推动突破性进展。

AI产品多智能体系统科研助手 Gemini 假设生成 Google DeepMind

推荐理由：科研人员终于有了 AI 驱动的协作伙伴——Co-Scientist 能自动生成和优化假设，做基础研究或跨学科探索的团队可以直接用它加速发现，建议点开看看具体怎么用。

原文

6月1日

10:52

arXiv: DeepSeek@Jiwoo Choi, Seonwoo Ahn, Tongxin Zhang, Seohyon Jung

精选

一项研究对六种大语言模型（Claude、GPT、Gemini、DeepSeek、Syn-Pro、HyperCLOVA X）在英语、韩语、中文和日语中的性别刻板印象进行了审计。研究使用HEXACO-100人格量表，并以48国人类数据为基准，发现模型的性别偏见幅度比人类跨国家差异范围宽约2.5倍。例如，一个以英语为中心的模型在用韩语提示时，偏见水平达到当地人类基准的5倍，即使提示中明确候选人已被录用（这通常会减弱人类的刻板印象）。研究提出了一个四模式框架（一致、抑制、重组、放大）来描述24个（模型×语言）单元的行为，并发现翻译不仅会缩放刻板印象，还会改变与之关联的属性。结论是，没有单一的偏见消除流程能跨语言边界均匀地解决偏见问题。

论文性别偏见跨语言审计 HEXACO-100 Claude GPT Gemini DeepSeek HyperCLOVA X

推荐理由：这项研究揭示了AI性别偏见在跨语言环境下的复杂性和放大效应，对多语言AI部署团队和公平性研究者来说，是理解偏见机制、设计针对性缓解策略的关键参考。建议关注其四模式框架和跨语言属性重组发现。

原文

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

5月25日

15:37

Decoder@Jonathan Kemper

精选

北京大学研究人员发现，GPT、Gemini等主流AI模型在文档分析中经常给出正确答案，但引用的文本段落并不支持其结论。这种现象被称为“归因幻觉”，在法律、医学等需要严格引用来源的领域存在风险。为系统检测这一问题，团队推出了首个专门基准测试CiteVQA。该研究揭示了AI在推理与引用之间的不一致性，对依赖AI进行事实核查的用户具有警示意义。

论文归因幻觉 CiteVQA GPT Gemini 事实核查

推荐理由：做文档分析或事实核查的开发者要注意了——AI可能答对了但引用了错误来源，北大这个新基准能帮你识别这类风险，建议点开了解如何防范。

原文

5月22日

23:05

Philipp Schmid@_philschmid

精选83°

Google I/O 上，Phil Schmid 展示了 Gemini Managed Agents 的新 Interactions API，允许开发者通过一次 API 调用为 AI 提供一个安全托管的 Linux 沙箱环境。这个沙箱让 AI 可以执行代码、管理自己的内存，相当于拥有了一个独立的“电脑”。这大大简化了构建复杂智能体的流程，降低了开发门槛。对于需要让 AI 自主操作环境的场景，这是一个重要的基础设施更新。

AI产品智能体 Gemini API 沙箱 Google I/O

推荐理由：做智能体开发的团队终于可以省去自己搭建沙箱的麻烦——一次 API 调用就能给 AI 一个安全 Linux 环境，建议直接看演示。

原文

5月20日

08:22

08:22Simon Willison’s Weblog（博客/媒体）

精选

llm-gemini 0.32a0 版本发布，与 llm>=0.32a0 alpha 兼容。新版本增加了流式传输推理令牌的能力，让用户能实时看到模型的思考过程。这对于需要理解模型推理逻辑的开发者来说是一个重要更新。该版本主要面向使用 Gemini 模型的 LLM 命令行工具用户。

AI产品 Gemini LLM 流式推理命令行工具推理令牌

推荐理由：流式推理令牌让开发者能实时观察模型思考过程，做 AI 调试或教学演示的团队可以直接升级体验。

原文

5月19日

12:55

arXiv: OpenAI@Tanmay Asthana, Aman Saksena, Divyansh Sahu

精选76°

研究人员发布了针对深度研究代理（DRA）在管理咨询场景下的评测基准，包含42个专家撰写的任务，每个任务有平均13.8个确定性验证器和五维度0-3分专家评分。评测了Claude Opus 4.6、OpenAI o3-deep-research和Google Gemini 3.1 Pro，三者通过联合阈值（专家评分≥2.5且验证器通过率≥80%）的接受率均很低：Gemini 21.4%，o3和Claude仅9.5%。各模型失败模式不同：Claude输出最可靠但虚构最多，o3推理最清晰但遗漏章节和传播算术错误，Gemini表现两极分化。该基准通过嵌入认知陷阱来惩罚表面模式匹配，揭示了当前前沿DRA在专业分析任务上的严重不足。

论文评测基准深度研究代理管理咨询 Claude OpenAI o3 Gemini 认知陷阱

推荐理由：管理咨询团队和依赖AI做深度分析的开发者会震惊——三个最先进的DRA在专家级任务中通过率不到22%，且各有致命短板。想避免被AI的自信输出误导，建议仔细看这篇评测的失败模式分析。

原文

5月16日

18:03

Philipp Schmid@_philschmid

精选

Android 16 将原生支持 MCP（模型上下文协议），允许应用通过 `@AppFunction` 注解将功能暴露为工具，供 Gemini 等智能体调用。该机制完全在设备本地运行，无需服务器或网络往返，智能体可以跨应用链式调用功能，例如在一个应用中搜索邮件，在另一个应用中添加购物清单。目前已有早期访问计划开放测试。这标志着 Android 系统级智能体能力的重大升级，开发者可以开始探索如何让应用与 AI 智能体深度协作。

AI产品 Android MCP/工具 Gemini 智能体跨应用操作

推荐理由：Android 原生 MCP 让跨应用智能体操作不再依赖云端，做 Android 应用开发的团队可以直接接入测试，让 Gemini 帮你打通应用间的数据与功能。

原文

5月13日

15:38

15:38IT之家（博客/媒体）

精选

谷歌DeepMind在2026年The Android Show上发布Magic Pointer功能，旨在通过光标交互让AI理解用户意图，而不仅仅是识别指向位置。该功能允许用户通过语音和指针结合，自然地说“改一下这个”或“把那个移到这里”，无需复制粘贴内容到AI窗口。核心原则包括保持工作流、边指边说、支持模糊指代，以及将像素转化为可操作实体。谷歌已在AI Studio上线演示，并逐步将能力引入Chrome中的Gemini，让用户直接围绕网页内容操作。这标志着AI交互从独立窗口转向融入用户当前工具，提升效率。

AI产品谷歌 Magic Pointer 光标交互 AI助手 Gemini

推荐理由：谷歌把AI交互从“复制粘贴到对话框”变成了“指哪打哪”，做办公自动化或日常多任务处理的用户，可以直接在Chrome里试，体验比划式操作。

原文