10:45arXiv cs.LG@Akshay Paruchuri, Sanmi Koyejo, Ehsan Adeli精选论文提出Facet-Probe审计框架,从选项、证据块、文档排序、图像集、混合模态五个维度测试18个前沿和开源MLLM的排序敏感性。采用贝叶斯项目反应模型分离排序噪声与各维度偏差,发现所有模型均非排序不变,各维度平均翻转率在24%至50%之间。Gemini在温度0下的同序控制显示,验证单元中存在远超解码器噪声的排序超额。最优模型仍有13.4%的试次输出翻转,提示词级缓解措施无法泛化到视觉推理。论文Facet-ProbeMLLMGemini多模态模型可靠性推荐理由:这篇论文用Facet-Probe测试了18个主流多模态大模型,发现它们对输入顺序都很敏感,最好的模型也错13.4%,提醒我们模型可靠性还不是想象中那么好。原文
02:09Philipp Schmid@_philschmid精选Google 推出 Interactions API,提供单一 API 接口调用 Gemini 模型和智能体。该 API 包含隔离的远程 Linux 沙箱环境,支持异步后台运行的 background=True 参数。已集成图像生成 Nano Banana、音乐生成 Lyria 3,并预告未来支持视频生成 Omni。同时具备多模态工具调用与组合能力,以及专用编码技能。开发者可通过该 API 构建人类与智能体交互的应用。AI产品Interactions APIGeminiGoogle智能体多模态推荐理由:Google 上线了 Interactions API,一个 API 就能调用 Gemini 模型和智能体,还有沙箱、图像音乐生成,异步运行很简单。原文
11:18IT之家(博客/媒体)精选76°苹果在 Xcode 27 Beta 中新增对谷歌 Gemini 的原生支持,使其成为继 OpenAI Codex 和 Anthropic Claude Agent 之后第三个内置的 AI 编程智能体。开发者无需切换工具即可在 Xcode 内完成复杂多步骤任务,如构建新功能、审查代码和修复 Bug。Gemini 能理解项目上下文,辅助生成样板代码,并根据项目文档更新整个项目。这一集成进一步丰富了苹果开发平台的 AI 编程能力,为开发者提供了更多选择。AI产品XcodeGeminiAI编程智能体苹果开发平台Codex10 个信源在谈推荐理由:苹果开发平台终于集齐三大 AI 编程智能体,做 iOS/macOS 开发的团队可以无缝切换使用 Gemini、Codex 或 Claude,建议在 Xcode 27 Beta 中体验多智能体协作的便利。原文
08:12Simon Willison’s Weblog(博客/媒体)精选苹果在WWDC 2026上发布了新版Siri AI,采用基于Gemini的定制模型,运行在私有云上。新Siri利用视觉大模型从用户屏幕提取信息,无需应用单独适配。苹果还推出了Core AI库,支持PyTorch模型在苹果硬件上运行。iOS 27开发者测试版已包含新功能,但需排队等待使用。AI产品苹果Siri AI视觉大模型GeminiCore AI3 个信源在谈推荐理由:苹果终于用视觉LLM绕开了应用适配难题,做iOS开发或关注AI助手的开发者值得关注,新Core AI库也让本地模型部署更简单。原文
10:32AI Will@FinanceYF5精选Sergey Brin在AGI House的炉边对话中表示,从核聚变到蛋白质折叠,专用科学模型正被通用模型取代,Gemini在数学和科学问答上已达到SOTA水平。他还讨论了“能解NP完全问题=超级智能”的观点,认为这很不寻常,因为大多数计算机科学家认为P≠NP,超级智能也无法做到。行业通用模型科学模型GeminiNP完全问题超级智能推荐理由:Brin的洞察揭示了AI科学应用的范式转变——通用模型正在吞噬专用领域,做科学计算或AI研究的团队值得关注Gemini的最新进展。原文
10:19IT之家(博客/媒体)精选谷歌联系安卓应用开发者,希望付费获取私有代码库访问权,用于改进 Gemini、Antigravity 2.0 等开发者工具。开发者保留 100% 知识产权,授权为非独占,项目归属不变。谷歌寻找高质量真实世界代码库,包括运行中和已归档项目,以理解复杂逻辑并开发编码评测和基准测试。生产环境代码比公开仓库更接近日常软件开发,适合训练面向真实工程场景的 AI 工具。此举反映谷歌在编程 AI 领域面临 GitHub Copilot 和 Claude Code 的竞争压力,但也引发开发者对代码使用和隐私的信任问题。行业谷歌GeminiAI 编程代码库开发者工具推荐理由:谷歌直接买代码来训练 AI 编程工具,说明真实工程数据比公开仓库更值钱——做安卓开发的开发者可以关注这个变现机会,同时警惕代码授权边界。原文
08:47Google DeepMind@GoogleDeepMind精选Google DeepMind 推出了 Co-Scientist,一个基于 Gemini 的多智能体系统,旨在作为科研人员的专属研究伙伴。该系统能够自动生成、辩论并演化针对复杂科学问题的新假设。Co-Scientist 通过多智能体协作,模拟科研团队的工作流程,有望加速科学发现过程。这一工具将帮助科学家更高效地探索未知领域,推动突破性进展。AI产品多智能体系统科研助手Gemini假设生成Google DeepMind推荐理由:科研人员终于有了 AI 驱动的协作伙伴——Co-Scientist 能自动生成和优化假设,做基础研究或跨学科探索的团队可以直接用它加速发现,建议点开看看具体怎么用。原文
10:52arXiv: DeepSeek@Jiwoo Choi, Seonwoo Ahn, Tongxin Zhang, Seohyon Jung精选一项研究对六种大语言模型(Claude、GPT、Gemini、DeepSeek、Syn-Pro、HyperCLOVA X)在英语、韩语、中文和日语中的性别刻板印象进行了审计。研究使用HEXACO-100人格量表,并以48国人类数据为基准,发现模型的性别偏见幅度比人类跨国家差异范围宽约2.5倍。例如,一个以英语为中心的模型在用韩语提示时,偏见水平达到当地人类基准的5倍,即使提示中明确候选人已被录用(这通常会减弱人类的刻板印象)。研究提出了一个四模式框架(一致、抑制、重组、放大)来描述24个(模型×语言)单元的行为,并发现翻译不仅会缩放刻板印象,还会改变与之关联的属性。结论是,没有单一的偏见消除流程能跨语言边界均匀地解决偏见问题。论文性别偏见跨语言审计HEXACO-100ClaudeGPTGeminiDeepSeekHyperCLOVA X推荐理由:这项研究揭示了AI性别偏见在跨语言环境下的复杂性和放大效应,对多语言AI部署团队和公平性研究者来说,是理解偏见机制、设计针对性缓解策略的关键参考。建议关注其四模式框架和跨语言属性重组发现。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……
15:37Decoder@Jonathan Kemper精选北京大学研究人员发现,GPT、Gemini等主流AI模型在文档分析中经常给出正确答案,但引用的文本段落并不支持其结论。这种现象被称为“归因幻觉”,在法律、医学等需要严格引用来源的领域存在风险。为系统检测这一问题,团队推出了首个专门基准测试CiteVQA。该研究揭示了AI在推理与引用之间的不一致性,对依赖AI进行事实核查的用户具有警示意义。论文归因幻觉CiteVQAGPTGemini事实核查推荐理由:做文档分析或事实核查的开发者要注意了——AI可能答对了但引用了错误来源,北大这个新基准能帮你识别这类风险,建议点开了解如何防范。原文
23:05Philipp Schmid@_philschmid精选83°Google I/O 上,Phil Schmid 展示了 Gemini Managed Agents 的新 Interactions API,允许开发者通过一次 API 调用为 AI 提供一个安全托管的 Linux 沙箱环境。这个沙箱让 AI 可以执行代码、管理自己的内存,相当于拥有了一个独立的“电脑”。这大大简化了构建复杂智能体的流程,降低了开发门槛。对于需要让 AI 自主操作环境的场景,这是一个重要的基础设施更新。AI产品智能体GeminiAPI沙箱Google I/O推荐理由:做智能体开发的团队终于可以省去自己搭建沙箱的麻烦——一次 API 调用就能给 AI 一个安全 Linux 环境,建议直接看演示。原文
08:22Simon Willison’s Weblog(博客/媒体)精选llm-gemini 0.32a0 版本发布,与 llm>=0.32a0 alpha 兼容。新版本增加了流式传输推理令牌的能力,让用户能实时看到模型的思考过程。这对于需要理解模型推理逻辑的开发者来说是一个重要更新。该版本主要面向使用 Gemini 模型的 LLM 命令行工具用户。AI产品GeminiLLM流式推理命令行工具推理令牌推荐理由:流式推理令牌让开发者能实时观察模型思考过程,做 AI 调试或教学演示的团队可以直接升级体验。原文
12:55arXiv: OpenAI@Tanmay Asthana, Aman Saksena, Divyansh Sahu精选76°研究人员发布了针对深度研究代理(DRA)在管理咨询场景下的评测基准,包含42个专家撰写的任务,每个任务有平均13.8个确定性验证器和五维度0-3分专家评分。评测了Claude Opus 4.6、OpenAI o3-deep-research和Google Gemini 3.1 Pro,三者通过联合阈值(专家评分≥2.5且验证器通过率≥80%)的接受率均很低:Gemini 21.4%,o3和Claude仅9.5%。各模型失败模式不同:Claude输出最可靠但虚构最多,o3推理最清晰但遗漏章节和传播算术错误,Gemini表现两极分化。该基准通过嵌入认知陷阱来惩罚表面模式匹配,揭示了当前前沿DRA在专业分析任务上的严重不足。论文评测基准深度研究代理管理咨询ClaudeOpenAI o3Gemini认知陷阱10 个信源在谈推荐理由:管理咨询团队和依赖AI做深度分析的开发者会震惊——三个最先进的DRA在专家级任务中通过率不到22%,且各有致命短板。想避免被AI的自信输出误导,建议仔细看这篇评测的失败模式分析。原文
18:03Philipp Schmid@_philschmid精选Android 16 将原生支持 MCP(模型上下文协议),允许应用通过 `@AppFunction` 注解将功能暴露为工具,供 Gemini 等智能体调用。该机制完全在设备本地运行,无需服务器或网络往返,智能体可以跨应用链式调用功能,例如在一个应用中搜索邮件,在另一个应用中添加购物清单。目前已有早期访问计划开放测试。这标志着 Android 系统级智能体能力的重大升级,开发者可以开始探索如何让应用与 AI 智能体深度协作。AI产品AndroidMCP/工具Gemini智能体跨应用操作推荐理由:Android 原生 MCP 让跨应用智能体操作不再依赖云端,做 Android 应用开发的团队可以直接接入测试,让 Gemini 帮你打通应用间的数据与功能。原文
15:38IT之家(博客/媒体)精选谷歌DeepMind在2026年The Android Show上发布Magic Pointer功能,旨在通过光标交互让AI理解用户意图,而不仅仅是识别指向位置。该功能允许用户通过语音和指针结合,自然地说“改一下这个”或“把那个移到这里”,无需复制粘贴内容到AI窗口。核心原则包括保持工作流、边指边说、支持模糊指代,以及将像素转化为可操作实体。谷歌已在AI Studio上线演示,并逐步将能力引入Chrome中的Gemini,让用户直接围绕网页内容操作。这标志着AI交互从独立窗口转向融入用户当前工具,提升效率。AI产品谷歌Magic Pointer光标交互AI助手Gemini推荐理由:谷歌把AI交互从“复制粘贴到对话框”变成了“指哪打哪”,做办公自动化或日常多任务处理的用户,可以直接在Chrome里试,体验比划式操作。原文