谷歌推出Interactions API，统一AI模型与智能体

模型发布/更新

Model Releases

5 篇

AWS多模态AI可搜索航空影像：Amazon Nova嵌入评测

X·KOLX：AWS Machine Learning Blog (@Gilbert V Lepadatu)原文 ↗

AWS博客介绍了基于Amazon Bedrock和OpenSearch Serverless构建的可搜索航空影像系统架构。团队使用OpenStreetMap地面实况数据设计了四项实验，对比了嵌入模型、融合策略、字幕生成和搜索方法。其中Amazon Nova Multimodal Embeddings在基准查询中取得了最高的F1分数。该系统最终演变为Vexcel Intelligence产品，为地理空间语义搜索提供了实用指导。

Sakana AI 发布 Sakana Fugu 编排模型，路由任务至可替换 LLM 池

X·KOLX：marktechpost (@Asif Razzaq)原文 ↗

Sakana AI 推出 Sakana Fugu，一种编排模型，可将用户任务动态路由至可替换的前沿 LLM 池。其增强版 Fugu Ultra 在多个编码、推理和智能体基准测试中取得领先成绩。该模型通过选择最适合的模型来提升任务效率，无需用户手动切换。

百度开源Unlimited-OCR，一次处理几百页文档，速度超快

X·KOLX：berryxia (@berryxia)原文 ↗

百度在Hugging Face上开源了Unlimited-OCR模型，其核心创新是R-SWA（Reference Sliding Window Attention），让KV Cache保持恒定，避免随页数爆炸。该模型可一次性解析单张图或多页PDF，在OmniDocBench上获得93分，比DeepSeek-OCR高出6个百分点。它取代了传统“分块+拼接”流程，实现端到端长文档理解，输出质量更高。

Sakana Fugu Ultra发布：多智能体系统性能媲美Fable和Mythos

X·KOLX：elvis (@omarsar0)原文 ↗

Sakana AI推出Fugu Ultra多智能体编排系统，通过单一模型API即可调用。在程序化地形生成（Three.js）测试中，Fugu Ultra一次生成效果与Fable和Mythos相当。该模型规避了出口管制风险，属于前沿能力级别。

GLM-5.2 登顶 HTML Web Design 排行榜，超越 Claude Opus 4.6/4.7

X·KOLX：SiliconFlowAI (@siliconflowai)原文 ↗

GLM-5.2 在 Designarena 的 HTML Web Design 排行榜上取得第一，超越了此前长期占据榜首的 Claude Opus 4.6 和 4.7。该模型已通过 SiliconFlow API 提供使用。开发者可以立即调用 GLM-5.2 构建 HTML 网页设计项目。

产品发布/更新

Product

5 篇

Claude Code v2.1.186发布：新增MCP认证和状态过滤等功能

X·KOLX：Claude Code: GitHub Releases (@ashwin-ant)原文 ↗

Claude Code v2.1.186 新增了 `claude mcp login` 和 `claude mcp logout` 命令，支持从 CLI 认证 MCP 服务器。`/workflows` 代理详情视图新增状态过滤（按 f 键）。`/plugin Installed` 标签页增加了“Skills”部分。修复了机器从睡眠唤醒后流请求失败、子代理滚动位置污染主会话等问题。改进了内存管理，当 MEMORY.md 索引接近大小限制时会提醒代理进行压缩。

xAI 在 Grok Build 中推出 /goal，支持长期自主执行与内置验证的编码任务

X·KOLX：marktechpost (@Michal Sutter)原文 ↗

xAI 在 Grok Build 中引入 /goal 模式，允许用户交付单一目标后由代理自主规划、执行进度列表并验证结果，直至目标完成。该模式针对多步骤编码任务设计，内置验证机制确保每一步正确性。Grok Build 由此获得长期运行、无人监督的自动化能力。

OpenAI 扩展 Daybreak，推出 Codex 安全插件和 GPT-5.5-Cyber 模型

X·KOLX：OpenAI (@OpenAI)原文 ↗

OpenAI 宣布扩大 Daybreak 计划，新增 Codex Security 插件，允许用户在 Codex 内发现、验证和修复漏洞。同时发布完整版 GPT-5.5-Cyber 模型，专为可信防御者设计。Cyber Partner Program 允许安全公司基于 OpenAI 的安全能力构建产品。Patch the Planet 项目则与维护者合作，保护关键开源项目。

Deep Agents v0.6 发布代码解释器，减少往返和 token 开销

X·KOLX：LangChain (@LangChainAI)原文 ↗

Deep Agents v0.6 新增代码解释器，代理可在运行时调用工具。中间结果保留在模型上下文之外，仅传回相关输出。这减少了往返次数和 token 浪费。该版本由 LangChain 发布。

Google AI Studio 推出 Interactions API，支持多模型与智能体协同

X·KOLX：Logan Kilpatrick (@OfficialLoganK)原文 ↗

Google AI Studio 发布 Interactions API 正式版（GA），该新 API 旨在让用户在同一界面内编排不同模型和智能体，已成为 AI Studio 新的默认 API。Interactions API 为智能体（Agents）新阶段奠定基础，开发者可更高效地构建跨模型工作流。

行业动态

Industry

5 篇

Claude Code团队负责人分享工程管理9大经验

X·KOLX：Lenny Rachitsky (@lennysan)原文 ↗

Anthropic工程师一年内代码输出量增长8倍，验证成为最大挑战，团队采用“bad vs sad”追踪框架区分不可恢复错误与可恢复痛点。工程师因独立工作出现孤独感，团队引入配对编程午餐缓解。Anthropic构建了统计用户对Claude Code说脏话频率的仪表盘，作为体验评估代理指标。产品机会来源于非编码用户的潜在需求，如用Claude Code分析MRI或恢复婚礼照片。团队从半年规划转为月度规划，并赋予成员“杀死无效流程”的权限。

OpenAI 推出 Daybreak 网络安全合作伙伴计划，引入 GPT-5.5 防御能力

X·KOLX：OpenAI (@OpenAI)原文 ↗

OpenAI 宣布启动 Daybreak Cyber Partner Program，与领先的安全软件和服务提供商合作。合作伙伴可在其安全产品和服务中使用 GPT-5.5 with Trusted Access for Cyber。客户能受益于该模型的防御能力，提升软件韧性，但直接模型访问权由合作伙伴控制。该计划旨在通过渠道模式推广 AI 安全能力。

模型路由与模型合议制的思考

X·KOLX：Harrison Chase (@hwchase17)原文 ↗

LangChain创始人hwchase17对比了模型路由（route to one best model）和模型合议制（pass to many models并聚合响应），认为前者主要为了成本，后者提升前沿性能。他引用@OpenRouter的Fusion和@SakanaAILabs的fugu作为合议制案例，并提到@nlarusstone将其用于棘手生物问题。作者对模型路由效果存疑，认为prompt caching和用户反馈缺失是问题，更倾向先实施成本控制（如LangChain的按模型设置支出上限）。Dax补充了用户需培养模型感知的观点。

美光与Anthropic达成战略合作，涵盖HBM、DRAM和SSD

X·KOLX：berryxia (@berryxia)原文 ↗

美光宣布与Anthropic签署多年期合作协议，涉及HBM、DRAM和SSD，双方将围绕Claude工作负载共同设计内存和存储架构。美光还参与了Anthropic的Series H融资，并在内部部署Claude。此合作使美光同时成为Anthropic的投资者、客户、供应商和合作伙伴，标志着AI基础设施垂直整合的新趋势。

Anthropic与Micron合作设计AI内存架构

X·KOLX：Decoder (@Matthias Bastian)原文 ↗

美光投资Anthropic的H轮融资，并获得多年期合同，为Claude的基础设施供应内存。Anthropic联合创始人Tom Brown称内存对训练和运行Claude至关重要。批评者认为这种循环交易正在制造泡沫。美光股价在一年内飙升超过十倍。

技巧与观点

Tips & Takes

5 篇

今日事件

一手报道

新模型

信源

AITOP日报