全部 AI 动态 · AI 热点

6月26日

00:27

Decoder@Matthias Bastian

《华盛顿邮报》的一项调查发现，多数主流AI聊天机器人在政治问题上存在左倾倾向。OpenAI的GPT-5.5在80%的情况下只提供左倾论点。马斯克旗下标榜'反觉醒'的Grok模型也更多偏向左倾。唯一的例外是谷歌Gemini 3.1 Pro，它在93%的测试中呈现了双方观点。

行业 GPT-5.5 Grok Gemini 3.1 Pro AI偏见政治倾向

推荐理由：想知道你用的AI聊天机器人有没有政治立场？《华盛顿邮报》测了GPT-5.5、Grok和Gemini 3.1 Pro，结果左倾现象普遍，连Grok都没逃过。来看看数据。

原文

6月25日

08:25

08:25Simon Willison’s Weblog（博客/媒体）

精选

Simon Willison 受 Mozilla 的 MDN MCP 服务启发，将 mdn/browser-compat-data 仓库中的浏览器兼容性数据转换为约 66MB 的 SQLite 数据库。他使用 Claude Code for Web (Opus 4.8) 生成了转换脚本，并用 Codex Desktop (GPT-5.5) 构建了一个 GitHub Actions 工作流，将数据库推送到独立的 db 分支。该数据库托管在 GitHub 上并设置了 CORS 头，用户可通过 Datasette Lite 在线浏览和查询。

技巧 Mozilla MDN Claude Code GPT-5.5 GitHub Actions

推荐理由：Simon 用 Claude 和 GPT 帮你把 MDN 浏览器数据转成了 SQLite，能直接用 Datasette Lite 在线查，超方便。

原文

6月19日

03:29

Decoder@Matthias Bastian

OpenAI发布了ChatGPT的医疗功能升级，基于GPT-5.5 Instant模型。在内部对比测试中，该模型在准确性、清晰度和完整性上均超过医生撰写的答案。健康相关陈述的错误率降低了71%。OpenAI声称这是医疗问答能力的一次显著提升。

AI模型 GPT-5.5 ChatGPT OpenAI 医疗AI

推荐理由：OpenAI用GPT-5.5 Instant让ChatGPT在医疗问答上比医生答得更好，准确率提升了71%，值得试。

原文

6月18日

00:36

量子位@一水

某国产模型在多项关键医疗测评中超过GPT-5.5。这些测评覆盖多个专科方向，准确率指标领先。这表明国产医疗AI在核心性能上已实现突破。

AI模型 GPT-5.5 医疗AI 基准测试国产模型

推荐理由：国产医疗AI终于打败GPT-5.5了，评测成绩很能打，值得关心AI落地的人看一看。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

12:25

12:25IT之家（博客/媒体）

谷歌 6 月 15 日更新 Android Bench 榜单，测评 AI 模型在安卓开发任务中的表现。OpenAI 的 GPT-5.5 以 74 分排名第一，GPT-5.4 以 72.4 分第二，谷歌 Gemini 3.1 Pro Preview 同分第三。谷歌自家 Gemini 3.5 Flash 仅得 63.7 分，排第六，且单次运行平均成本 147.1 美元，为榜单最贵。DeepSeek V4 Flash 得分 52.7 排第 12，成本仅 8.4 美元，Gemini 3.5 Flash 成本是其 17.5 倍。

AI模型 Android Bench Gemini 3.5 Flash GPT-5.5 DeepSeek V4 Flash 开发辅助

推荐理由：谷歌新榜单实测，Gemini 3.5 Flash 在安卓开发任务中得分低、成本高，性价比远不如 DeepSeek V4 Flash。

原文

6月13日

20:47

Decoder@Jonathan Kemper

精选

微软与三所中国大学联合开发了SkillOpt方法，通过优化AI智能体的指令文档来提升性能。该方法仅需一个经过训练的Markdown文件，就能让GPT-5.5在程序性任务上提升约23个基准点。该文件还能跨模型和智能体环境迁移，如Codex和Claude Code。

AI模型 SkillOpt GPT-5.5 微软智能体 Codex

推荐理由：微软用Markdown文件让GPT-5.5涨23分

原文

18:21

Decoder@Matthias Bastian

73°

Anthropic 的 Claude Fable 5 在 FrontierMath 最难层级上达到 88% 准确率，较 Opus 4.5 在 2026 年初低于 10% 的成绩大幅提升。OpenAI 的 GPT-5.5 在同一层级上达到约 75%。两者差距为 13 个百分点，显示 AI 数学能力加速提升。

AI模型 Claude Fable 5 GPT-5.5 FrontierMath Anthropic 推理模型

推荐理由：Anthropic 新模型数学碾压 GPT-5.5

原文

16:54

Decoder@Matthias Bastian

Moonshot AI 发布了开源模型 Kimi K2.7 Code，拥有 1 万亿参数，专为编程任务设计。在编程基准测试中，Kimi K2.7 Code 仍落后于 GPT-5.5 和 Claude Opus 4.8，但每 token 价格比它们低 12 倍。用户需权衡：在相同预算下，使用 Kimi K2.7 Code 能获得更多推理次数，但质量可能有所下降。

AI模型 Kimi K2.7 Code Moonshot AI GPT-5.5 Claude Opus 4.8 开源模型

推荐理由：编程省钱利器，12倍性价比

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

04:31

04:31OpenAI Blog（博客/媒体）

Nextdoor 的工程师利用 OpenAI 的 Codex 模型（基于 GPT-5.5）来调查难以复现的问题、跨平台构建应用，并专注于产品成果。Codex 帮助他们自动化调试流程，减少重复劳动，从而将更多精力放在创新和用户体验上。这一实践展示了 AI 编程助手在真实生产环境中的价值，尤其适合处理复杂、跨平台的工程挑战。

AI产品编程助手 Codex GPT-5.5 跨平台开发调试工具

推荐理由：做全栈或跨平台开发的团队，如果被难复现的 bug 和平台适配折磨，可以看看 Nextdoor 怎么用 Codex 提效——直接复用他们的思路，能省下大量调试时间。

原文

6月4日

16:04

16:04IT之家（博客/媒体）

精选

安全研究员Kasra Rahjerdi搭建了一个故意留有漏洞的图书评论APK，测试多款AI大语言模型的安全推理能力。模型需解包APK并识别暴露的Firebase凭据以绕过API访问数据库。每个模型预算10美元，限时2小时，总花费1500美元。结果显示，GPT-5.5在10次运行中成功7次，每次成功成本9.46美元；DeepSeek V4 Pro成功3次，但每次成功成本仅0.62美元，约为GPT-5.5的十五分之一。Gemini多次在任务早期拒绝继续，而Claude Sonnet 4.6和Opus 4.8各成功2次。该测试揭示了不同模型在安全漏洞利用任务中的性能与成本差异，对批量运行安全工具的团队具有现实意义。

AI模型安全测试 GPT-5.5 DeepSeek V4 Pro 漏洞利用成本对比

推荐理由：安全团队和AI开发者可以直观看到不同模型在真实漏洞利用任务中的性价比——GPT-5.5最可靠但贵，DeepSeek V4 Pro成本极低但成功率有限，做自动化安全测试的团队值得参考这个对比。

原文

07:26

07:26OpenAI Blog（博客/媒体）

Wasmer 利用 OpenAI 的 Codex（基于 GPT-5.5）构建了一个专为边缘计算优化的 Node.js 运行时。通过 Codex 的代码生成能力，开发效率提升了 10 到 20 倍，原本需要数月的工作在几周内完成。这一成果展示了 AI 辅助编程在基础设施级项目中的实际价值，尤其适合需要快速迭代的边缘计算场景。

AI产品 Codex GPT-5.5 边缘计算 Node.js AI 辅助编程

推荐理由：边缘计算和 Node.js 开发者可以看看 Wasmer 如何用 Codex 把数月工期压缩到几周——AI 辅助编程在基础设施层落地了，值得借鉴。

原文

6月2日

16:11

Decoder@Matthias Bastian

OpenAI 宣布其 GPT-5.5、GPT-5.4 和 Codex 模型现可通过 Amazon Bedrock 平台使用，定价与 OpenAI 自有平台一致。这些模型在商业和政府 AWS 区域运行，但目前仅限于美国地区。使用量可计入现有 AWS 合同。此举使 AWS 客户能更方便地集成 OpenAI 模型，无需额外管理 API 密钥或基础设施。

AI产品 OpenAI AWS GPT-5.5 GPT-5.4 Codex

推荐理由：AWS 用户终于可以直接在 Bedrock 上调用 OpenAI 最新模型，无需切换平台或管理额外 API，做云上 AI 应用开发的团队值得关注。

原文

5月30日

02:59

02:59OpenAI Blog（博客/媒体）

Braintrust 的工程师利用 OpenAI 的 Codex 模型（基于 GPT-5.5）来加速实验和编码过程。通过将客户请求直接转化为可执行代码，团队显著缩短了从需求到实现的时间。这种方法不仅提高了开发效率，还减少了手动编码的错误率。Braintrust 的案例展示了 AI 在软件工程中的实际应用潜力，尤其是如何将自然语言需求无缝转换为生产级代码。

AI产品 Codex GPT-5.5 编程助手客户需求开发效率

推荐理由：做 AI 辅助开发的团队可以看看 Braintrust 如何用 Codex 把客户需求直接变成代码，效率提升明显，值得借鉴。

原文

5月29日

05:36

Decoder@Matthias Bastian

88°

Anthropic 推出了 Claude Opus 4.8，该模型在大多数基准测试中超越了 GPT-5.5 和 Gemini 3.1 Pro。相比前代，它发现自身编码错误的频率提高了四倍。同时，Anthropic 还推出了动态工作流功能，可启动数百个并行子智能体来处理代码库迁移等任务。这标志着 Claude 在性能和自动化能力上的显著提升。

AI模型 Claude Opus 4.8 GPT-5.5 Gemini 3.1 Pro 编码错误检测动态工作流

推荐理由：Claude Opus 4.8 在编码错误检测和并行任务处理上大幅进化，做大型代码库迁移或复杂自动化的开发者可以直接体验动态工作流带来的效率提升。

原文

5月28日

04:06

04:06OpenAI Blog（博客/媒体）

Warp 宣布与 OpenAI 深度合作，在其终端中集成 GPT-5.5 等模型，用于协调本地、云端和开源开发工作流中的编程智能体。这一举措旨在解决多环境协作中智能体调度和上下文管理的痛点，让开发者能更高效地利用 AI 辅助编程。Warp 的开源策略意味着更多开发者可以参与定制和扩展，可能改变终端 AI 助手的生态格局。

AI产品编程助手智能体 GPT-5.5 开源/仓库 Warp

推荐理由：Warp 用 GPT-5.5 打通了本地与云端的编程智能体协作，做跨环境开发的团队可以直接体验更流畅的 AI 辅助工作流，值得关注。

原文

5月27日

19:06

19:06IT之家（博客/媒体）

76°

Anthropic 工程师 Sholto Douglas 宣布，其 Claude Mythos 模型成功解出了 1946 年提出的“平面单位距离猜想”。该难题此前由 OpenAI 的 GPT-5.5 模型攻克。Douglas 表示，Claude Mythos 给出了一份“巧妙而简洁”的证明，并认为这显示了 AI 在数学发现领域的巨大潜力。测试中，团队搭建了多实例系统，让多个 Claude Code 实例独立探索证明路径，再汇总优化。数学家 Daniel Litt 评价称，Mythos 的结果“略逊于”OpenAI 的版本。

AI模型 Claude Mythos GPT-5.5 数学推理平面单位距离猜想多实例系统

推荐理由：AI 连续攻克经典数学难题，证明大模型在数学推理上正在突破边界。对数学研究者和 AI 能力观察者来说，这是值得关注的里程碑——Claude 的解法虽稍逊，但思路独特，建议点开对比两家思路。

原文

5月24日

10:50

Decoder@Matthias Bastian

Deepseek 宣布将其旗舰模型 V4-Pro 的 75% 折扣永久化，输入价格降至每百万 tokens 0.435 美元，比 GPT-5.5 便宜至少 11.5 倍，输出价格更是低 34 倍以上。这一激进定价策略针对 token 消耗大的智能体系统，可能对西方 AI 提供商造成巨大竞争压力。Deepseek 通过永久降价巩固其性价比优势，吸引更多开发者转向其平台。此举标志着 AI 模型价格战进入新阶段，尤其对依赖大规模推理的自动化应用影响深远。

AI模型 Deepseek V4-Pro 降价 GPT-5.5 智能体

推荐理由：做智能体或高 token 消耗应用的开发者，Deepseek 这个永久降价直接拉低了推理成本，比 GPT-5.5 便宜几十倍，值得立刻评估迁移。

原文

5月16日

08:36

08:36OpenAI Blog（博客/媒体）

Databricks 宣布在其企业智能体工作流中集成 OpenAI 的 GPT-5.5 模型。该模型在 OfficeQA Pro 基准测试中取得了新的最佳成绩。这一集成旨在帮助企业更高效地构建和部署基于 AI 的自动化工作流，提升办公场景下的任务处理能力。Databricks 的用户现在可以直接在平台上利用 GPT-5.5 的强大推理和生成能力。

AI产品 GPT-5.5 企业智能体工作流 Databricks 基准测试

推荐理由：企业 AI 团队终于有了一个经过基准验证的强模型来驱动智能体工作流——GPT-5.5 在 OfficeQA Pro 上的 SOTA 表现意味着办公自动化场景的准确率有望大幅提升，做企业级 AI 应用开发的团队值得关注。

原文

5月13日

06:17

06:17OpenAI Blog（博客/媒体）

OpenAI发布了与NVIDIA工程师和研究人员的合作案例，展示了Codex结合GPT-5.5如何帮助团队构建生产系统并将研究想法快速转化为可运行的实验。该工具显著提升了代码生成和实验迭代效率。这表明AI辅助开发正从原型阶段进入规模化生产应用。

AI产品编程助手代码生成 NVIDIA GPT-5.5 研发效率

推荐理由：典型案例揭示了AI编程助手在大型企业研发流程中的实际应用价值，对评估AI辅助工具在工业界的落地效果有参考意义。

原文