00:27Decoder@Matthias Bastian《华盛顿邮报》的一项调查发现,多数主流AI聊天机器人在政治问题上存在左倾倾向。OpenAI的GPT-5.5在80%的情况下只提供左倾论点。马斯克旗下标榜'反觉醒'的Grok模型也更多偏向左倾。唯一的例外是谷歌Gemini 3.1 Pro,它在93%的测试中呈现了双方观点。行业GPT-5.5GrokGemini 3.1 ProAI偏见政治倾向10 个信源在谈推荐理由:想知道你用的AI聊天机器人有没有政治立场?《华盛顿邮报》测了GPT-5.5、Grok和Gemini 3.1 Pro,结果左倾现象普遍,连Grok都没逃过。来看看数据。原文
08:25Simon Willison’s Weblog(博客/媒体)精选Simon Willison 受 Mozilla 的 MDN MCP 服务启发,将 mdn/browser-compat-data 仓库中的浏览器兼容性数据转换为约 66MB 的 SQLite 数据库。他使用 Claude Code for Web (Opus 4.8) 生成了转换脚本,并用 Codex Desktop (GPT-5.5) 构建了一个 GitHub Actions 工作流,将数据库推送到独立的 db 分支。该数据库托管在 GitHub 上并设置了 CORS 头,用户可通过 Datasette Lite 在线浏览和查询。技巧MozillaMDNClaude CodeGPT-5.5GitHub Actions2 个信源在谈推荐理由:Simon 用 Claude 和 GPT 帮你把 MDN 浏览器数据转成了 SQLite,能直接用 Datasette Lite 在线查,超方便。原文
03:29Decoder@Matthias BastianOpenAI发布了ChatGPT的医疗功能升级,基于GPT-5.5 Instant模型。在内部对比测试中,该模型在准确性、清晰度和完整性上均超过医生撰写的答案。健康相关陈述的错误率降低了71%。OpenAI声称这是医疗问答能力的一次显著提升。AI模型GPT-5.5ChatGPTOpenAI医疗AI10 个信源在谈推荐理由:OpenAI用GPT-5.5 Instant让ChatGPT在医疗问答上比医生答得更好,准确率提升了71%,值得试。原文
00:36量子位@一水某国产模型在多项关键医疗测评中超过GPT-5.5。这些测评覆盖多个专科方向,准确率指标领先。这表明国产医疗AI在核心性能上已实现突破。AI模型GPT-5.5医疗AI基准测试国产模型推荐理由:国产医疗AI终于打败GPT-5.5了,评测成绩很能打,值得关心AI落地的人看一看。原文
12:25IT之家(博客/媒体)谷歌 6 月 15 日更新 Android Bench 榜单,测评 AI 模型在安卓开发任务中的表现。OpenAI 的 GPT-5.5 以 74 分排名第一,GPT-5.4 以 72.4 分第二,谷歌 Gemini 3.1 Pro Preview 同分第三。谷歌自家 Gemini 3.5 Flash 仅得 63.7 分,排第六,且单次运行平均成本 147.1 美元,为榜单最贵。DeepSeek V4 Flash 得分 52.7 排第 12,成本仅 8.4 美元,Gemini 3.5 Flash 成本是其 17.5 倍。AI模型Android BenchGemini 3.5 FlashGPT-5.5DeepSeek V4 Flash开发辅助10 个信源在谈推荐理由:谷歌新榜单实测,Gemini 3.5 Flash 在安卓开发任务中得分低、成本高,性价比远不如 DeepSeek V4 Flash。原文
20:47Decoder@Jonathan Kemper精选微软与三所中国大学联合开发了SkillOpt方法,通过优化AI智能体的指令文档来提升性能。该方法仅需一个经过训练的Markdown文件,就能让GPT-5.5在程序性任务上提升约23个基准点。该文件还能跨模型和智能体环境迁移,如Codex和Claude Code。AI模型SkillOptGPT-5.5微软智能体Codex推荐理由:微软用Markdown文件让GPT-5.5涨23分原文
18:21Decoder@Matthias Bastian73°Anthropic 的 Claude Fable 5 在 FrontierMath 最难层级上达到 88% 准确率,较 Opus 4.5 在 2026 年初低于 10% 的成绩大幅提升。OpenAI 的 GPT-5.5 在同一层级上达到约 75%。两者差距为 13 个百分点,显示 AI 数学能力加速提升。AI模型Claude Fable 5GPT-5.5FrontierMathAnthropic推理模型10 个信源在谈推荐理由:Anthropic 新模型数学碾压 GPT-5.5原文
16:54Decoder@Matthias BastianMoonshot AI 发布了开源模型 Kimi K2.7 Code,拥有 1 万亿参数,专为编程任务设计。在编程基准测试中,Kimi K2.7 Code 仍落后于 GPT-5.5 和 Claude Opus 4.8,但每 token 价格比它们低 12 倍。用户需权衡:在相同预算下,使用 Kimi K2.7 Code 能获得更多推理次数,但质量可能有所下降。AI模型Kimi K2.7 CodeMoonshot AIGPT-5.5Claude Opus 4.8开源模型7 个信源在谈推荐理由:编程省钱利器,12倍性价比原文
04:31OpenAI Blog(博客/媒体)Nextdoor 的工程师利用 OpenAI 的 Codex 模型(基于 GPT-5.5)来调查难以复现的问题、跨平台构建应用,并专注于产品成果。Codex 帮助他们自动化调试流程,减少重复劳动,从而将更多精力放在创新和用户体验上。这一实践展示了 AI 编程助手在真实生产环境中的价值,尤其适合处理复杂、跨平台的工程挑战。AI产品编程助手CodexGPT-5.5跨平台开发调试工具10 个信源在谈推荐理由:做全栈或跨平台开发的团队,如果被难复现的 bug 和平台适配折磨,可以看看 Nextdoor 怎么用 Codex 提效——直接复用他们的思路,能省下大量调试时间。原文
16:04IT之家(博客/媒体)精选安全研究员Kasra Rahjerdi搭建了一个故意留有漏洞的图书评论APK,测试多款AI大语言模型的安全推理能力。模型需解包APK并识别暴露的Firebase凭据以绕过API访问数据库。每个模型预算10美元,限时2小时,总花费1500美元。结果显示,GPT-5.5在10次运行中成功7次,每次成功成本9.46美元;DeepSeek V4 Pro成功3次,但每次成功成本仅0.62美元,约为GPT-5.5的十五分之一。Gemini多次在任务早期拒绝继续,而Claude Sonnet 4.6和Opus 4.8各成功2次。该测试揭示了不同模型在安全漏洞利用任务中的性能与成本差异,对批量运行安全工具的团队具有现实意义。AI模型安全测试GPT-5.5DeepSeek V4 Pro漏洞利用成本对比推荐理由:安全团队和AI开发者可以直观看到不同模型在真实漏洞利用任务中的性价比——GPT-5.5最可靠但贵,DeepSeek V4 Pro成本极低但成功率有限,做自动化安全测试的团队值得参考这个对比。原文
07:26OpenAI Blog(博客/媒体)Wasmer 利用 OpenAI 的 Codex(基于 GPT-5.5)构建了一个专为边缘计算优化的 Node.js 运行时。通过 Codex 的代码生成能力,开发效率提升了 10 到 20 倍,原本需要数月的工作在几周内完成。这一成果展示了 AI 辅助编程在基础设施级项目中的实际价值,尤其适合需要快速迭代的边缘计算场景。AI产品CodexGPT-5.5边缘计算Node.jsAI 辅助编程10 个信源在谈推荐理由:边缘计算和 Node.js 开发者可以看看 Wasmer 如何用 Codex 把数月工期压缩到几周——AI 辅助编程在基础设施层落地了,值得借鉴。原文
16:11Decoder@Matthias BastianOpenAI 宣布其 GPT-5.5、GPT-5.4 和 Codex 模型现可通过 Amazon Bedrock 平台使用,定价与 OpenAI 自有平台一致。这些模型在商业和政府 AWS 区域运行,但目前仅限于美国地区。使用量可计入现有 AWS 合同。此举使 AWS 客户能更方便地集成 OpenAI 模型,无需额外管理 API 密钥或基础设施。AI产品OpenAIAWSGPT-5.5GPT-5.4Codex10 个信源在谈推荐理由:AWS 用户终于可以直接在 Bedrock 上调用 OpenAI 最新模型,无需切换平台或管理额外 API,做云上 AI 应用开发的团队值得关注。原文
02:59OpenAI Blog(博客/媒体)Braintrust 的工程师利用 OpenAI 的 Codex 模型(基于 GPT-5.5)来加速实验和编码过程。通过将客户请求直接转化为可执行代码,团队显著缩短了从需求到实现的时间。这种方法不仅提高了开发效率,还减少了手动编码的错误率。Braintrust 的案例展示了 AI 在软件工程中的实际应用潜力,尤其是如何将自然语言需求无缝转换为生产级代码。AI产品CodexGPT-5.5编程助手客户需求开发效率10 个信源在谈推荐理由:做 AI 辅助开发的团队可以看看 Braintrust 如何用 Codex 把客户需求直接变成代码,效率提升明显,值得借鉴。原文
05:36Decoder@Matthias Bastian88°Anthropic 推出了 Claude Opus 4.8,该模型在大多数基准测试中超越了 GPT-5.5 和 Gemini 3.1 Pro。相比前代,它发现自身编码错误的频率提高了四倍。同时,Anthropic 还推出了动态工作流功能,可启动数百个并行子智能体来处理代码库迁移等任务。这标志着 Claude 在性能和自动化能力上的显著提升。AI模型Claude Opus 4.8GPT-5.5Gemini 3.1 Pro编码错误检测动态工作流10 个信源在谈推荐理由:Claude Opus 4.8 在编码错误检测和并行任务处理上大幅进化,做大型代码库迁移或复杂自动化的开发者可以直接体验动态工作流带来的效率提升。原文
04:06OpenAI Blog(博客/媒体)Warp 宣布与 OpenAI 深度合作,在其终端中集成 GPT-5.5 等模型,用于协调本地、云端和开源开发工作流中的编程智能体。这一举措旨在解决多环境协作中智能体调度和上下文管理的痛点,让开发者能更高效地利用 AI 辅助编程。Warp 的开源策略意味着更多开发者可以参与定制和扩展,可能改变终端 AI 助手的生态格局。AI产品编程助手智能体GPT-5.5开源/仓库Warp10 个信源在谈推荐理由:Warp 用 GPT-5.5 打通了本地与云端的编程智能体协作,做跨环境开发的团队可以直接体验更流畅的 AI 辅助工作流,值得关注。原文
19:06IT之家(博客/媒体)76°Anthropic 工程师 Sholto Douglas 宣布,其 Claude Mythos 模型成功解出了 1946 年提出的“平面单位距离猜想”。该难题此前由 OpenAI 的 GPT-5.5 模型攻克。Douglas 表示,Claude Mythos 给出了一份“巧妙而简洁”的证明,并认为这显示了 AI 在数学发现领域的巨大潜力。测试中,团队搭建了多实例系统,让多个 Claude Code 实例独立探索证明路径,再汇总优化。数学家 Daniel Litt 评价称,Mythos 的结果“略逊于”OpenAI 的版本。AI模型Claude MythosGPT-5.5数学推理平面单位距离猜想多实例系统10 个信源在谈推荐理由:AI 连续攻克经典数学难题,证明大模型在数学推理上正在突破边界。对数学研究者和 AI 能力观察者来说,这是值得关注的里程碑——Claude 的解法虽稍逊,但思路独特,建议点开对比两家思路。原文
10:50Decoder@Matthias BastianDeepseek 宣布将其旗舰模型 V4-Pro 的 75% 折扣永久化,输入价格降至每百万 tokens 0.435 美元,比 GPT-5.5 便宜至少 11.5 倍,输出价格更是低 34 倍以上。这一激进定价策略针对 token 消耗大的智能体系统,可能对西方 AI 提供商造成巨大竞争压力。Deepseek 通过永久降价巩固其性价比优势,吸引更多开发者转向其平台。此举标志着 AI 模型价格战进入新阶段,尤其对依赖大规模推理的自动化应用影响深远。AI模型DeepseekV4-Pro降价GPT-5.5智能体推荐理由:做智能体或高 token 消耗应用的开发者,Deepseek 这个永久降价直接拉低了推理成本,比 GPT-5.5 便宜几十倍,值得立刻评估迁移。原文
08:36OpenAI Blog(博客/媒体)Databricks 宣布在其企业智能体工作流中集成 OpenAI 的 GPT-5.5 模型。该模型在 OfficeQA Pro 基准测试中取得了新的最佳成绩。这一集成旨在帮助企业更高效地构建和部署基于 AI 的自动化工作流,提升办公场景下的任务处理能力。Databricks 的用户现在可以直接在平台上利用 GPT-5.5 的强大推理和生成能力。AI产品GPT-5.5企业智能体工作流Databricks基准测试5 个信源在谈推荐理由:企业 AI 团队终于有了一个经过基准验证的强模型来驱动智能体工作流——GPT-5.5 在 OfficeQA Pro 上的 SOTA 表现意味着办公自动化场景的准确率有望大幅提升,做企业级 AI 应用开发的团队值得关注。原文
06:17OpenAI Blog(博客/媒体)OpenAI发布了与NVIDIA工程师和研究人员的合作案例,展示了Codex结合GPT-5.5如何帮助团队构建生产系统并将研究想法快速转化为可运行的实验。该工具显著提升了代码生成和实验迭代效率。这表明AI辅助开发正从原型阶段进入规模化生产应用。AI产品编程助手代码生成NVIDIAGPT-5.5研发效率10 个信源在谈推荐理由:典型案例揭示了AI编程助手在大型企业研发流程中的实际应用价值,对评估AI辅助工具在工业界的落地效果有参考意义。原文