全部 AI 动态 · AI 热点

AITOP

6月19日

06:37

OpenAI@OpenAI

OpenAI 发布声明称，这是朝向更鲁棒有益和对齐模型的早期步骤。他们正在训练模型将有益特质带入新情境，使AI在能力增强的同时变得更可靠、透明和有用。该工作属于对齐研究的一部分，尚未披露具体模型或基准测试结果。

AI模型 OpenAI AI安全对齐

推荐理由：OpenAI 开始教模型把好习惯带到新场景，让AI更靠谱。这个对齐实验挺关键，关注未来进展。

原文

06:22

OpenAI@OpenAI

73°

OpenAI发布新研究，旨在训练AI模型将有益和安全行为推广到训练范围之外的新领域，并在压力下维持。该方法聚焦于让模型具备广泛且持久的利他性，论文名为《Beneficial RL》。研究通过强化学习框架，让模型学会在更长、更高风险的任务中自主保持符合人类意图的行为，而不仅是拟合训练数据。相关论文和代码已发布在alignment.openai.com/beneficial-rl/。

论文 OpenAI AI安全智能体强化学习

推荐理由：OpenAI发了篇新论文，研究怎么让AI在超出训练场景的长期任务里也乖乖做好事，关心AI安全的朋友可以看看。

原文

04:40

Greg Brockman@gdb

精选

OpenAI Developers 为 Codex 推出 Record & Replay 功能。用户可对 Codex 演示一次重复性工作流（如填写费用报告或提交休假申请），系统自动将其转换为可检查和编辑的技能。用户可自主控制录制的开始和停止。这一功能让 Codex 无需代码即可学习新任务。

AI产品 Codex OpenAI Record & Replay 工作流自动化 AI编程助手

推荐理由：OpenAI 给 Codex 加了个新玩法：你演示一次操作，它就能学会并复用，比如填报销单。还能编辑保存的技能，挺实用。

原文

04:32

The Rundown AI@therundownai

OpenAI于3月取消了与迪士尼的10亿美元合作计划。迪士尼幻想工程随后与Adobe合作，利用自家IP（米奇、冰雪奇缘、汽车总动员）训练AI，旨在加速主题公园设计。迪士尼还宣布将在7月推出新的beta工具，该工具能为小广告主生成完整电视广告（包括脚本、视频和音乐）。该工具主要面向预算有限、无法负担创意代理的小型企业。

行业 Disney OpenAI Adobe 广告生成视频生成

推荐理由：迪士尼不跟OpenAI玩了，自己联手Adobe用经典IP训练AI，还要出广告生成工具，挺实在的。

原文

03:29

Decoder@Matthias Bastian

OpenAI发布了ChatGPT的医疗功能升级，基于GPT-5.5 Instant模型。在内部对比测试中，该模型在准确性、清晰度和完整性上均超过医生撰写的答案。健康相关陈述的错误率降低了71%。OpenAI声称这是医疗问答能力的一次显著提升。

AI模型 GPT-5.5 ChatGPT OpenAI 医疗AI

推荐理由：OpenAI用GPT-5.5 Instant让ChatGPT在医疗问答上比医生答得更好，准确率提升了71%，值得试。

原文

03:18

03:18OpenAI Blog（博客/媒体）

OpenAI为ChatGPT Enterprise推出了新的支出控制和用量分析功能。管理员可设置预算限额并实时监控使用趋势。这些工具帮助组织更精准地管理AI成本，支持安全规模化部署。目前该功能已面向所有企业用户开放。

AI产品 ChatGPT Enterprise OpenAI 企业应用成本管理用量分析

推荐理由：OpenAI给企业版ChatGPT加了支出控制和用量分析，以后管团队花多少钱用多少量就方便多了，不用等月底账单吓一跳。

原文

03:03

Greg Brockman@gdb

76°

OpenAI 发布 GPT-5.5 Instant，其健康相关问题的回答水平已与前沿思考模型持平。该模型联合 60 个国家、49 种语言、26 个专科的数百名医生共同开发。每周有超过 2.3 亿用户向 ChatGPT 咨询健康问题。GPT-5.5 Instant 在识别紧急情况、询问上下文、解释不确定性及简化复杂信息方面表现更优。该模型已面向所有免费用户开放。

AI模型 GPT-5.5 OpenAI ChatGPT 健康问答医疗AI

推荐理由：OpenAI 出了 GPT-5.5 Instant，免费版就能用，健康问答能力大幅提升，和医生合作训练的，靠谱。

原文

02:39

OpenAI@OpenAI

OpenAI 发布 GPT-5.5 Instant，该模型在健康相关问题上的表现与前端推理模型（如 o1）持平。每周超过 2.3 亿人通过 ChatGPT 咨询健康问题，新模型能更准确识别需要紧急护理的情况，主动询问相关背景，明确解释不确定性，并简化复杂医学术语。所有免费用户均可使用 GPT-5.5 Instant，无需订阅。此次改进基于医生主导的评估，确保了医疗场景下的可靠性。

AI模型 GPT-5.5 Instant OpenAI 健康推理模型 ChatGPT

推荐理由：OpenAI 把 GPT-5.5 Instant 的医疗问答能力做到了和自家顶级推理模型一样好，而且免费用户都能用，生病问AI更放心了。

原文

02:38

OpenAI@OpenAI

OpenAI在推文中称，改善人类健康将是AGI最具体、直接的影响之一。该公司表示，随着模型持续改进，目标是让ChatGPT在健康相关场景中更准确、更有用。OpenAI承诺将这一进展带给更多人，但未透露具体模型版本或时间线。

行业 OpenAI ChatGPT 医疗健康

推荐理由：OpenAI画了个大饼，说AGI能帮人更健康，还打算让ChatGPT更准更有用。虽然没细节，但方向挺有意思。

原文

02:17

@koltregaskes@koltregaskes

79°

据消息，OpenAI GPT-5.6和GPT-5.6 Pro预计下周四（next Thursday）正式登陆。部分用户可能已在ChatGPT网页端体验GPT-5.6 Pro模型。同时，Anthropic的Claude Fable 5也可能在未来几天内回归。

AI模型 GPT-5.6 GPT-5.6 Pro OpenAI Claude Fable 5 模型发布

推荐理由：GPT-5.6和Pro版下周就来，Claude Fable 5也快回来了，想尝鲜的可以留意。

原文

02:10

02:10OpenAI Blog（博客/媒体）

OpenAI 推出 GPT-5.5 Instant，用于增强 ChatGPT 在健康和 wellness 领域的回复质量。新模型在推理、上下文理解、沟通清晰度上均有提升，并引入 physician-informed 评估方法。该改进旨在提高医疗健康场景下 AI 回复的准确性和可信度。

AI模型 GPT-5.5 Instant ChatGPT OpenAI 健康推理模型

推荐理由：GPT-5.5 Instant 让 ChatGPT 的健康建议更靠谱了，医生参与评估的设计值得关注。

原文

01:31

歸藏(guizang.ai)@op7418

81°

OpenAI 正在准备 GPT-5.6 模型家族的发布，GPT-5.6-Pro 版本已在测试中被发现。该消息来自 TestingCatalog 的监测数据，暗示发布可能临近。目前尚未公布具体参数、性能基准或发布日期。

AI模型 GPT-5.6 GPT-5.6-Pro OpenAI 模型发布

推荐理由：OpenAI 的 GPT-5.6 快来了，Pro 版本已经在测试，想尝鲜新模型的朋友可以关注起来。

原文

00:10

elvis@omarsar0

精选

OpenAI 推出 LifeSciBench，一个针对生命科学研究的基准测试，包含 750 个专家编写的任务，覆盖 7 个生物学研究工作流。该基准由 173 位来自生物技术和制药领域的科学家共同开发，旨在衡量 AI 在真实世界科研场景中的表现。结果显示通用模型在复杂结构处理上仍有不足，而专用模型在科学研究中优势明显。

AI模型 OpenAI LifeSciBench 基准生命科学科学智能

推荐理由：OpenAI 联合 173 位科学家搞了个新基准 LifeSciBench，750 个专家任务专测 AI 搞科研的能力，比通用模型靠谱多了。

原文

6月18日

23:35

OpenAI@OpenAI

OpenAI发布一项研究，表明AI系统能帮助临床医生重新分析多年未解的病例。这些病例此前多年未被专家分析。AI使专家主导的周期性重分析更可扩展，医生可随着医学知识进步重新审视旧病例。AI还能识别值得调查的线索，可能为更多家庭带来答案。

论文 OpenAI 医疗AI 诊断辅助

推荐理由：OpenAI出了个研究，说AI能帮医生重新分析那些多年没解决的病例，以前专家都搞不定，现在用AI也许能找到新线索。

原文

23:34

OpenAI@OpenAI

精选

OpenAI 的 o3 Deep Research 模型在罕见病诊断中发挥辅助作用，它能够处理测序产生的数百万变异。该模型连接临床特征、遗传模式、变异证据和科学文献，生成假设供专家审核。所有结果都经过人工裁决和临床确认，AI的作用是帮助专家更快、更全面地推理复杂、碎片化的证据。

AI模型 o3 Deep Research OpenAI 推理模型医疗AI 智能体

推荐理由：OpenAI 的 o3 Deep Research 能帮医生快速分析海量变异数据，连接文献和临床特征，生成诊断假设。

原文

23:34

OpenAI@OpenAI

研究发表在 NEJM AI，使用 OpenAI 的 o3 Deep Research 模型。模型帮助临床医生回顾长期未解决的罕见儿科疾病病例。为等待多年的家庭找到了答案。

论文 OpenAI o3 Deep Research NEJM AI AI医疗罕见病

推荐理由：OpenAI 联合顶级医院用 o3 Deep Research 分析多年未解的罕见儿科病例，帮家庭找到答案，有温度也有技术含量。

原文

23:04

23:04OpenAI Blog（博客/媒体）

研究人员利用OpenAI的推理模型分析儿童罕见遗传病病例，在之前未解决的病例中识别出18个新诊断。该模型通过分析基因组数据和临床信息提供诊断建议，帮助医生定位致病基因。这项研究展示了AI在精准医疗中辅助诊断罕见病的潜力。

论文 OpenAI 推理模型罕见病医疗AI 基因组学

推荐理由：OpenAI的推理模型帮医生从旧病例里揪出18个罕见病新诊断，这种实战成果很实在。

原文

22:34

22:34IT之家（博客/媒体）

图灵奖得主、AI教父杨立昆近日接受CNBC采访时警告，OpenAI和Anthropic等公司若不降低运营成本或提高收费，AI行业泡沫可能破裂。他指出当前AI服务低价依靠投资人补贴，多数公司缺乏可持续商业模式。杨立昆还将马斯克的xAI评价为“某种意义的失败案例”，称其创始团队流失且难以吸引新人才。他本人主张发展理解世界运行规律的世界模型，而非当前主流的LLM路线。

行业杨立昆 OpenAI Anthropic xAI AI泡沫

推荐理由：杨立昆这次没留情面，直接点名OpenAI、Anthropic烧钱模式不可持续，连xAI也被批成失败案例。想听大佬怎么拆解AI行业泡沫的，这篇值得看。

原文

21:43

Decoder@Matthias Bastian

Yann LeCun表示，OpenAI和Anthropic等AI实验室的运营依赖投资者补贴，成本下降速度不够快，面临“大泡沫爆炸”。他创立的AMI Labs已融资10亿美元，专注于替代性AI方法。LeCun认为当前AI行业存在巨大泡沫，资金投入与实际收益不匹配。

行业 Yann LeCun OpenAI Anthropic AMI Labs AI投资泡沫

推荐理由：LeCun说OpenAI和Anthropic的钱快烧光了，他拿了10亿美金另起炉灶，看看他说得对不对。

原文

18:19

Aadit Sheth@aaditsh

88°

据X用户aaditsh透露，谷歌在2024年支付27亿美元，这笔交易的主要目的是将Transformer论文合著者Noam Shazeer从Character.ai带回。但Noam在谷歌工作不到两年后，于2026年宣布加入OpenAI。这相当于每月超过1亿美元的人才成本。Noam曾用几行训练代码拯救了Gemini项目，现在将参与OpenAI的架构建设。

行业 Noam Shazeer Google OpenAI Character.ai Transformer 人才竞争

推荐理由：Noam Shazeer刚加入OpenAI，之前谷歌花27亿签他都没留住。你想知道AI圈顶级人才有多贵吗？点开看看。

原文

17:01

17:01IT之家（博客/媒体）

OpenAI 以白金会员身份加入 Rust 基金会，承诺总计 60 万美元资金支持，用于 Rust Project Goals 与 Rust Innovation Lab 等计划。Rust 基金会由 AWS、谷歌、微软等公司联合创立。这笔资金将为 Rust 开源项目维护者提供更系统化的可持续支持。

行业 OpenAI Rust 基金会 Rust 开源赞助白金会员

推荐理由：OpenAI 给 Rust 基金会捐了 60 万美元，当上了白金会员，不是投 AI 而是支持编程语言生态，挺有意思的。

原文

15:32

15:32IT之家（博客/媒体）

Anthropic CEO 达里奥·阿莫迪在采访中表示，与 OpenAI 的竞争已演变为冷战，核心原因是双方愿景不同且互不信任。阿莫迪于 2020 年与另外 10 名 OpenAI 员工离职创立 Anthropic，目前该公司已在生成式 AI 竞赛中被认为反超 OpenAI。他提及印度 AI 峰会上两人未牵手的尴尬合影，归咎于场面混乱。阿莫迪同时否认行业普遍互不信任，以与谷歌 DeepMind CEO 德米斯·哈萨比斯的长期合作为例。

行业 Anthropic OpenAI Sam Altman Dario Amodei 行业竞争

推荐理由：阿莫迪聊得很直白，说和奥特曼各走各路，市场定胜负。想看 AI 两大巨头怎么较量的，这篇够味。

原文

15:26

@koltregaskes@koltregaskes

用户koltregaskes列出OpenAI Codex当前多个严重问题。会话（sessions）加载极慢，常卡在thinking screen，需手动重置。消息发送有延迟，切换页面后消息消失。发送时偶尔出现错误消息，重启后似乎修复。草稿在桌面端保存后在移动端App打开时消失。

行业 Codex OpenAI 产品体验移动同步加载速度

推荐理由：一位用户列出了Codex目前最让人抓狂的4个bug，尤其是加载速度和消息同步问题，如果你也在用Codex，很可能会遇到。

原文

15:25

Decoder@Matthias Bastian

Noam Shazeer是2017年Transformer论文《Attention Is All You Need》的合著者，曾共同领导Google Gemini模型。2024年他作为27亿美元交易的一部分从Character.AI重返Google，现又转投OpenAI。这是继Andrej Karpathy跳槽Anthropic后，今年AI行业第二次重大高管变动。

行业 Noam Shazeer OpenAI Google Gemini Transformer

推荐理由：Transformer论文作者Noam Shazeer从Google跳到OpenAI了，他去年刚从Character.AI回归Google，这次跳槽节奏很快。

原文

13:34

AI Will@FinanceYF5

73°

美国商务部警告Anthropic，要求其获得许可证才能让“外国人”（包括公司员工）使用最新模型。OpenAI也对这一政策表示担忧。根据MacroPolo数据，2024年顶级AI会议的研究人员中38%本科在中国就读。限制国籍访问可能使前沿实验室陷入困境。

行业 Anthropic OpenAI 美国 AI监管人才

推荐理由：美国政府开始限制外国人用前沿模型了，先拿Anthropic开刀，OpenAI也慌了。这事影响很大，因为很多AI研究员是中国人。

原文

13:33

AI Will@FinanceYF5

72°

《The Information》报道，特朗普政府正测试限制“外国人士”访问前沿 AI 模型。目前仅针对 Anthropic，要求其向外国人士（含公司内部员工）开放最新模型前必须取得许可证。OpenAI 已对此表达担忧。此举可能影响美国 AI 实验室的人才招聘和模型发布流程。

行业 Anthropic OpenAI AI监管美国政策

推荐理由：美国政府开始管外国人才用前沿模型了，先拿 Anthropic 开刀，连自家外籍员工都要许可证。OpenAI 也紧张了。

原文

13:32

Greg Brockman@gdb

OpenAI 为其 Codex 推出 “Build iOS Apps” 插件，可在浏览器中直接运行 iOS 应用、打开 SwiftUI 预览并实现热重载编辑。开发者无需离开 Codex 界面，彻底告别复制粘贴构建截图的繁琐循环。该插件让 AI 代理实时查看自己生成的代码效果，尤其受到独立开发者欢迎。

AI产品 Codex OpenAI 编程助手 iOS开发热重载

推荐理由：OpenAI 给 Codex 加了新插件，能直接在浏览器里跑 iOS 应用和 SwiftUI 预览，还支持热重载，做 iOS 开发的赶紧试试。

原文

13:13

13:13IT之家（博客/媒体）

88°

Noam Shazeer是2017年Transformer论文主要作者，曾因谷歌拒绝发布聊天机器人Meena（后演变为LaMDA）于2021年离职创办Character.AI。2024年8月，谷歌以27亿美元技术许可协议将其请回，他担任Gemini项目技术负责人并推动Gemini 3登顶多项排行榜。2026年2月他当选美国国家工程院院士。如今他宣布加入OpenAI，促使OpenAI CEO Sam Altman称其为最想合作的人之一。至此Transformer论文八位作者全部离开谷歌。

行业 Transformer OpenAI 谷歌 Character.AI 人才流动

推荐理由：Transformer之父二度出走，从谷歌跳到OpenAI。他发明了现代大模型的核心架构，这次跳槽说明顶级AI人才争夺有多激烈。

原文

11:41

berryxia@berryxia

AI模型 GPT-5.6 Codex 5.6 OpenAI 模型发布

推荐理由：GPT-5.6 跳票了，但 OpenAI 用 Codex 5.6 免费额度留人，比 Claude 大方多了。

原文

11:12

歸藏(guizang.ai)@op7418

精选81°

Noam Shazeer，Character AI前CEO、Transformer论文作者之一及混合专家模型（MoE）架构提出者，宣布加入OpenAI。谷歌曾以27亿美元收购Character AI，旨在换取Shazeer加入，但他仅在谷歌短暂任职后便离职。Shazeer在社交媒体确认新职位，称期待与OpenAI团队合作。

行业 Noam Shazeer OpenAI Transformer MoE 行业动态

推荐理由：Transformer和MoE的发明者从谷歌跳到OpenAI了，看看他能为GPT-5带来什么新架构。

原文

11:06

Sam Altman@sama

88°

OpenAI CEO Sam Altman 发推表示，自公司成立之初就一直想与 Noam Shazeer 共事，如今历经10年终于实现。Noam Shazeer 是 Transformer 论文的共同作者之一，也是 Character.AI 的联合创始人。他此前在 Google 工作多年，此次从 Google 跳槽至 OpenAI。Shazeer 本人发推确认加入，并称做出这个决定很艰难。

行业 Noam Shazeer OpenAI Transformer Character.AI 人事变动

推荐理由：Transformer 共同作者 Noam Shazeer 从 Google 跳槽到 OpenAI，Altman 期待了10年，这个人加入可能会影响下一代模型研发。

原文

10:35

marktechpost@Michal Sutter

精选

OpenAI推出LifeSciBench，包含750个专家撰写任务，覆盖7个工作流和7个生物学领域，由173位博士科学家构建，使用19,020条评分标准评估推理与决策。当前最佳模型GPT-Rosalind得分仅36.1%，在人工制品、精确输出和操作决策上仍有较大提升空间。该基准旨在测试AI的真实研究能力而非单纯记忆。

AI模型 LifeSciBench OpenAI GPT-Rosalind 基准测试生命科学

推荐理由：想看看AI搞科研到底多强？OpenAI出了个750道专家题的LifeSciBench，GPT-Rosalind才36.1%，差距大到让你吃惊。

原文

07:08

07:08IT之家（博客/媒体）

OpenAI 为 ChatGPT 推出全新定时任务功能，今日起向 Plus、Pro、商业版与企业版用户逐步推送。该功能在侧边栏新增专属页面，用户可统一查看、暂停、恢复、编辑或删除任务。任务可精确指定时间或选择早中晚时段，监测类任务能联网检索数据变动，每小时最多运行一次。此功能将替代现有的 Pulse 功能，Pulse 将在 14 天后正式下线。

AI产品 ChatGPT OpenAI 定时任务任务管理

推荐理由：ChatGPT 现在能定时提醒、处理周期性任务了，还能联网监测数据变化，比之前的 Pulse 更好用，Plus 用户赶紧试试。

原文

05:25

OpenAI@OpenAI

OpenAI推出LifeSciBench新基准，用于评估AI模型在生物科学中的实际推理能力。该基准包含七个工作流，测试模型从证据推理、处理科学制品、应对不确定性等技能。GPT-Rosalind在所有七个工作流上得分均超过GPT-5.5。结果显示在制品密集、设计密集和操作受限任务上仍有改进空间。

AI模型 LifeSciBench GPT-Rosalind GPT-5.5 OpenAI 推理模型

推荐理由：OpenAI搞了个新基准LifeSciBench，专门测生物科学推理，GPT-Rosalind比GPT-5.5还强，值得看看。

原文

05:24

OpenAI@OpenAI

OpenAI发布LifeSciBench，一个专门用于衡量AI在真实生命科学研究中表现的基准。该基准由173位生物技术和制药领域科学家参与开发，包含750个专家编写的任务，覆盖7个生物研究工作流。LifeSciBench旨在系统评估AI模型在文献分析、实验设计等科研环节的实用性，并指导后续改进。

AI模型 OpenAI LifeSciBench 基准生命科学科研辅助

推荐理由：OpenAI联合173位科学家搞了个LifeSciBench，750个专家级任务覆盖7个生物研究流程，想测AI在生命科学里到底好不好用，科研人员可以用它来选模型。

原文

05:23

OpenAI@OpenAI

OpenAI推出LifeSciBench，这是一个专门用于评估AI在生命科学领域表现的基础基准。该基准旨在通过更现实的测试场景，帮助研究者衡量进展、识别差距。LifeSciBench强调与生命科学社区的持续合作，以共同改进AI。具体评估指标和测试集细节尚待公开。

AI模型 LifeSciBench OpenAI 基准测试生命科学

推荐理由：OpenAI搞了个LifeSciBench，专门测AI在生命科学上的表现，比以前的评估更贴近真实场景，想了解差距的可以看看。

原文

05:17

Greg Brockman@gdb

精选

OpenAI的GPT-5.4与Molecule.one的Maria AI合作，推动了一个药物化学项目从文献综述到实验验证的完整流程。模型提出了一种意想不到的方法，改进药物发现中广泛使用的反应。该结果在专用实验室中得到验证。相关推文获得180个点赞和超过2.3万次查看。

AI模型 GPT-5.4 OpenAI Molecule.one 推理模型药物研发

推荐理由：OpenAI的GPT-5.4这次不是聊天，而是真帮化学家改进了药物反应，和Molecule.one的AI配合，从文献到实验跑通了

原文

05:05

lmarena.ai@lmarena_ai

76°

Agent Arena上线两周，新增10个模型。GLM-5.2 (Max)进入前十，以+9.4%确认成功率和+14.9%赞美vs抱怨率成为最强开源模型。Claude Fable 5在多项指标排名第一，但受美国政府指令暂停访问。评测基于超过30万任务、200万次工具调用和4000万行代码。

AI模型 Agent Arena GLM-5.2 Claude Fable 5 智能体 OpenAI

推荐理由：想看看最新智能体模型谁最强？Agent Arena更新了，GLM-5.2开源冲进前十，Claude Fable 5暂时下线，榜单有了新格局。

原文

05:04

@OpenAIDevs@OpenAIDevs

OpenAI Devs上周与Women who Code(x)社区合作举办活动。参与者使用Codex构建了任务代理和个人指南等应用。活动展示了Codex在辅助编程和快速开发项目方面的实际能力。

行业 OpenAI Codex 智能体社区活动

推荐理由：OpenAI和Women who Code(x)用Codex搞了个活动，实际展示了怎么用Codex快速搭建智能体和项目，很接地气。

原文

04:53

ChatGPT@ChatGPTapp

OpenAI 为 ChatGPT 推出新的任务调度功能，支持在 web 和移动端使用。新功能通过 Scheduled 页面管理，声称更快、更可靠。该更新面向 Go、Plus、Pro、Business 和 Enterprise 用户分批推送。

AI产品 ChatGPT OpenAI 任务调度 Scheduled页面

推荐理由：ChatGPT 现在可以让你更稳地安排定时任务，管理起来也方便多了，特别适合需要自动化提醒或定期输出的朋友。

原文