02:17@koltregaskes@koltregaskes79°据消息,OpenAI GPT-5.6和GPT-5.6 Pro预计下周四(next Thursday)正式登陆。部分用户可能已在ChatGPT网页端体验GPT-5.6 Pro模型。同时,Anthropic的Claude Fable 5也可能在未来几天内回归。AI模型GPT-5.6GPT-5.6 ProOpenAIClaude Fable 5模型发布10 个信源在谈推荐理由:GPT-5.6和Pro版下周就来,Claude Fable 5也快回来了,想尝鲜的可以留意。原文
01:31歸藏(guizang.ai)@op741881°OpenAI 正在准备 GPT-5.6 模型家族的发布,GPT-5.6-Pro 版本已在测试中被发现。该消息来自 TestingCatalog 的监测数据,暗示发布可能临近。目前尚未公布具体参数、性能基准或发布日期。AI模型GPT-5.6GPT-5.6-ProOpenAI模型发布10 个信源在谈推荐理由:OpenAI 的 GPT-5.6 快来了,Pro 版本已经在测试,想尝鲜新模型的朋友可以关注起来。原文
00:10elvis@omarsar0精选OpenAI 推出 LifeSciBench,一个针对生命科学研究的基准测试,包含 750 个专家编写的任务,覆盖 7 个生物学研究工作流。该基准由 173 位来自生物技术和制药领域的科学家共同开发,旨在衡量 AI 在真实世界科研场景中的表现。结果显示通用模型在复杂结构处理上仍有不足,而专用模型在科学研究中优势明显。AI模型OpenAILifeSciBench基准生命科学科学智能10 个信源在谈推荐理由:OpenAI 联合 173 位科学家搞了个新基准 LifeSciBench,750 个专家任务专测 AI 搞科研的能力,比通用模型靠谱多了。原文
23:35OpenAI@OpenAIOpenAI发布一项研究,表明AI系统能帮助临床医生重新分析多年未解的病例。这些病例此前多年未被专家分析。AI使专家主导的周期性重分析更可扩展,医生可随着医学知识进步重新审视旧病例。AI还能识别值得调查的线索,可能为更多家庭带来答案。论文OpenAI医疗AI诊断辅助5 个信源在谈推荐理由:OpenAI出了个研究,说AI能帮医生重新分析那些多年没解决的病例,以前专家都搞不定,现在用AI也许能找到新线索。原文
23:34OpenAI@OpenAI精选OpenAI 的 o3 Deep Research 模型在罕见病诊断中发挥辅助作用,它能够处理测序产生的数百万变异。该模型连接临床特征、遗传模式、变异证据和科学文献,生成假设供专家审核。所有结果都经过人工裁决和临床确认,AI的作用是帮助专家更快、更全面地推理复杂、碎片化的证据。AI模型o3 Deep ResearchOpenAI推理模型医疗AI智能体10 个信源在谈推荐理由:OpenAI 的 o3 Deep Research 能帮医生快速分析海量变异数据,连接文献和临床特征,生成诊断假设。原文
23:34OpenAI@OpenAI研究发表在 NEJM AI,使用 OpenAI 的 o3 Deep Research 模型。模型帮助临床医生回顾长期未解决的罕见儿科疾病病例。为等待多年的家庭找到了答案。论文OpenAIo3 Deep ResearchNEJM AIAI医疗罕见病5 个信源在谈推荐理由:OpenAI 联合顶级医院用 o3 Deep Research 分析多年未解的罕见儿科病例,帮家庭找到答案,有温度也有技术含量。原文
18:19Aadit Sheth@aaditsh88°据X用户aaditsh透露,谷歌在2024年支付27亿美元,这笔交易的主要目的是将Transformer论文合著者Noam Shazeer从Character.ai带回。但Noam在谷歌工作不到两年后,于2026年宣布加入OpenAI。这相当于每月超过1亿美元的人才成本。Noam曾用几行训练代码拯救了Gemini项目,现在将参与OpenAI的架构建设。行业Noam ShazeerGoogleOpenAICharacter.aiTransformer人才竞争10 个信源在谈推荐理由:Noam Shazeer刚加入OpenAI,之前谷歌花27亿签他都没留住。你想知道AI圈顶级人才有多贵吗?点开看看。原文
15:26@koltregaskes@koltregaskes用户koltregaskes列出OpenAI Codex当前多个严重问题。会话(sessions)加载极慢,常卡在thinking screen,需手动重置。消息发送有延迟,切换页面后消息消失。发送时偶尔出现错误消息,重启后似乎修复。草稿在桌面端保存后在移动端App打开时消失。行业CodexOpenAI产品体验移动同步加载速度10 个信源在谈推荐理由:一位用户列出了Codex目前最让人抓狂的4个bug,尤其是加载速度和消息同步问题,如果你也在用Codex,很可能会遇到。原文
13:34AI Will@FinanceYF573°美国商务部警告Anthropic,要求其获得许可证才能让“外国人”(包括公司员工)使用最新模型。OpenAI也对这一政策表示担忧。根据MacroPolo数据,2024年顶级AI会议的研究人员中38%本科在中国就读。限制国籍访问可能使前沿实验室陷入困境。行业AnthropicOpenAI美国AI监管人才10 个信源在谈推荐理由:美国政府开始限制外国人用前沿模型了,先拿Anthropic开刀,OpenAI也慌了。这事影响很大,因为很多AI研究员是中国人。原文
13:33AI Will@FinanceYF572°《The Information》报道,特朗普政府正测试限制“外国人士”访问前沿 AI 模型。目前仅针对 Anthropic,要求其向外国人士(含公司内部员工)开放最新模型前必须取得许可证。OpenAI 已对此表达担忧。此举可能影响美国 AI 实验室的人才招聘和模型发布流程。行业AnthropicOpenAIAI监管美国政策10 个信源在谈推荐理由:美国政府开始管外国人才用前沿模型了,先拿 Anthropic 开刀,连自家外籍员工都要许可证。OpenAI 也紧张了。原文
13:32Greg Brockman@gdbOpenAI 为其 Codex 推出 “Build iOS Apps” 插件,可在浏览器中直接运行 iOS 应用、打开 SwiftUI 预览并实现热重载编辑。开发者无需离开 Codex 界面,彻底告别复制粘贴构建截图的繁琐循环。该插件让 AI 代理实时查看自己生成的代码效果,尤其受到独立开发者欢迎。AI产品CodexOpenAI编程助手iOS开发热重载10 个信源在谈推荐理由:OpenAI 给 Codex 加了新插件,能直接在浏览器里跑 iOS 应用和 SwiftUI 预览,还支持热重载,做 iOS 开发的赶紧试试。原文
11:41berryxia@berryxiaOpenAI 最新模型 GPT-5.6 延期发布,具体时间未公布。作为应对,Codex 5.6 开始频繁重置用户额度以提升留存。用户反馈这种策略比 Claude 的限额政策更友好。AI模型GPT-5.6Codex 5.6OpenAI模型发布10 个信源在谈推荐理由:GPT-5.6 跳票了,但 OpenAI 用 Codex 5.6 免费额度留人,比 Claude 大方多了。原文
11:12歸藏(guizang.ai)@op7418精选81°Noam Shazeer,Character AI前CEO、Transformer论文作者之一及混合专家模型(MoE)架构提出者,宣布加入OpenAI。谷歌曾以27亿美元收购Character AI,旨在换取Shazeer加入,但他仅在谷歌短暂任职后便离职。Shazeer在社交媒体确认新职位,称期待与OpenAI团队合作。行业Noam ShazeerOpenAITransformerMoE行业动态10 个信源在谈推荐理由:Transformer和MoE的发明者从谷歌跳到OpenAI了,看看他能为GPT-5带来什么新架构。原文
11:06Sam Altman@sama88°OpenAI CEO Sam Altman 发推表示,自公司成立之初就一直想与 Noam Shazeer 共事,如今历经10年终于实现。Noam Shazeer 是 Transformer 论文的共同作者之一,也是 Character.AI 的联合创始人。他此前在 Google 工作多年,此次从 Google 跳槽至 OpenAI。Shazeer 本人发推确认加入,并称做出这个决定很艰难。行业Noam ShazeerOpenAITransformerCharacter.AI人事变动10 个信源在谈推荐理由:Transformer 共同作者 Noam Shazeer 从 Google 跳槽到 OpenAI,Altman 期待了10年,这个人加入可能会影响下一代模型研发。原文
05:25OpenAI@OpenAIOpenAI推出LifeSciBench新基准,用于评估AI模型在生物科学中的实际推理能力。该基准包含七个工作流,测试模型从证据推理、处理科学制品、应对不确定性等技能。GPT-Rosalind在所有七个工作流上得分均超过GPT-5.5。结果显示在制品密集、设计密集和操作受限任务上仍有改进空间。AI模型LifeSciBenchGPT-RosalindGPT-5.5OpenAI推理模型10 个信源在谈推荐理由:OpenAI搞了个新基准LifeSciBench,专门测生物科学推理,GPT-Rosalind比GPT-5.5还强,值得看看。原文
05:24OpenAI@OpenAIOpenAI发布LifeSciBench,一个专门用于衡量AI在真实生命科学研究中表现的基准。该基准由173位生物技术和制药领域科学家参与开发,包含750个专家编写的任务,覆盖7个生物研究工作流。LifeSciBench旨在系统评估AI模型在文献分析、实验设计等科研环节的实用性,并指导后续改进。AI模型OpenAILifeSciBench基准生命科学科研辅助10 个信源在谈推荐理由:OpenAI联合173位科学家搞了个LifeSciBench,750个专家级任务覆盖7个生物研究流程,想测AI在生命科学里到底好不好用,科研人员可以用它来选模型。原文
05:23OpenAI@OpenAIOpenAI推出LifeSciBench,这是一个专门用于评估AI在生命科学领域表现的基础基准。该基准旨在通过更现实的测试场景,帮助研究者衡量进展、识别差距。LifeSciBench强调与生命科学社区的持续合作,以共同改进AI。具体评估指标和测试集细节尚待公开。AI模型LifeSciBenchOpenAI基准测试生命科学10 个信源在谈推荐理由:OpenAI搞了个LifeSciBench,专门测AI在生命科学上的表现,比以前的评估更贴近真实场景,想了解差距的可以看看。原文
05:17Greg Brockman@gdb精选OpenAI的GPT-5.4与Molecule.one的Maria AI合作,推动了一个药物化学项目从文献综述到实验验证的完整流程。模型提出了一种意想不到的方法,改进药物发现中广泛使用的反应。该结果在专用实验室中得到验证。相关推文获得180个点赞和超过2.3万次查看。AI模型GPT-5.4OpenAIMolecule.one推理模型药物研发10 个信源在谈推荐理由:OpenAI的GPT-5.4这次不是聊天,而是真帮化学家改进了药物反应,和Molecule.one的AI配合,从文献到实验跑通了原文
05:05lmarena.ai@lmarena_ai76°Agent Arena上线两周,新增10个模型。GLM-5.2 (Max)进入前十,以+9.4%确认成功率和+14.9%赞美vs抱怨率成为最强开源模型。Claude Fable 5在多项指标排名第一,但受美国政府指令暂停访问。评测基于超过30万任务、200万次工具调用和4000万行代码。AI模型Agent ArenaGLM-5.2Claude Fable 5智能体OpenAI10 个信源在谈推荐理由:想看看最新智能体模型谁最强?Agent Arena更新了,GLM-5.2开源冲进前十,Claude Fable 5暂时下线,榜单有了新格局。原文
05:04@OpenAIDevs@OpenAIDevsOpenAI Devs上周与Women who Code(x)社区合作举办活动。参与者使用Codex构建了任务代理和个人指南等应用。活动展示了Codex在辅助编程和快速开发项目方面的实际能力。行业OpenAICodex智能体社区活动10 个信源在谈推荐理由:OpenAI和Women who Code(x)用Codex搞了个活动,实际展示了怎么用Codex快速搭建智能体和项目,很接地气。原文
04:53ChatGPT@ChatGPTappOpenAI 为 ChatGPT 推出新的任务调度功能,支持在 web 和移动端使用。新功能通过 Scheduled 页面管理,声称更快、更可靠。该更新面向 Go、Plus、Pro、Business 和 Enterprise 用户分批推送。AI产品ChatGPTOpenAI任务调度Scheduled页面10 个信源在谈推荐理由:ChatGPT 现在可以让你更稳地安排定时任务,管理起来也方便多了,特别适合需要自动化提醒或定期输出的朋友。原文
04:09Aadit Sheth@aaditsh88°Amazon CEO于5天前向白宫举报Claude Fable 5的安全风险。该模型在24小时内被禁止海外访问。Amazon是Anthropic最大投资者,投资额达40亿美元。Anthropic CEO Dario的模型被禁,而OpenAI CEO Sam的模型未受限。这一事件凸显AI监管的地缘政治分歧。行业Claude Fable 5AmazonAnthropicOpenAIAI安全10 个信源在谈推荐理由:Amazon举报了自己投了40亿的模型?Claude Fable 5被白宫禁了,OpenAI却没事,这背后有瓜吃。原文
03:05@koltregaskes@koltregaskes原本预测本周发布的 GPT-5.6 模型,过去几天内被调整为预测下周发布。这一变化来自社交媒体上的传闻,OpenAI 尚未官方确认。目前具体延期原因不明。行业GPT-5.6OpenAI发布延期传闻10 个信源在谈推荐理由:GPT-5.6 的发布时间从本周延到下周了,关注 OpenAI 动态的可以看看这个变化。原文
02:44Lenny Rachitsky@lennysan本期播客嘉宾包括谷歌DeepMind首席科学家Jeff Dean、OpenAI的ChatGPT生产力负责人Tara Seshan、Anthropic研究产品负责人Dianne Penn、Claude Code/Cowork工程负责人Fiona Fung、Codex PM与工程负责人Andrew Ambrosino,以及Netflix CPTO Elizabeth Stone。多位AI公司高管将分享前沿视角。行业播客Jeff DeanGoogle DeepMindOpenAIAnthropicClaude CodeChatGPT10 个信源在谈推荐理由:想听谷歌DeepMind、OpenAI、Anthropic等公司高管聊内部视角?这场播客阵容超强,值得蹲。原文
01:30@OpenAIDevs@OpenAIDevsOpenAI 宣布向 Rust 基金会提供 60 万美元资金支持,其中包含白金会员费用及额外维护者资助。这笔捐赠旨在强化 Rust 生态系统的基础设施与维护工作。Charlie Marsh 代表 OpenAI 公布了这一承诺,体现其将 Rust 作为系统编程未来方向的押注。行业OpenAIRustRust基金会开源生态10 个信源在谈推荐理由:OpenAI 砸 60 万美元支持 Rust 基金会,不光当白金会员还掏钱养维护者,系统编程圈的大动作。原文
23:48小互@imxiaohu71°OpenAI 宣布 Codex 产品,包含 App 客户端、命令行 CLI 和 SDK,允许开发者自由接入任何开源大模型,不强制绑定 OpenAI 自家模型。官方同时发布了手把手配置文档,指导如何将 Codex 底层模型替换为免费开源模型。这一举措为开发者提供了更多选择,降低了对 OpenAI 模型的依赖。AI产品OpenAICodex开源模型开发工具CLI10 个信源在谈推荐理由:OpenAI 的 Codex 现在能接 DeepSeek 这类开源模型了,开发者可以自己换底层 AI,不用非得用 OpenAI 的。原文
23:40Geek@geekbbOpenAI 的编程助手 Codex 现在支持使用任何开源模型,不仅限于 OpenAI 模型。用户可以通过 Codex App、CLI 和 SDK 配置第三方模型。这一更新使开发者能灵活选择推理后端,降低对 OpenAI 模型的依赖。目前已有多个开源模型可用于代码生成和解释。AI产品CodexOpenAI编程助手开源模型CLI/SDK10 个信源在谈推荐理由:Codex 现在能用你喜欢的任何开源模型了,CLI、App、SDK 都支持,编程助手自由度更高。原文
23:40shao__meng@shao__meng精选CC Switch是一个开源工具,允许在OpenAI Codex中切换使用不同的第三方模型。它解决了第三方API与Codex不兼容的痛点,使得更多模型能直接接入Codex。该项目在GitHub上已获得103K星,由Jason Young开发和推荐。完全开源免费,方便开发者在编码时灵活选择模型。AI产品CC SwitchCodexOpenAIGitHub编程助手10 个信源在谈推荐理由:想在Codex里随便切换模型?试下CC Switch,开源免费,GitHub上10万星,作者还在持续更新,一把子解决API不兼容问题。原文
23:33Julien Chaumond@julien_cAnthropic的Dario Amodei、OpenAI的Sam Altman、DeepMind的Demis Hassabis和Mistral的Arthur Mensch四位AI公司CEO,据Politico报道,将于今日进行一场2小时的午餐会面。此次闭门会议可能涉及行业合作、政策协调或技术方向讨论。四位领导者代表当前最前沿的AI机构,此举引发市场对行业格局变化的猜测。行业AnthropicOpenAIDeepMindMistralAI巨头会面10 个信源在谈推荐理由:四大AI巨头CEO私下碰头,半小时的午餐可能聊出行业大动静,想了解风向就看这个。原文
23:33Gary Marcus@GaryMarcusGary Marcus对Business Insider表示,OpenAI的财务问题可能波及高度依赖其芯片和数据中心需求的科技股,如Nvidia、Oracle和CoreWeave。他指出OpenAI现金消耗速度极快,若得不到公共资金支持将面临困境,进而威胁这些主要客户公司的未来预期。CoreWeave等供应商的估值很大程度上基于OpenAI的持续高需求。行业OpenAINvidiaOracleCoreWeave财务风险10 个信源在谈推荐理由:Gary Marcus警告OpenAI烧钱太快,连累给它供应芯片和数据中心的Nvidia、Oracle和CoreWeave,投资者得注意这链条风险。原文
23:33Thomas Wolf@Thom_Wolf开发者 Tibo 在 X 平台分享指出,Codex App、CLI 和 SDK 均可配置使用任何开源模型,不再局限于 OpenAI 模型。配置方式详见 developers.openai.com/codex/config-a… 页面。这意味着用户可以在 Codex 中替换默认的 GPT 模型,选择 Llama、Mistral、DeepSeek 等开源替代方案。技巧Codex开源模型OpenAI开发者工具10 个信源在谈推荐理由:Codex 现在能跑开源模型了,不只是 OpenAI 的,快去试试把 Llama 或 Mistral 加进去原文
23:18AI Will@FinanceYF5精选OpenAI frontier evals 负责人 Tejal Patwardhan 指出,现有基准测试如旧考试已变得过于简单,模型接近 100% 通过后无法区分真实能力。OpenAI 正在构建新评估框架,以更准确衡量前沿模型的真正水平。此举旨在避免模型仅通过刷分应付测试,确保评测能反映实际进步。行业OpenAITejal Patwardhan评测体系基准测试AI安全10 个信源在谈推荐理由:OpenAI 自己都觉得旧考试太水了,新评测体系怎么玩?来看看他们怎么重新定义能力原文
12:01歸藏(guizang.ai)@op7418推文指出OpenAI在Codex大幅补贴期间仍保持服务稳定快速,用户增长迅速。相比之下,其他AI服务商近期速度变慢或降低使用额度。该推文获得14条回复和29个点赞,反映出用户的普遍关注。AI产品OpenAICodexAI服务10 个信源在谈推荐理由:看网友说OpenAI服务稳如狗,其他家都在降速,想入手Codex的可以参考。原文
10:31shao__meng@shao__meng精选73°OpenAI Codex 提供三种操作电脑能力:@ Browser 是线程内隔离浏览器,适合本地开发与视觉调试,无登录态和扩展;@ Chrome 使用真实 Chrome 身份,支持多标签和已登录 SaaS,操作等同于用户本人;@ Computer 控制整个桌面 GUI,用于原生 App 和无 API 流程,速度最慢但覆盖面最广。此外,Appshots 仅提供当前窗口上下文,不赋予控制权。文章还给出了基于任务场景的选择决策框架和三个典型应用案例。技巧OpenAICodexComputer UseChromeBrowser教程10 个信源在谈推荐理由:Codex 团队手把手教你区分三种控制模式:本地开发用 Browser,登录 SaaS 用 Chrome,原生应用用 Computer。还有决策框架,实测好用。原文
10:01Fireworks AI@FireworksAI_HQFireworks AI 推出 GLM-5P2 模型,强调基准测试仅是参考,真正的评估应基于实际代码库、提示词和延迟 SLO。该模型支持直接替换 OpenAI 或 Anthropic 兼容客户端(如 accounts/fireworks/models/glm-5p2),用户可在真实场景中测试。Fireworks AI 建议开发者下载模型并尝试在自有代码库上运行,以验证实际性能。推文附有详细博客链接(fireworks.ai/blog/glm-5p2)供进一步了解。AI模型Fireworks AIGLM-5P2OpenAIAnthropic开源模型10 个信源在谈推荐理由:Fireworks AI 让你用 GLM-5P2 直接在代码库上跑分,别光看基准,试试自己的提示词和延迟原文
05:27Gary Marcus@GaryMarcusGary Marcus引用Andriy Burkov数据指出,OpenAI市场份额在2025年1月首次跌破50%。Google的Gemini凭借浏览器生态快速蚕食用户,纯LLM业务被认为缺乏粘性。普通用户难以区分ChatGPT与Gemini,倾向于使用Google整合服务。行业分析认为,控制浏览器入口将成为AI竞争的关键。行业OpenAIGoogleGemini市场份额大模型竞争10 个信源在谈推荐理由:OpenAI市场份额跌破50%,Gemini靠浏览器生态追上了。谁控制浏览器谁赢,这数据挺说明问题。原文
04:13OpenAI@OpenAI精选OpenAI在Alignment博客中探讨了部署模拟的最佳实践,强调需要代表性生产数据,而外部评估者往往无法获取。他们分析了公共WildChat数据集,发现尽管其精度较低,但仍能提供部署行为的有效信号。该研究验证了WildChat在模拟中的实用性,为缺乏私域数据的研究者提供了替代方案。相关发现已发布在alignment.openai.com/validating-pub…。论文OpenAIWildChat部署模拟AI安全数据质量7 个信源在谈推荐理由:OpenAI用WildChat数据集做部署模拟测试,发现公开数据也能提供有效信号,适合没法拿到生产数据的研究者参考。原文
04:13OpenAI@OpenAIOpenAI 在推文中介绍其模拟部署方法可将评估意识降低至接近真实生产流量水平。该方法扩展至带状态工具的智能体部署,表明工具模拟器在给定充分上下文和能力时能够生成逼真的轨迹。这有助于更准确地评估模型在真实场景中的表现。论文OpenAI模拟部署智能体评估意识工具模拟器10 个信源在谈推荐理由:OpenAI 分享了模拟部署的技术细节,能大幅降低评估误差,对研究模型评估和智能体部署的人很有参考价值。原文
04:13OpenAI@OpenAI精选OpenAI提出一种新研究方法,通过模拟部署使用近期去标识化用户请求(涉及23,341次浏览)来预测模型行为。该方法在发布前评估候选模型响应,相关推文获得44条评论、27次转发和375个赞。研究旨在减少模型在实际使用中的意外行为。论文OpenAI模拟部署模型安全行为预测2 个信源在谈推荐理由:OpenAI搞了个新方法,用真实用户请求模拟部署,提前预测模型行为,比直接上线更稳妥。原文
04:03Gary Marcus@GaryMarcusOpenAI市场份额已降至50%以下,微软公开寻求更便宜的替代方案。Gary Marcus指出OpenAI资金紧张且烧钱严重,认为投资者更倾向于Anthropic而非OpenAI。他预测OpenAI将以约30%的估值被微软或亚马逊收购。行业OpenAIMicrosoftAnthropicAmazon行业动态10 个信源在谈推荐理由:Gary Marcus直言OpenAI市值可能缩水七成,微软已经在找替代品,反映了AI行业格局变化。原文