01:35OpenAI Blog(博客/媒体)OpenAI与Molecule.one合作开发了一款近自主AI化学家,基于GPT-5.4模型。该系统针对药物化学中一项具有挑战性的反应进行优化,成功提升了反应产率。该研究展示了GPT-5.4在有机合成中的实用潜力,推动了AI辅助药物化学的进展。论文GPT-5.4OpenAIMolecule.one药物化学AI化学家4 个信源在谈推荐理由:OpenAI用GPT-5.4做了个AI化学家,能自动改进药物合成反应,比传统方法更高效。原文
16:11Decoder@Matthias BastianOpenAI 宣布其 GPT-5.5、GPT-5.4 和 Codex 模型现可通过 Amazon Bedrock 平台使用,定价与 OpenAI 自有平台一致。这些模型在商业和政府 AWS 区域运行,但目前仅限于美国地区。使用量可计入现有 AWS 合同。此举使 AWS 客户能更方便地集成 OpenAI 模型,无需额外管理 API 密钥或基础设施。AI产品OpenAIAWSGPT-5.5GPT-5.4Codex10 个信源在谈推荐理由:AWS 用户终于可以直接在 Bedrock 上调用 OpenAI 最新模型,无需切换平台或管理额外 API,做云上 AI 应用开发的团队值得关注。原文
15:56Decoder@Jonathan Kemper精选哈尔滨工业大学的研究人员通过新基准测试LiveBrowseComp发现,主流AI搜索智能体(如GPT-5.4和Kimi K2.6)在标准测试中表现良好,但主要依赖训练记忆而非实时搜索。LiveBrowseComp仅询问过去90天内的事件,迫使模型无法依赖记忆。在此测试下,模型性能显著下降,现有排名被打乱。这表明AI搜索智能体存在“确认偏差”,即倾向于确认已知信息而非真正研究网络。该发现对依赖AI进行实时信息检索的用户和开发者具有重要警示意义。论文AI搜索智能体基准测试GPT-5.4Kimi K2.6推荐理由:这项研究戳穿了AI搜索智能体的真实能力——它们更擅长背书而非真正搜索。做信息检索或依赖AI获取最新资讯的团队,看完会重新评估工具选择。原文
12:06IT之家(博客/媒体)72°微软研究院开源了网页智能体框架 Webwright,它让 AI 模型在终端中编写 Playwright 代码、执行 bash 命令、查看日志并反复修正,而非传统的一次预测一个低级动作。该框架仅约 1000 行代码,由 Runner、模型接口和终端环境三个核心组件构成,没有复杂编排。在 Online-Mind2Web 基准上,基于 GPT-5.4 的 Webwright 准确率达 86.67%;在长链路任务基准 Odysseys 上,得分 60.1%,比基础 GPT-5.4 提升 81.49%。团队还解决了模型过早宣告完成和上下文膨胀两个工程问题。AI产品网页智能体微软开源/仓库GPT-5.4自动化推荐理由:做网页自动化或智能体开发的团队,可以用这 1000 行代码让模型自己写脚本、调试、反思,效果远超传统方法,值得直接拿源码试试。原文