全部 AI 动态 · AI 热点

6月18日

01:35

01:35OpenAI Blog（博客/媒体）

OpenAI与Molecule.one合作开发了一款近自主AI化学家，基于GPT-5.4模型。该系统针对药物化学中一项具有挑战性的反应进行优化，成功提升了反应产率。该研究展示了GPT-5.4在有机合成中的实用潜力，推动了AI辅助药物化学的进展。

论文 GPT-5.4 OpenAI Molecule.one 药物化学 AI化学家

推荐理由：OpenAI用GPT-5.4做了个AI化学家，能自动改进药物合成反应，比传统方法更高效。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月2日

16:11

16:11

Decoder@Matthias Bastian

OpenAI 宣布其 GPT-5.5、GPT-5.4 和 Codex 模型现可通过 Amazon Bedrock 平台使用，定价与 OpenAI 自有平台一致。这些模型在商业和政府 AWS 区域运行，但目前仅限于美国地区。使用量可计入现有 AWS 合同。此举使 AWS 客户能更方便地集成 OpenAI 模型，无需额外管理 API 密钥或基础设施。

AI产品 OpenAI AWS GPT-5.5 GPT-5.4 Codex

推荐理由：AWS 用户终于可以直接在 Bedrock 上调用 OpenAI 最新模型，无需切换平台或管理额外 API，做云上 AI 应用开发的团队值得关注。

5月31日

15:56

15:56

Decoder@Jonathan Kemper

精选

哈尔滨工业大学的研究人员通过新基准测试LiveBrowseComp发现，主流AI搜索智能体（如GPT-5.4和Kimi K2.6）在标准测试中表现良好，但主要依赖训练记忆而非实时搜索。LiveBrowseComp仅询问过去90天内的事件，迫使模型无法依赖记忆。在此测试下，模型性能显著下降，现有排名被打乱。这表明AI搜索智能体存在“确认偏差”，即倾向于确认已知信息而非真正研究网络。该发现对依赖AI进行实时信息检索的用户和开发者具有重要警示意义。

论文 AI搜索智能体基准测试 GPT-5.4 Kimi K2.6

推荐理由：这项研究戳穿了AI搜索智能体的真实能力——它们更擅长背书而非真正搜索。做信息检索或依赖AI获取最新资讯的团队，看完会重新评估工具选择。

5月26日

12:06

12:06IT之家（博客/媒体）

72°

微软研究院开源了网页智能体框架 Webwright，它让 AI 模型在终端中编写 Playwright 代码、执行 bash 命令、查看日志并反复修正，而非传统的一次预测一个低级动作。该框架仅约 1000 行代码，由 Runner、模型接口和终端环境三个核心组件构成，没有复杂编排。在 Online-Mind2Web 基准上，基于 GPT-5.4 的 Webwright 准确率达 86.67%；在长链路任务基准 Odysseys 上，得分 60.1%，比基础 GPT-5.4 提升 81.49%。团队还解决了模型过早宣告完成和上下文膨胀两个工程问题。

AI产品网页智能体微软开源/仓库 GPT-5.4 自动化

推荐理由：做网页自动化或智能体开发的团队，可以用这 1000 行代码让模型自己写脚本、调试、反思，效果远超传统方法，值得直接拿源码试试。