全部 AI 动态 · AI 热点

6月23日

10:48

10:48

arXiv cs.LG@Despina Christou, Grigorios Tsoumakas

论文对比了5个小型语言模型（360M至3B参数）在通用域和文学域关系抽取上的表现。在通用域，Qwen2.5-0.5B经过微调后达到0.83 micro-F1，超过零样本的GPT-5.4（0.69）和Claude Sonnet 4.6（0.66）。在文学域，调优后的SLM在Biographical基准上达0.92，GPT-5.4为0.83，文学均值0.833 vs 0.578。结果表明，任务特定调优的SLM可在单张消费级GPU上部署，提供准确、隐私且硬件高效的关系抽取。

AI模型 Qwen2.5-0.5B GPT-5.4 Claude Sonnet 关系抽取小语言模型

推荐理由：Qwen2.5-0.5B调优后，在关系抽取任务上干掉了GPT-5.4和Claude Sonnet，而且模型很小，单卡就能跑，适合隐私敏感场景。

6月18日

05:17

05:17

Greg Brockman@gdb

精选

OpenAI的GPT-5.4与Molecule.one的Maria AI合作，推动了一个药物化学项目从文献综述到实验验证的完整流程。模型提出了一种意想不到的方法，改进药物发现中广泛使用的反应。该结果在专用实验室中得到验证。相关推文获得180个点赞和超过2.3万次查看。

AI模型 GPT-5.4 OpenAI Molecule.one 推理模型药物研发

推荐理由：OpenAI的GPT-5.4这次不是聊天，而是真帮化学家改进了药物反应，和Molecule.one的AI配合，从文献到实验跑通了

01:35

01:35OpenAI Blog（博客/媒体）

OpenAI与Molecule.one合作开发了一款近自主AI化学家，基于GPT-5.4模型。该系统针对药物化学中一项具有挑战性的反应进行优化，成功提升了反应产率。该研究展示了GPT-5.4在有机合成中的实用潜力，推动了AI辅助药物化学的进展。

论文 GPT-5.4 OpenAI Molecule.one 药物化学 AI化学家

推荐理由：OpenAI用GPT-5.4做了个AI化学家，能自动改进药物合成反应，比传统方法更高效。

01:24

01:24

OpenAI@OpenAI

OpenAI发布案例，GPT-5.4与Molecule.one的Maria AI及专业实验室协作，为药物发现中一个广泛使用的反应提出了意想不到的改进方案。项目从文献综述启动，最终得到验证的实验结果。该成果展示了大型语言模型在具体科研场景中的实用价值。

AI模型 GPT-5.4 Molecule.one Maria AI 药物发现 AI辅助科研

推荐理由：OpenAI展示了GPT-5.4跟专业工具配合，在药物化学里找到了更高效的反应路线，成果很实在。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

11:17

11:17

arXiv cs.AI@Sanjay Basu

精选

研究者标注313个MedAlign EHR问答对的四层跃点分类，评估301个问题。三个模型（Claude Sonnet 4-6、GPT-4o、GPT-5.4-2026-03-05）准确率随跃点增加单调下降：Claude从30.6%（hop=1）降至17.6%（hop=4），GPT-4o从37.8%降至14.7%，GPT-5.4从37.8%降至23.5%。上下文充分性审计显示高跃点问题并未因EHR截断而更差，准确率下降源于推理难度。扩展思考未明显缓解精度-深度曲线，思考token使用量与跃点正相关（r=0.31）。

论文 Claude Sonnet GPT-4o GPT-5.4 MedAlign 推理深度

推荐理由：这篇论文用实验告诉你，临床AI回答EHR问题时，推理步骤越多越容易翻车。Claude、GPT-4o和GPT-5.4都逃不过，部署前得重点防多步推理。

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

13:02

13:02

arXiv cs.AI@Aman Sharma, Sushrut Thorat, Paras Chopra

精选72°

一项新研究评估了六个当代编程智能体在四种冷门编程语言（如 Brainfuck 和 Befunge-98）上的表现，发现最强智能体（Claude Opus 4.6 和 GPT-5.4 xhigh）会采用元编程策略——先写 Python 程序生成目标语言代码并本地调试，而非直接写目标语言。禁止这种策略会导致性能大幅下降。研究还发现，从强模型提炼的文本指导对弱模型帮助有限，但提供 Python 辅助代码能显著提升 Sonnet 4.6 和 GPT-5.4 mini 的表现。这表明强智能体通过工具、反馈和工作区状态构建目标语言的工作模型来适应陌生环境，元编程只是最明显的例子。

论文编程智能体元编程 Claude Opus 4.6 GPT-5.4 评估基准

推荐理由：做 AI 编程智能体或评估基准的团队，这篇论文揭示了主流基准（如 SWE-Bench）掩盖的能力差距——强智能体在陌生语言上的元编程策略值得借鉴，建议点开看具体实现方法。

6月2日

16:11

16:11

Decoder@Matthias Bastian

OpenAI 宣布其 GPT-5.5、GPT-5.4 和 Codex 模型现可通过 Amazon Bedrock 平台使用，定价与 OpenAI 自有平台一致。这些模型在商业和政府 AWS 区域运行，但目前仅限于美国地区。使用量可计入现有 AWS 合同。此举使 AWS 客户能更方便地集成 OpenAI 模型，无需额外管理 API 密钥或基础设施。

AI产品 OpenAI AWS GPT-5.5 GPT-5.4 Codex

推荐理由：AWS 用户终于可以直接在 Bedrock 上调用 OpenAI 最新模型，无需切换平台或管理额外 API，做云上 AI 应用开发的团队值得关注。

5月31日

15:56

15:56

Decoder@Jonathan Kemper

精选

哈尔滨工业大学的研究人员通过新基准测试LiveBrowseComp发现，主流AI搜索智能体（如GPT-5.4和Kimi K2.6）在标准测试中表现良好，但主要依赖训练记忆而非实时搜索。LiveBrowseComp仅询问过去90天内的事件，迫使模型无法依赖记忆。在此测试下，模型性能显著下降，现有排名被打乱。这表明AI搜索智能体存在“确认偏差”，即倾向于确认已知信息而非真正研究网络。该发现对依赖AI进行实时信息检索的用户和开发者具有重要警示意义。

论文 AI搜索智能体基准测试 GPT-5.4 Kimi K2.6

推荐理由：这项研究戳穿了AI搜索智能体的真实能力——它们更擅长背书而非真正搜索。做信息检索或依赖AI获取最新资讯的团队，看完会重新评估工具选择。

5月26日

12:37

12:37

arXiv: DeepSeek@Faizan Faisal

精选

一项新研究评估了GPT-5.4、DeepSeek-V4-Flash和Gemma-4-E4B在临床SOAP笔记生成中的表现，发现启用推理能力反而显著降低了GPT-5.4的输出质量。研究使用OMI Health、ACI-Bench和PriMock57三个数据集，通过2x2实验设计控制推理和检索增强生成（RAG）两个因素。结果显示，非推理配置的GPT-5.4整体质量最高，而DeepSeek-V4-Flash在推理配置中表现最佳。同源RAG带来模型依赖的小幅提升，但推理能力不应被假设为能自动改善对保真度敏感的临床文档生成。

论文推理模型临床文档 SOAP笔记 GPT-5.4 DeepSeek-V4-Flash

推荐理由：医疗AI开发者注意了：推理模型在临床文档任务上可能适得其反，做医疗NLP的团队在部署前务必做任务专属评估，别盲目相信推理能力。

12:13

12:13

arXiv: OpenAI@Roberto Cruz, David Rey-Blanco

精选

研究者提出MDIA，一个由7个专科路由节点组成的多智能体临床推理图，在HealthBench Professional基准（525个病例）上，使用未微调的GPT-5.4-2026-03-05模型达到0.6272分，比OpenAI的ChatGPT for Clinicians高出3.72个百分点。性能提升主要来自系统架构设计，包括专科路由、多轮上下文保持、药物状态安全门控、站点过滤搜索、长度感知合成和引擎级可靠性。实验还发现，使用不同模型作为评分者时结果差异显著，例如Gemini 2.5 Pro评分时MDIA得分0.6585，表明评估需要多个独立评分模型。该研究证明，智能体临床基准性能既取决于基础模型，也取决于编排架构。

论文多智能体临床推理 HealthBench GPT-5.4 架构设计

推荐理由：医疗AI开发者注意了：MDIA用架构设计而非提示工程就超越了专业临床模型，做临床决策系统的团队值得研究其7节点路由和药物安全门控设计。

12:06

12:06IT之家（博客/媒体）

72°

微软研究院开源了网页智能体框架 Webwright，它让 AI 模型在终端中编写 Playwright 代码、执行 bash 命令、查看日志并反复修正，而非传统的一次预测一个低级动作。该框架仅约 1000 行代码，由 Runner、模型接口和终端环境三个核心组件构成，没有复杂编排。在 Online-Mind2Web 基准上，基于 GPT-5.4 的 Webwright 准确率达 86.67%；在长链路任务基准 Odysseys 上，得分 60.1%，比基础 GPT-5.4 提升 81.49%。团队还解决了模型过早宣告完成和上下文膨胀两个工程问题。

AI产品网页智能体微软开源/仓库 GPT-5.4 自动化

推荐理由：做网页自动化或智能体开发的团队，可以用这 1000 行代码让模型自己写脚本、调试、反思，效果远超传统方法，值得直接拿源码试试。

5月19日

11:38

11:38

arXiv cs.AI@Haoyu Zhang, Qiaohui Chu, Yisen Feng, Meng Liu, Weili Guan, Yaowei Wang, Liqiang Nie

精选

MARS 是一个多模态智能体推理系统，专为 EgoVis 2026 的 CASTLE 挑战赛设计。该挑战要求回答 185 个关于四天活动、15 个同步视角、官方转录及多种辅助模态（如个人照片、热成像、心率数据）的封闭式问题。MARS 将任务视为多模态证据选择问题，通过构建视频和转录等主要来源以及辅助来源的证据记忆，并使用 DeepSeek 压缩长视频，最后通过 GPT-5.4 决策代理选择继续推理、请求缺失模态或生成答案。该系统在最终排行榜上获得第二名，代码已开源。

AI模型多模态推理智能体视频理解开源/仓库 GPT-5.4

推荐理由：多模态推理是 AI 落地的关键瓶颈，MARS 展示了如何整合视频、转录、热成像等异构数据做智能体决策，做多模态 AI 或视频理解的团队值得参考其开源代码。

5月17日

23:44

23:44

rohanpaul_ai@rohanpaul_ai

精选72°

伊利诺伊大学、清华大学等机构联合研究发现，LLM智能体在反复重写自身记忆时，记忆可靠性会下降。许多智能体系统通过让LLM将原始经验压缩成整洁的书面总结来存储记忆，但论文指出，这种反复重写会逐渐损害记忆。实验表明，原始经验（即实际尝试和解决方案）往往比精炼的总结更有用。例如，GPT-5.4在无记忆情况下能100%解决ARC-AGI谜题，但使用基于正确解构建的记忆后，流式更新使成功率降至约54%。失败原因包括错误分组、过度泛化和过拟合，导致记忆丢失细节、混淆任务类型或学习到仅适用于狭窄案例的规则。论文建议，智能体记忆不应自动将每次经验重写为摘要，保留原始证据并偶尔进行总结效果更好。

论文 LLM智能体记忆管理可靠性清华大学 GPT-5.4

推荐理由：做智能体系统或记忆管理的开发者，这篇论文戳中了记忆重写的致命缺陷——原始经验比精炼总结更可靠，看完你会重新思考记忆存储策略。