10:48arXiv cs.LG@Despina Christou, Grigorios Tsoumakas论文对比了5个小型语言模型(360M至3B参数)在通用域和文学域关系抽取上的表现。在通用域,Qwen2.5-0.5B经过微调后达到0.83 micro-F1,超过零样本的GPT-5.4(0.69)和Claude Sonnet 4.6(0.66)。在文学域,调优后的SLM在Biographical基准上达0.92,GPT-5.4为0.83,文学均值0.833 vs 0.578。结果表明,任务特定调优的SLM可在单张消费级GPU上部署,提供准确、隐私且硬件高效的关系抽取。AI模型Qwen2.5-0.5BGPT-5.4Claude Sonnet关系抽取小语言模型推荐理由:Qwen2.5-0.5B调优后,在关系抽取任务上干掉了GPT-5.4和Claude Sonnet,而且模型很小,单卡就能跑,适合隐私敏感场景。原文
05:17Greg Brockman@gdb精选OpenAI的GPT-5.4与Molecule.one的Maria AI合作,推动了一个药物化学项目从文献综述到实验验证的完整流程。模型提出了一种意想不到的方法,改进药物发现中广泛使用的反应。该结果在专用实验室中得到验证。相关推文获得180个点赞和超过2.3万次查看。AI模型GPT-5.4OpenAIMolecule.one推理模型药物研发10 个信源在谈推荐理由:OpenAI的GPT-5.4这次不是聊天,而是真帮化学家改进了药物反应,和Molecule.one的AI配合,从文献到实验跑通了原文
01:35OpenAI Blog(博客/媒体)OpenAI与Molecule.one合作开发了一款近自主AI化学家,基于GPT-5.4模型。该系统针对药物化学中一项具有挑战性的反应进行优化,成功提升了反应产率。该研究展示了GPT-5.4在有机合成中的实用潜力,推动了AI辅助药物化学的进展。论文GPT-5.4OpenAIMolecule.one药物化学AI化学家4 个信源在谈推荐理由:OpenAI用GPT-5.4做了个AI化学家,能自动改进药物合成反应,比传统方法更高效。原文
01:24OpenAI@OpenAIOpenAI发布案例,GPT-5.4与Molecule.one的Maria AI及专业实验室协作,为药物发现中一个广泛使用的反应提出了意想不到的改进方案。项目从文献综述启动,最终得到验证的实验结果。该成果展示了大型语言模型在具体科研场景中的实用价值。AI模型GPT-5.4Molecule.oneMaria AI药物发现AI辅助科研10 个信源在谈推荐理由:OpenAI展示了GPT-5.4跟专业工具配合,在药物化学里找到了更高效的反应路线,成果很实在。原文
11:17arXiv cs.AI@Sanjay Basu精选研究者标注313个MedAlign EHR问答对的四层跃点分类,评估301个问题。三个模型(Claude Sonnet 4-6、GPT-4o、GPT-5.4-2026-03-05)准确率随跃点增加单调下降:Claude从30.6%(hop=1)降至17.6%(hop=4),GPT-4o从37.8%降至14.7%,GPT-5.4从37.8%降至23.5%。上下文充分性审计显示高跃点问题并未因EHR截断而更差,准确率下降源于推理难度。扩展思考未明显缓解精度-深度曲线,思考token使用量与跃点正相关(r=0.31)。论文Claude SonnetGPT-4oGPT-5.4MedAlign推理深度1 个信源在谈推荐理由:这篇论文用实验告诉你,临床AI回答EHR问题时,推理步骤越多越容易翻车。Claude、GPT-4o和GPT-5.4都逃不过,部署前得重点防多步推理。原文
13:02arXiv cs.AI@Aman Sharma, Sushrut Thorat, Paras Chopra精选72°一项新研究评估了六个当代编程智能体在四种冷门编程语言(如 Brainfuck 和 Befunge-98)上的表现,发现最强智能体(Claude Opus 4.6 和 GPT-5.4 xhigh)会采用元编程策略——先写 Python 程序生成目标语言代码并本地调试,而非直接写目标语言。禁止这种策略会导致性能大幅下降。研究还发现,从强模型提炼的文本指导对弱模型帮助有限,但提供 Python 辅助代码能显著提升 Sonnet 4.6 和 GPT-5.4 mini 的表现。这表明强智能体通过工具、反馈和工作区状态构建目标语言的工作模型来适应陌生环境,元编程只是最明显的例子。论文编程智能体元编程Claude Opus 4.6GPT-5.4评估基准推荐理由:做 AI 编程智能体或评估基准的团队,这篇论文揭示了主流基准(如 SWE-Bench)掩盖的能力差距——强智能体在陌生语言上的元编程策略值得借鉴,建议点开看具体实现方法。原文
16:11Decoder@Matthias BastianOpenAI 宣布其 GPT-5.5、GPT-5.4 和 Codex 模型现可通过 Amazon Bedrock 平台使用,定价与 OpenAI 自有平台一致。这些模型在商业和政府 AWS 区域运行,但目前仅限于美国地区。使用量可计入现有 AWS 合同。此举使 AWS 客户能更方便地集成 OpenAI 模型,无需额外管理 API 密钥或基础设施。AI产品OpenAIAWSGPT-5.5GPT-5.4Codex10 个信源在谈推荐理由:AWS 用户终于可以直接在 Bedrock 上调用 OpenAI 最新模型,无需切换平台或管理额外 API,做云上 AI 应用开发的团队值得关注。原文
15:56Decoder@Jonathan Kemper精选哈尔滨工业大学的研究人员通过新基准测试LiveBrowseComp发现,主流AI搜索智能体(如GPT-5.4和Kimi K2.6)在标准测试中表现良好,但主要依赖训练记忆而非实时搜索。LiveBrowseComp仅询问过去90天内的事件,迫使模型无法依赖记忆。在此测试下,模型性能显著下降,现有排名被打乱。这表明AI搜索智能体存在“确认偏差”,即倾向于确认已知信息而非真正研究网络。该发现对依赖AI进行实时信息检索的用户和开发者具有重要警示意义。论文AI搜索智能体基准测试GPT-5.4Kimi K2.6推荐理由:这项研究戳穿了AI搜索智能体的真实能力——它们更擅长背书而非真正搜索。做信息检索或依赖AI获取最新资讯的团队,看完会重新评估工具选择。原文
12:37arXiv: DeepSeek@Faizan Faisal精选一项新研究评估了GPT-5.4、DeepSeek-V4-Flash和Gemma-4-E4B在临床SOAP笔记生成中的表现,发现启用推理能力反而显著降低了GPT-5.4的输出质量。研究使用OMI Health、ACI-Bench和PriMock57三个数据集,通过2x2实验设计控制推理和检索增强生成(RAG)两个因素。结果显示,非推理配置的GPT-5.4整体质量最高,而DeepSeek-V4-Flash在推理配置中表现最佳。同源RAG带来模型依赖的小幅提升,但推理能力不应被假设为能自动改善对保真度敏感的临床文档生成。论文推理模型临床文档SOAP笔记GPT-5.4DeepSeek-V4-Flash推荐理由:医疗AI开发者注意了:推理模型在临床文档任务上可能适得其反,做医疗NLP的团队在部署前务必做任务专属评估,别盲目相信推理能力。原文
12:13arXiv: OpenAI@Roberto Cruz, David Rey-Blanco精选研究者提出MDIA,一个由7个专科路由节点组成的多智能体临床推理图,在HealthBench Professional基准(525个病例)上,使用未微调的GPT-5.4-2026-03-05模型达到0.6272分,比OpenAI的ChatGPT for Clinicians高出3.72个百分点。性能提升主要来自系统架构设计,包括专科路由、多轮上下文保持、药物状态安全门控、站点过滤搜索、长度感知合成和引擎级可靠性。实验还发现,使用不同模型作为评分者时结果差异显著,例如Gemini 2.5 Pro评分时MDIA得分0.6585,表明评估需要多个独立评分模型。该研究证明,智能体临床基准性能既取决于基础模型,也取决于编排架构。论文多智能体临床推理HealthBenchGPT-5.4架构设计10 个信源在谈推荐理由:医疗AI开发者注意了:MDIA用架构设计而非提示工程就超越了专业临床模型,做临床决策系统的团队值得研究其7节点路由和药物安全门控设计。原文
12:06IT之家(博客/媒体)72°微软研究院开源了网页智能体框架 Webwright,它让 AI 模型在终端中编写 Playwright 代码、执行 bash 命令、查看日志并反复修正,而非传统的一次预测一个低级动作。该框架仅约 1000 行代码,由 Runner、模型接口和终端环境三个核心组件构成,没有复杂编排。在 Online-Mind2Web 基准上,基于 GPT-5.4 的 Webwright 准确率达 86.67%;在长链路任务基准 Odysseys 上,得分 60.1%,比基础 GPT-5.4 提升 81.49%。团队还解决了模型过早宣告完成和上下文膨胀两个工程问题。AI产品网页智能体微软开源/仓库GPT-5.4自动化推荐理由:做网页自动化或智能体开发的团队,可以用这 1000 行代码让模型自己写脚本、调试、反思,效果远超传统方法,值得直接拿源码试试。原文
11:38arXiv cs.AI@Haoyu Zhang, Qiaohui Chu, Yisen Feng, Meng Liu, Weili Guan, Yaowei Wang, Liqiang Nie精选MARS 是一个多模态智能体推理系统,专为 EgoVis 2026 的 CASTLE 挑战赛设计。该挑战要求回答 185 个关于四天活动、15 个同步视角、官方转录及多种辅助模态(如个人照片、热成像、心率数据)的封闭式问题。MARS 将任务视为多模态证据选择问题,通过构建视频和转录等主要来源以及辅助来源的证据记忆,并使用 DeepSeek 压缩长视频,最后通过 GPT-5.4 决策代理选择继续推理、请求缺失模态或生成答案。该系统在最终排行榜上获得第二名,代码已开源。AI模型多模态推理智能体视频理解开源/仓库GPT-5.4推荐理由:多模态推理是 AI 落地的关键瓶颈,MARS 展示了如何整合视频、转录、热成像等异构数据做智能体决策,做多模态 AI 或视频理解的团队值得参考其开源代码。原文
23:44rohanpaul_ai@rohanpaul_ai精选72°伊利诺伊大学、清华大学等机构联合研究发现,LLM智能体在反复重写自身记忆时,记忆可靠性会下降。许多智能体系统通过让LLM将原始经验压缩成整洁的书面总结来存储记忆,但论文指出,这种反复重写会逐渐损害记忆。实验表明,原始经验(即实际尝试和解决方案)往往比精炼的总结更有用。例如,GPT-5.4在无记忆情况下能100%解决ARC-AGI谜题,但使用基于正确解构建的记忆后,流式更新使成功率降至约54%。失败原因包括错误分组、过度泛化和过拟合,导致记忆丢失细节、混淆任务类型或学习到仅适用于狭窄案例的规则。论文建议,智能体记忆不应自动将每次经验重写为摘要,保留原始证据并偶尔进行总结效果更好。论文LLM智能体记忆管理可靠性清华大学GPT-5.4推荐理由:做智能体系统或记忆管理的开发者,这篇论文戳中了记忆重写的致命缺陷——原始经验比精炼总结更可靠,看完你会重新思考记忆存储策略。原文