全部 AI 动态 · AI 热点

6月23日

10:48

10:48

arXiv cs.LG@Despina Christou, Grigorios Tsoumakas

论文对比了5个小型语言模型（360M至3B参数）在通用域和文学域关系抽取上的表现。在通用域，Qwen2.5-0.5B经过微调后达到0.83 micro-F1，超过零样本的GPT-5.4（0.69）和Claude Sonnet 4.6（0.66）。在文学域，调优后的SLM在Biographical基准上达0.92，GPT-5.4为0.83，文学均值0.833 vs 0.578。结果表明，任务特定调优的SLM可在单张消费级GPU上部署，提供准确、隐私且硬件高效的关系抽取。

AI模型 Qwen2.5-0.5B GPT-5.4 Claude Sonnet 关系抽取小语言模型

推荐理由：Qwen2.5-0.5B调优后，在关系抽取任务上干掉了GPT-5.4和Claude Sonnet，而且模型很小，单卡就能跑，适合隐私敏感场景。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

11:17

11:17

arXiv cs.AI@Sanjay Basu

精选

研究者标注313个MedAlign EHR问答对的四层跃点分类，评估301个问题。三个模型（Claude Sonnet 4-6、GPT-4o、GPT-5.4-2026-03-05）准确率随跃点增加单调下降：Claude从30.6%（hop=1）降至17.6%（hop=4），GPT-4o从37.8%降至14.7%，GPT-5.4从37.8%降至23.5%。上下文充分性审计显示高跃点问题并未因EHR截断而更差，准确率下降源于推理难度。扩展思考未明显缓解精度-深度曲线，思考token使用量与跃点正相关（r=0.31）。

论文 Claude Sonnet GPT-4o GPT-5.4 MedAlign 推理深度

推荐理由：这篇论文用实验告诉你，临床AI回答EHR问题时，推理步骤越多越容易翻车。Claude、GPT-4o和GPT-5.4都逃不过，部署前得重点防多步推理。

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

13:02

13:02

arXiv cs.AI@Aman Sharma, Sushrut Thorat, Paras Chopra

精选72°

一项新研究评估了六个当代编程智能体在四种冷门编程语言（如 Brainfuck 和 Befunge-98）上的表现，发现最强智能体（Claude Opus 4.6 和 GPT-5.4 xhigh）会采用元编程策略——先写 Python 程序生成目标语言代码并本地调试，而非直接写目标语言。禁止这种策略会导致性能大幅下降。研究还发现，从强模型提炼的文本指导对弱模型帮助有限，但提供 Python 辅助代码能显著提升 Sonnet 4.6 和 GPT-5.4 mini 的表现。这表明强智能体通过工具、反馈和工作区状态构建目标语言的工作模型来适应陌生环境，元编程只是最明显的例子。

论文编程智能体元编程 Claude Opus 4.6 GPT-5.4 评估基准

推荐理由：做 AI 编程智能体或评估基准的团队，这篇论文揭示了主流基准（如 SWE-Bench）掩盖的能力差距——强智能体在陌生语言上的元编程策略值得借鉴，建议点开看具体实现方法。

5月26日

12:37

12:37

arXiv: DeepSeek@Faizan Faisal

精选

一项新研究评估了GPT-5.4、DeepSeek-V4-Flash和Gemma-4-E4B在临床SOAP笔记生成中的表现，发现启用推理能力反而显著降低了GPT-5.4的输出质量。研究使用OMI Health、ACI-Bench和PriMock57三个数据集，通过2x2实验设计控制推理和检索增强生成（RAG）两个因素。结果显示，非推理配置的GPT-5.4整体质量最高，而DeepSeek-V4-Flash在推理配置中表现最佳。同源RAG带来模型依赖的小幅提升，但推理能力不应被假设为能自动改善对保真度敏感的临床文档生成。

论文推理模型临床文档 SOAP笔记 GPT-5.4 DeepSeek-V4-Flash

推荐理由：医疗AI开发者注意了：推理模型在临床文档任务上可能适得其反，做医疗NLP的团队在部署前务必做任务专属评估，别盲目相信推理能力。

12:13

12:13

arXiv: OpenAI@Roberto Cruz, David Rey-Blanco

精选

研究者提出MDIA，一个由7个专科路由节点组成的多智能体临床推理图，在HealthBench Professional基准（525个病例）上，使用未微调的GPT-5.4-2026-03-05模型达到0.6272分，比OpenAI的ChatGPT for Clinicians高出3.72个百分点。性能提升主要来自系统架构设计，包括专科路由、多轮上下文保持、药物状态安全门控、站点过滤搜索、长度感知合成和引擎级可靠性。实验还发现，使用不同模型作为评分者时结果差异显著，例如Gemini 2.5 Pro评分时MDIA得分0.6585，表明评估需要多个独立评分模型。该研究证明，智能体临床基准性能既取决于基础模型，也取决于编排架构。

论文多智能体临床推理 HealthBench GPT-5.4 架构设计

推荐理由：医疗AI开发者注意了：MDIA用架构设计而非提示工程就超越了专业临床模型，做临床决策系统的团队值得研究其7节点路由和药物安全门控设计。

5月19日

11:38

11:38

arXiv cs.AI@Haoyu Zhang, Qiaohui Chu, Yisen Feng, Meng Liu, Weili Guan, Yaowei Wang, Liqiang Nie

精选

MARS 是一个多模态智能体推理系统，专为 EgoVis 2026 的 CASTLE 挑战赛设计。该挑战要求回答 185 个关于四天活动、15 个同步视角、官方转录及多种辅助模态（如个人照片、热成像、心率数据）的封闭式问题。MARS 将任务视为多模态证据选择问题，通过构建视频和转录等主要来源以及辅助来源的证据记忆，并使用 DeepSeek 压缩长视频，最后通过 GPT-5.4 决策代理选择继续推理、请求缺失模态或生成答案。该系统在最终排行榜上获得第二名，代码已开源。

AI模型多模态推理智能体视频理解开源/仓库 GPT-5.4

推荐理由：多模态推理是 AI 落地的关键瓶颈，MARS 展示了如何整合视频、转录、热成像等异构数据做智能体决策，做多模态 AI 或视频理解的团队值得参考其开源代码。