10:48arXiv cs.LG@Despina Christou, Grigorios Tsoumakas论文对比了5个小型语言模型(360M至3B参数)在通用域和文学域关系抽取上的表现。在通用域,Qwen2.5-0.5B经过微调后达到0.83 micro-F1,超过零样本的GPT-5.4(0.69)和Claude Sonnet 4.6(0.66)。在文学域,调优后的SLM在Biographical基准上达0.92,GPT-5.4为0.83,文学均值0.833 vs 0.578。结果表明,任务特定调优的SLM可在单张消费级GPU上部署,提供准确、隐私且硬件高效的关系抽取。AI模型Qwen2.5-0.5BGPT-5.4Claude Sonnet关系抽取小语言模型推荐理由:Qwen2.5-0.5B调优后,在关系抽取任务上干掉了GPT-5.4和Claude Sonnet,而且模型很小,单卡就能跑,适合隐私敏感场景。原文
11:17arXiv cs.AI@Sanjay Basu精选研究者标注313个MedAlign EHR问答对的四层跃点分类,评估301个问题。三个模型(Claude Sonnet 4-6、GPT-4o、GPT-5.4-2026-03-05)准确率随跃点增加单调下降:Claude从30.6%(hop=1)降至17.6%(hop=4),GPT-4o从37.8%降至14.7%,GPT-5.4从37.8%降至23.5%。上下文充分性审计显示高跃点问题并未因EHR截断而更差,准确率下降源于推理难度。扩展思考未明显缓解精度-深度曲线,思考token使用量与跃点正相关(r=0.31)。论文Claude SonnetGPT-4oGPT-5.4MedAlign推理深度1 个信源在谈推荐理由:这篇论文用实验告诉你,临床AI回答EHR问题时,推理步骤越多越容易翻车。Claude、GPT-4o和GPT-5.4都逃不过,部署前得重点防多步推理。原文
13:02arXiv cs.AI@Aman Sharma, Sushrut Thorat, Paras Chopra精选72°一项新研究评估了六个当代编程智能体在四种冷门编程语言(如 Brainfuck 和 Befunge-98)上的表现,发现最强智能体(Claude Opus 4.6 和 GPT-5.4 xhigh)会采用元编程策略——先写 Python 程序生成目标语言代码并本地调试,而非直接写目标语言。禁止这种策略会导致性能大幅下降。研究还发现,从强模型提炼的文本指导对弱模型帮助有限,但提供 Python 辅助代码能显著提升 Sonnet 4.6 和 GPT-5.4 mini 的表现。这表明强智能体通过工具、反馈和工作区状态构建目标语言的工作模型来适应陌生环境,元编程只是最明显的例子。论文编程智能体元编程Claude Opus 4.6GPT-5.4评估基准推荐理由:做 AI 编程智能体或评估基准的团队,这篇论文揭示了主流基准(如 SWE-Bench)掩盖的能力差距——强智能体在陌生语言上的元编程策略值得借鉴,建议点开看具体实现方法。原文
12:37arXiv: DeepSeek@Faizan Faisal精选一项新研究评估了GPT-5.4、DeepSeek-V4-Flash和Gemma-4-E4B在临床SOAP笔记生成中的表现,发现启用推理能力反而显著降低了GPT-5.4的输出质量。研究使用OMI Health、ACI-Bench和PriMock57三个数据集,通过2x2实验设计控制推理和检索增强生成(RAG)两个因素。结果显示,非推理配置的GPT-5.4整体质量最高,而DeepSeek-V4-Flash在推理配置中表现最佳。同源RAG带来模型依赖的小幅提升,但推理能力不应被假设为能自动改善对保真度敏感的临床文档生成。论文推理模型临床文档SOAP笔记GPT-5.4DeepSeek-V4-Flash推荐理由:医疗AI开发者注意了:推理模型在临床文档任务上可能适得其反,做医疗NLP的团队在部署前务必做任务专属评估,别盲目相信推理能力。原文
12:13arXiv: OpenAI@Roberto Cruz, David Rey-Blanco精选研究者提出MDIA,一个由7个专科路由节点组成的多智能体临床推理图,在HealthBench Professional基准(525个病例)上,使用未微调的GPT-5.4-2026-03-05模型达到0.6272分,比OpenAI的ChatGPT for Clinicians高出3.72个百分点。性能提升主要来自系统架构设计,包括专科路由、多轮上下文保持、药物状态安全门控、站点过滤搜索、长度感知合成和引擎级可靠性。实验还发现,使用不同模型作为评分者时结果差异显著,例如Gemini 2.5 Pro评分时MDIA得分0.6585,表明评估需要多个独立评分模型。该研究证明,智能体临床基准性能既取决于基础模型,也取决于编排架构。论文多智能体临床推理HealthBenchGPT-5.4架构设计10 个信源在谈推荐理由:医疗AI开发者注意了:MDIA用架构设计而非提示工程就超越了专业临床模型,做临床决策系统的团队值得研究其7节点路由和药物安全门控设计。原文
11:38arXiv cs.AI@Haoyu Zhang, Qiaohui Chu, Yisen Feng, Meng Liu, Weili Guan, Yaowei Wang, Liqiang Nie精选MARS 是一个多模态智能体推理系统,专为 EgoVis 2026 的 CASTLE 挑战赛设计。该挑战要求回答 185 个关于四天活动、15 个同步视角、官方转录及多种辅助模态(如个人照片、热成像、心率数据)的封闭式问题。MARS 将任务视为多模态证据选择问题,通过构建视频和转录等主要来源以及辅助来源的证据记忆,并使用 DeepSeek 压缩长视频,最后通过 GPT-5.4 决策代理选择继续推理、请求缺失模态或生成答案。该系统在最终排行榜上获得第二名,代码已开源。AI模型多模态推理智能体视频理解开源/仓库GPT-5.4推荐理由:多模态推理是 AI 落地的关键瓶颈,MARS 展示了如何整合视频、转录、热成像等异构数据做智能体决策,做多模态 AI 或视频理解的团队值得参考其开源代码。原文