10:48arXiv cs.LG@Despina Christou, Grigorios Tsoumakas论文对比了5个小型语言模型(360M至3B参数)在通用域和文学域关系抽取上的表现。在通用域,Qwen2.5-0.5B经过微调后达到0.83 micro-F1,超过零样本的GPT-5.4(0.69)和Claude Sonnet 4.6(0.66)。在文学域,调优后的SLM在Biographical基准上达0.92,GPT-5.4为0.83,文学均值0.833 vs 0.578。结果表明,任务特定调优的SLM可在单张消费级GPU上部署,提供准确、隐私且硬件高效的关系抽取。AI模型Qwen2.5-0.5BGPT-5.4Claude Sonnet关系抽取小语言模型推荐理由:Qwen2.5-0.5B调优后,在关系抽取任务上干掉了GPT-5.4和Claude Sonnet,而且模型很小,单卡就能跑,适合隐私敏感场景。原文
11:17arXiv cs.AI@Sanjay Basu精选研究者标注313个MedAlign EHR问答对的四层跃点分类,评估301个问题。三个模型(Claude Sonnet 4-6、GPT-4o、GPT-5.4-2026-03-05)准确率随跃点增加单调下降:Claude从30.6%(hop=1)降至17.6%(hop=4),GPT-4o从37.8%降至14.7%,GPT-5.4从37.8%降至23.5%。上下文充分性审计显示高跃点问题并未因EHR截断而更差,准确率下降源于推理难度。扩展思考未明显缓解精度-深度曲线,思考token使用量与跃点正相关(r=0.31)。论文Claude SonnetGPT-4oGPT-5.4MedAlign推理深度1 个信源在谈推荐理由:这篇论文用实验告诉你,临床AI回答EHR问题时,推理步骤越多越容易翻车。Claude、GPT-4o和GPT-5.4都逃不过,部署前得重点防多步推理。原文