Qwen2.5-0.5B调优后在关系抽取上超越GPT-5.4和Claude Sonnet

Sub-Billion, Super-Frontier: Small Language Models Rival Zero-Shot Frontier LLMs on General and Literary Relation Extraction

精选理由

Qwen2.5-0.5B调优后,在关系抽取任务上干掉了GPT-5.4和Claude Sonnet,而且模型很小,单卡就能跑,适合隐私敏感场景。

AI 摘要

论文对比了5个小型语言模型(360M至3B参数)在通用域和文学域关系抽取上的表现。在通用域,Qwen2.5-0.5B经过微调后达到0.83 micro-F1,超过零样本的GPT-5.4(0.69)和Claude Sonnet 4.6(0.66)。在文学域,调优后的SLM在Biographical基准上达0.92,GPT-5.4为0.83,文学均值0.833 vs 0.578。结果表明,任务特定调优的SLM可在单张消费级GPU上部署,提供准确、隐私且硬件高效的关系抽取。

AI 翻译 · 中文

论文对比了5个小型语言模型(360M至3B参数)在通用域和文学域关系抽取上的表现。在通用域,Qwen2.5-0.5B经过微调后达到0.83 micro-F1,超过零样本的GPT-5.4(0.69)和Claude Sonnet 4.6(0.66)。在文学域,调优后的SLM在Biographical基准上达0.92,GPT-5.4为0.83,文学均值0.833 vs 0.578。结果表明,任务特定调优的SLM可在单张消费级GPU上部署,提供准确、隐私且硬件高效的关系抽取。

arXiv cs.LGLarge language models (LLMs) achieve strong relation extraction (RE), but their computational demands and reliance on proprietary APIs limit deployment in resource-constrained or privacy-sensitive settings. We investigat