10:04arXiv cs.LG@Craig Atkinson研究在Open University Learning Analytics数据集(N=800,4个时间截点)上发现干预偏差:第56天,oracle标记70.1%学生无需干预,但零样本GPT-4o对73%学生推荐行动,误报率43个百分点。商业RAG和SQL增强检索校准同样差,在10000学生规模下每周期约4300次不必要接触。监督学习方法(ONNX Decision Transformer和XGBoost)校准误差接近零,Decision Transformer达到macro-F1 0.79、macro-recall 0.85,决策延迟低于5毫秒。LLM-as-judge评估(DeepEval G-Eval)无法捕捉干预偏差,反而奖励流畅的过度干预。论文GPT-4oDecision TransformerXGBoost干预偏差教育顾问推荐理由:零样本GPT-4o当教育顾问爱多管闲事?实测误报率43%,换成Decision Transformer或XGBoost就能准到几乎零误报。原文