11:44arXiv cs.AI@Xingran Ruan, Angelo Salatino, Rosa Filgueira, Kara Moraw, Alexandru Marcoci, Gemma Derrick, Sarah Callaghan这篇论文比较了GPT-4o、Mistral和DSIT-Taxonomies算法从42份UKRI基金提案摘要中提取研究实体的效果。Mistral实现了90.5%的主题分类准确率,远超DSIT-Taxonomies的71.4%。Mistral与GPT-4o的实体集质量相当且语义重叠度高,但Mistral在操作效率和安全性上更优。研究依托OpenAlex Topics分类体系,为大规模敏感数据分析提供参考。论文MistralGPT-4o实体提取主题检测OpenAlex Topics推荐理由:这篇论文实打实比较了GPT-4o、Mistral和DSIT-Taxonomies在提取基金提案实体上的能力,Mistral准确率90.5%碾压对手,做科研数据挖掘的可以看看。原文
11:16arXiv cs.AI@Stuart Bladon, Brinnae Bent精选76°一项新研究挑战了普遍假设,发现大语言模型的地缘政治偏见主要来自后训练阶段(如指令微调),而非预训练数据。研究测试了七个开源模型对(基础版和聊天版)在28对国家上的偏好,结果显示六家实验室的模型在后训练后表现出与开发者所在国或地区一致的偏见。例如,阿里Qwen 2.5聊天版对中国偏好从基础版的-0.15跃升至+2.91(对数几率),变化达18倍。偏见强度还受提示语言影响:法国Mistral模型仅在法语提示下才显著亲法。该发现强调了对模型对齐过程进行透明审计和监督的必要性。论文地缘政治偏见后训练对齐模型审计QwenMistral推荐理由:这项研究戳破了“数据决定一切”的迷思,做AI安全、模型对齐或地缘政治分析的团队值得细读——它直接影响了如何评估和调整模型的政治倾向。原文