10:57arXiv cs.LG@Denis Peskoff, Joe Barrow, Christopher Vu, Diag DavenportLOCUS是美国首个大规模地方法规语料库,收录9,239个市县的法典。该数据集通过OCR处理了多种文档格式,覆盖3,144个县中的2,309个,覆盖多数美国人口。研究团队训练了基于ModernBERT的分类器,用于分析法规的模糊性和家长主义等维度。LOCUS-v1及其衍生模型已在Hugging Face上开源。论文LOCUSLegal AI数据集OCR法规语料库推荐理由:法律AI研究者有福了!LOCUS提供了9,239个美国地方法规的机器可读语料,还附带了基于ModernBERT的分析工具,解决碎片化问题。原文