09:44
09:44
arXiv cs.LG@Luke J. Zachmann, David D. Diaz, Vincent A. Landau, Chelsey Walden-Schreiner, Tony Chang, Nathan E. Rutenbeck, Katharyn A. Duffy, Kiarie Ndegwa, Andreas Gros, Scott Conway, Guy Bayes VibrantForests框架融合国家森林清查、机载激光雷达和卫星图像,以10米分辨率生成美国本土全区域的森林结构属性图。该模型同时估计冠层覆盖、冠层高度、地上活树生物量、断面积和二次平均直径五项指标。模型扩展了常见被动传感器模型的饱和范围,并减少了回归均值行为(稀疏条件下高估、密集条件下低估)。该框架能以年度节奏提供连贯的全区域森林管理相关属性估计。
推荐理由:VibrantForests搞了个新框架,用卫星和激光雷达做出全美10米分辨率森林地图,比老模型更准,不饱和不回归均值。
09:37
09:37
arXiv: OpenAI@Guneesh Vats, Anubha Agrawal, Shikha Singhal, Ajita Dash, Praison Selvaraj, Vidhan Jhawar, Ranga Prasad Chenna, Bharadwaj Y M G REDACT 是一个包含13,427条记录、324,078个实体标注、51种实体类型和4,127种表面形式模式的多语言PII检测基准,覆盖25种语言的9种文字系统。该基准通过强度2覆盖阵列采样器控制9个生成轴,包括领域、格式、难度等。评估了五个检测器(Presidio、GLiNER、OpenAI Privacy Filter、GPT-4.1、Claude Sonnet 4.6)在1,000条记录上的表现,发现基于规则的检测器在高风险数据上表现较差(HIGH敏感类别召回率0.07),而LLM检测器更鲁棒。该基准还提供了实体级元数据(披露状态、披露形式、GDPR敏感等级)以支持分层评估。
推荐理由:这个基准提供了具体的数据和评估,能帮你了解不同检测器在处理多语言PII时的真实表现差异。
仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。