AuditFraudBench：审计欺诈检测新基准，LLM 识别财务造假仍困难

精选理由

审计和财务分析从业者终于有了一个专门评估 LLM 识别财务造假的基准——AuditFraudBench 直击现有模型在误导性披露和欺诈模式上的短板，做金融 NLP 或审计自动化的团队值得用它来检验自己的模型。

AI 摘要

现有金融审计基准主要关注事实验证和规则合规，但缺乏对误导性披露叙述的评估。研究者推出 AuditFraudBench，基于真实公司文件和监管材料构建，包含利润来源归因、误导性叙述检测和欺诈模式分类三个任务。测试 GPT、DeepSeek、Qwen 等模型发现，无论是闭源还是开源模型，在联合推理财务数据、披露框架、重述证据和执法欺诈机制方面仍表现不佳。该基准为评估 LLM 在财务报告中的审计相关能力提供了具有挑战性的测试平台。

AI 翻译 · 中文

arXiv: DeepSeekLarge language models (LLMs) have shown strong performance in financial analysis and surface-level factual error detection, yet their ability to identify fraudulent financial misinformation in audited corporate reporting…

阅读原文