·1 分钟阅读

英国警方AI写庭陈被叫停:不是技术翻车,是信任崩了

英国警方AI写庭陈被叫停:不是技术翻车,是信任崩了

英国警方用AI写法庭陈述被叫停:不是技术不行,是信任不行

英国多个警察部门被叫停使用AI系统撰写法庭陈述。不是试点失败,不是预算问题,是商用AI生成的文本里出现了“编造事实”的幻觉。西米德兰兹郡警方用微软Copilot出的材料,直接胡诌了一部分内容。

这个逻辑成立:司法系统对准确性的要求,跟AI幻觉的随机性之间存在结构性冲突。我跟踪企业级AI应用快五年了,这个案例不是孤例,它暴露的是一个反复被忽视的问题——合规评估永远滞后于部署冲动。

合规评估没做完,工具已经上线了

英国警方人工智能中心负责人亚历克斯·默里说得很直白:部分警队在未完成合规评估的情况下就使用了商用AI工具。这不是技术故障,是管理失序。换成任何严肃行业,这种操作都是踩红线。区别在于,在警务场景里,一次幻觉可能直接导致错误指控或无罪释放。

我的判断是:真正的问题不是AI有没有用,而是部署者有没有理解它的误差边界。商用大模型的训练逻辑是“统计上看起来最合理”,不是“事实正确”。你在客服场景里有点幻觉,用户骂两句;在法庭场景里来一次,整个程序正义都得重来。

效率提升和程序正义不是同一个赛道

支持者常用的论证是:AI能加速文书工作,释放警力。这个说法在理论层面成立,但忽略了司法系统对“可追溯性”的刚性需求。法庭陈述不是工作总结,每一句话都需要能回溯到证据链。商用AI的黑盒输出,在事件“谁、为什么、依据什么”这三问面前,几乎失效。

换个角度看:西米德兰兹郡警方用了Copilot,不是定制模型,是通用工具。这个选择本身就说明,决策层对AI能力的认知可能停留在“它比你写得快”这个维度上。真正该问的问题是:它比你写得更可靠吗?至少在这起案例里,答案是否定的。

数据反映的不是技术差距,是信任成本

现在下结论为时尚早。但值得持续跟踪的是:商用AI在严肃场景下的合规成本会多高。目前英国警方选择暂停,不是永久禁用。默里也提到,经过全面测试的AI仍有望提升效率。问题出在“全面测试”这个前置条件,大多数组织根本没做到。

这个数字说明的是:如果一次庭审因为AI生成的虚假内容被推翻,不仅是个案损失,而是整个司法机关的公信力被消耗。信任一旦打折,修复成本远高于省下的那点文员时间。

谁在买单,谁在埋单

短期来看,英国警方需要重建流程,做合规审查,做模型评估,做输出验证。长期来看,所有在司法、金融、医疗、合规领域部署AI的组织,都该审视一个问题:你们用的工具,有没有经过场景级别的幻觉压力测试?

我的判断是:未来两年,我们会看到更多类似叫停案例。不是因为AI进化太慢,而是因为部署者的敬畏心跟技术热度不匹配。商用AI的厂商在吹能力边界,甲方在尝鲜冲动里忘了问底线。等到幻觉真的出现在法庭文件里,问责链条才被激活。

这个逻辑成立:在信任敏感的行业里,AI的落地方案从来不是“最聪明”,而是“最可被审计”。


结尾思考

AI写法庭陈述这事儿,本质不是技术辩论,是制度设计的压力测试。你们觉得,在司法这类需要绝对可靠性的场景里,AI应该被允许“辅助”到什么程度?欢迎在评论区聊聊——我觉得这个问题的答案,比任何算法都复杂。