11:10arXiv cs.LG@Liou Tang, James Joshi, Ashish Kundu该论文针对机器遗忘(Machine Unlearning)的审计问题,给出信息论证明:对于凸ML模型,任何仅依赖行为信号(如模型输出)的审计方案,都无法在不泄露保留集成员信息的情况下识别未经充分遗忘的模型。实验在凸模型上强有力地支持该结论,并在非凸模型上也观察到类似的隐私-审计权衡。研究结果呼吁在现实审计者威胁模型下更谨慎地考虑隐私与审计的冲突,并为设计隐私保护的审计方案提供基础。代码已开源。论文Machine Unlearning隐私审计凸模型隐私保护推荐理由:论文证明行为审计会泄露隐私,给审计方案敲警钟原文
09:11arXiv: DeepSeek@Leonard Engmann, Christian Medeiros Adriano, Holger Giese精选这篇论文对混合专家模型(MoE)中的专家重要性评估方法进行了因果审计。研究者发现,当前广泛使用的路由统计指标(如利用率、激活范数、路由权重分布)无法预测哪些专家可以被移除而不影响模型功能。他们在 OLMoE-1B-7B-0924、Qwen1.5-MoE-A2.7B 和 DeepSeek-V2-Lite 三个高冗余 MoE 架构上进行了 token 级干预实验,结果在所有 60 个指标-层组合中,观测指标与因果重要性之间的效应量均低于 Cohen's d = 0.17。现有剪枝方法之所以有效,并非因为它们识别出了可去除的专家,而是因为早期层的冗余性使得大多数选择标准可以互换。这项研究为可解释性领域提供了一个明确的反例,说明从总体观测统计到 token 级干预结论的推理步骤需要更严格的因果验证。论文MoE/混合专家模型剪枝因果推断可解释性审计推荐理由:MoE 模型剪枝的常用假设被实验证伪了——做模型压缩或可解释性研究的团队,建议重新审视你的专家选择策略,别再依赖路由统计指标。原文
23:49LangChain@LangChainAILangSmith 推出全链路追踪功能,覆盖每一次工具调用、检索步骤和推理节点。该功能为组织提供完整的审计追踪和可解释性层,并作为运行评估的基础。用户可以获得逐篇文章的详细分解。这有助于提升 AI 应用的透明度和调试效率。AI产品LangSmith全链路追踪可解释性评估审计推荐理由:做 AI 应用开发和运维的团队终于有了可审计的全链路追踪——LangSmith 覆盖工具调用和推理节点,建议直接集成到工作流中。原文
09:26arXiv: DeepSeek@Zhiwei Liu, Yueru He, Qing Ou, Tianlei Zhu, Xiaorui Guo, Xueqing Peng, Sophia Ananiadou精选现有金融审计基准主要关注事实验证和规则合规,但缺乏对误导性披露叙述的评估。研究者推出 AuditFraudBench,基于真实公司文件和监管材料构建,包含利润来源归因、误导性叙述检测和欺诈模式分类三个任务。测试 GPT、DeepSeek、Qwen 等模型发现,无论是闭源还是开源模型,在联合推理财务数据、披露框架、重述证据和执法欺诈机制方面仍表现不佳。该基准为评估 LLM 在财务报告中的审计相关能力提供了具有挑战性的测试平台。论文审计财务欺诈检测LLM 评估基准测试金融 NLP推荐理由:审计和财务分析从业者终于有了一个专门评估 LLM 识别财务造假的基准——AuditFraudBench 直击现有模型在误导性披露和欺诈模式上的短板,做金融 NLP 或审计自动化的团队值得用它来检验自己的模型。原文
10:13arXiv cs.AI@Yingqi Zhang精选72°Agent libOS 提出了一种受库操作系统启发的运行时架构,将LLM智能体视为可调度的进程,具备身份、生命周期、对象内存、显式能力、人工审批队列和审计记录。其核心设计原则是工具作为类似libc的包装器,运行时原语作为权限边界,文件系统访问、对象访问、睡眠、人工批准、JIT工具注册和外部副作用都在原语边界处通过显式能力和策略进行检查。原型实现了异步调度、命名空间本地对象内存、运行时集成的人工批准、一次性权限授予、每个进程的工作目录、shell和图像注册原语、Deno/TypeScript JIT工具、文件系统/对象桥接工具、可注入的资源提供者子系统和123个回归测试。该工作不旨在提高规划器准确性,而是展示一种运行时基板,使长期运行的LLM智能体能够被调度、授权、恢复和审计,而无需将工具调度视为信任边界。论文LLM智能体运行时能力控制审计库操作系统1 个信源在谈推荐理由:做LLM智能体工程化的团队终于有了一个正经的运行时方案——Agent libOS把智能体当进程管理,解决了长期运行、权限控制和审计的痛点,做智能体框架或生产部署的开发者值得细读。原文