全部 AI 动态 · AI 热点

AITOP

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月15日

11:10

arXiv cs.LG@Liou Tang, James Joshi, Ashish Kundu

该论文针对机器遗忘（Machine Unlearning）的审计问题，给出信息论证明：对于凸ML模型，任何仅依赖行为信号（如模型输出）的审计方案，都无法在不泄露保留集成员信息的情况下识别未经充分遗忘的模型。实验在凸模型上强有力地支持该结论，并在非凸模型上也观察到类似的隐私-审计权衡。研究结果呼吁在现实审计者威胁模型下更谨慎地考虑隐私与审计的冲突，并为设计隐私保护的审计方案提供基础。代码已开源。

论文 Machine Unlearning 隐私审计凸模型隐私保护

推荐理由：论文证明行为审计会泄露隐私，给审计方案敲警钟

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

09:11

arXiv: DeepSeek@Leonard Engmann, Christian Medeiros Adriano, Holger Giese

精选

这篇论文对混合专家模型（MoE）中的专家重要性评估方法进行了因果审计。研究者发现，当前广泛使用的路由统计指标（如利用率、激活范数、路由权重分布）无法预测哪些专家可以被移除而不影响模型功能。他们在 OLMoE-1B-7B-0924、Qwen1.5-MoE-A2.7B 和 DeepSeek-V2-Lite 三个高冗余 MoE 架构上进行了 token 级干预实验，结果在所有 60 个指标-层组合中，观测指标与因果重要性之间的效应量均低于 Cohen's d = 0.17。现有剪枝方法之所以有效，并非因为它们识别出了可去除的专家，而是因为早期层的冗余性使得大多数选择标准可以互换。这项研究为可解释性领域提供了一个明确的反例，说明从总体观测统计到 token 级干预结论的推理步骤需要更严格的因果验证。

论文 MoE/混合专家模型剪枝因果推断可解释性审计

推荐理由：MoE 模型剪枝的常用假设被实验证伪了——做模型压缩或可解释性研究的团队，建议重新审视你的专家选择策略，别再依赖路由统计指标。

原文

6月9日

09:26

arXiv: DeepSeek@Zhiwei Liu, Yueru He, Qing Ou, Tianlei Zhu, Xiaorui Guo, Xueqing Peng, Sophia Ananiadou

精选

现有金融审计基准主要关注事实验证和规则合规，但缺乏对误导性披露叙述的评估。研究者推出 AuditFraudBench，基于真实公司文件和监管材料构建，包含利润来源归因、误导性叙述检测和欺诈模式分类三个任务。测试 GPT、DeepSeek、Qwen 等模型发现，无论是闭源还是开源模型，在联合推理财务数据、披露框架、重述证据和执法欺诈机制方面仍表现不佳。该基准为评估 LLM 在财务报告中的审计相关能力提供了具有挑战性的测试平台。

论文审计财务欺诈检测 LLM 评估基准测试金融 NLP

推荐理由：审计和财务分析从业者终于有了一个专门评估 LLM 识别财务造假的基准——AuditFraudBench 直击现有模型在误导性披露和欺诈模式上的短板，做金融 NLP 或审计自动化的团队值得用它来检验自己的模型。

原文

6月3日

10:13

arXiv cs.AI@Yingqi Zhang

精选72°

Agent libOS 提出了一种受库操作系统启发的运行时架构，将LLM智能体视为可调度的进程，具备身份、生命周期、对象内存、显式能力、人工审批队列和审计记录。其核心设计原则是工具作为类似libc的包装器，运行时原语作为权限边界，文件系统访问、对象访问、睡眠、人工批准、JIT工具注册和外部副作用都在原语边界处通过显式能力和策略进行检查。原型实现了异步调度、命名空间本地对象内存、运行时集成的人工批准、一次性权限授予、每个进程的工作目录、shell和图像注册原语、Deno/TypeScript JIT工具、文件系统/对象桥接工具、可注入的资源提供者子系统和123个回归测试。该工作不旨在提高规划器准确性，而是展示一种运行时基板，使长期运行的LLM智能体能够被调度、授权、恢复和审计，而无需将工具调度视为信任边界。

论文 LLM智能体运行时能力控制审计库操作系统

推荐理由：做LLM智能体工程化的团队终于有了一个正经的运行时方案——Agent libOS把智能体当进程管理，解决了长期运行、权限控制和审计的痛点，做智能体框架或生产部署的开发者值得细读。

原文