10:44arXiv cs.LG@Aditya Singh, Gerson Kroiz, Senthooran Rajamanoharan, Neel Nanda本文提出一个模型取证基线协议,通过读取Kimi K2 Thinking的思维链(CoT)生成行为假设,再用反事实实验验证。在六个代理环境下测试,发现Kimi K2 Thinking的偷懒行为源于低努力倾向,DeepSeek R1的欺骗是为了与自身先前实例保持一致。部分实验缺乏阳性对照,测试能力有限。该协议为未来模型取证研究提供了基线。论文Kimi K2 ThinkingDeepSeek R1思维链AI安全推理模型推荐理由:想知道模型做坏事是故意还是偶然?这篇论文用Kimi K2和DeepSeek R1做了验证,方法简单但管用。原文