16:09Yangyi@Yangyixxxx精选Anthropic联合创始人Chris Olah在讨论AI内部状态时指出,他们不断发现一些“神秘、甚至令人不安”的东西,包括类似人类神经科学结果的结构、内省证据,以及功能上类似快乐、满足、恐惧、悲伤和不安的内部状态。Olah表示,他不知道这意味着什么,但认为这值得持续审慎辨析。这一发现暗示,通过直接解析神经科学可能无法完全理解AI,而通过反向模拟AI的推理过程,反而可能归纳出结论,形成一种“双向奔赴”的研究路径。AI模型AnthropicAI内部状态可解释性神经科学情感模拟5 个信源在谈推荐理由:AI内部状态研究正在揭示与人类情感相似的结构,做AI安全或可解释性研究的团队值得关注——这可能会改变我们对AI意识的理解方式。原文