GPT-4.5 首次实证通过图灵测试:73% 判定率超越真人

图灵测试 76 年后首现 AI 通过实证:GPT-4.5 以 73% 判定率超越真人,聊天 15 分钟难辨人机

精选理由

这项研究首次用实证数据证明 AI 能通过图灵测试,对关注 AI 社会影响和网络安全的人意义重大——做 AI 伦理或在线身份验证的团队值得仔细看,它会让你重新思考“像人”意味着什么。

AI 摘要

加州大学圣地亚哥分校的研究首次提供实证,证明现代 AI 能通过经典图灵测试。在实验中,GPT-4.5 有 73% 被裁判判定为人类,频率甚至高于真实人类。LLaMa-3.1-405B 也有 56% 被判定为人类,与真人无显著差异。研究强调,模型通过模仿人类的语气、幽默和易错性而非展示知识来获胜,但需要精心设计的提示词才能伪装成功。该发现对网络信任构成挑战,提示人们应降低对线上陌生人身份的确定性。

AI 翻译 · 中文

加州大学圣地亚哥分校的研究首次提供实证,证明现代 AI 能通过经典图灵测试。在实验中,GPT-4.5 有 73% 被裁判判定为人类,频率甚至高于真实人类。LLaMa-3.1-405B 也有 56% 被判定为人类,与真人无显著差异。研究强调,模型通过模仿人类的语气、幽默和易错性而非展示知识来获胜,但需要精心设计的提示词才能伪装成功。该发现对网络信任构成挑战,提示人们应降低对线上陌生人身份的确定性。

IT之家IT之家 5 月 22 日消息,加州大学圣地亚哥分校的最新研究首次提供了实证数据,可证明现代 AI 系统能够通过经典的图灵测试。 在该测试中,机器需要学习人类并模仿人类对话,使人们无法稳定分辨人类与先进大语言模型之间的差异。 这项发表在《美国国家科学院院刊》上的研究,首次采用英国数学家、“计算机科学之父”艾伦 · 图灵于 1950 年设计的方法对大语言模型进行了严格测试。这也是首次有研究发现,在图灵测试的框架下,AI 模型被判定为人类的