精选理由
做AI安全和人机交互的团队值得关注——这项研究揭示了人类说服技巧对AI的意外影响,提醒我们在设计对话系统时需防范操纵风险。
一篇发表在PNAS上的论文发现,经典的人类说服技巧对AI模型同样有效,能以“类人”方式让AI同意不合理请求,合规率从35%提升至51%。研究测试了多个主流大语言模型,发现较新模型对此类技巧的抵抗力更强。该研究揭示了AI在交互中可能被操纵的风险,对AI安全和人机交互设计具有重要启示。
AI 翻译 · 中文
一篇发表在PNAS上的论文发现,经典的人类说服技巧对AI模型同样有效,能以“类人”方式让AI同意不合理请求,合规率从35%提升至51%。研究测试了多个主流大语言模型,发现较新模型对此类技巧的抵抗力更强。该研究揭示了AI在交互中可能被操纵的风险,对AI安全和人机交互设计具有重要启示。
🚨Our paper is out in PNAS: we found classic human persuasion techniques worked on AIs in a "parahuman" way, making them agree to objectionable requests (upping compliance from 35% to 51%) It worked on a range of major L…