失语症启发：通过“损伤”参数揭示语言模型的功能组织

精选理由

这项研究为理解语言模型内部功能组织提供了全新视角，做AI可解释性或认知科学交叉研究的团队值得关注——它把临床神经心理学方法搬到了模型分析中，看完会重新思考“模型损伤”的意义。

AI 摘要

受人类失语症研究启发，研究者提出了一种新方法，通过“损伤”（置零）语言模型中的参数，并观察其输出在临床失语症症状测试（TAB）中的表现，来揭示模型的功能组织。对5个1B参数规模的语言模型进行112,426次测试后，发现模型能表现出全部失语症症状，但分布与人类显著不同。注意力组件（查询、键、值、输出）与前馈组件（上、门、下）之间症状谱差异明显，而同一机制内组件差异较弱。早期层损伤更易导致句法和语义症状，中后期层则更多引发音韵和流畅度缺陷。尽管某些损伤模式与特定人类失语症类型定量相似，但定性差异表明失语症综合征受学习和处理细节影响，而非语言处理中断的领域不变结果。

AI 翻译 · 中文

arXiv cs.LGAphasias, selective language impairments which can arise from brain damage, reveal the functional organization of human language by providing causal links between affected brain regions and specific symptom profiles. Dra…

阅读原文