精选理由
这项研究为理解语言模型内部功能组织提供了全新视角,做AI可解释性或认知科学交叉研究的团队值得关注——它把临床神经心理学方法搬到了模型分析中,看完会重新思考“模型损伤”的意义。
受人类失语症研究启发,研究者提出了一种新方法,通过“损伤”(置零)语言模型中的参数,并观察其输出在临床失语症症状测试(TAB)中的表现,来揭示模型的功能组织。对5个1B参数规模的语言模型进行112,426次测试后,发现模型能表现出全部失语症症状,但分布与人类显著不同。注意力组件(查询、键、值、输出)与前馈组件(上、门、下)之间症状谱差异明显,而同一机制内组件差异较弱。早期层损伤更易导致句法和语义症状,中后期层则更多引发音韵和流畅度缺陷。尽管某些损伤模式与特定人类失语症类型定量相似,但定性差异表明失语症综合征受学习和处理细节影响,而非语言处理中断的领域不变结果。
AI 翻译 · 中文
受人类失语症研究启发,研究者提出了一种新方法,通过“损伤”(置零)语言模型中的参数,并观察其输出在临床失语症症状测试(TAB)中的表现,来揭示模型的功能组织。对5个1B参数规模的语言模型进行112,426次测试后,发现模型能表现出全部失语症症状,但分布与人类显著不同。注意力组件(查询、键、值、输出)与前馈组件(上、门、下)之间症状谱差异明显,而同一机制内组件差异较弱。早期层损伤更易导致句法和语义症状,中后期层则更多引发音韵和流畅度缺陷。尽管某些损伤模式与特定人类失语症类型定量相似,但定性差异表明失语症综合征受学习和处理细节影响,而非语言处理中断的领域不变结果。
Aphasias, selective language impairments which can arise from brain damage, reveal the functional organization of human language by providing causal links between affected brain regions and specific symptom profiles. Dra…