GVG框架：用生成式视觉对齐让MLLM理解脑电信号

精选理由

脑电信号理解一直受限于文本对齐的信息损失，GVG用生成图像作为桥梁，让MLLM能利用视觉先验进行更丰富的解读。做脑机接口或神经科学AI的团队，这个框架值得关注，轻量模型就能达到大模型效果。

AI 摘要

现有方法将脑电信号（EEG）与文本对齐，但会丢失精细的感知信息。研究者提出生成式视觉对齐（GVG）框架，通过EEG到图像的生成模型作为视觉翻译器，为非视觉EEG生成实例特定的代理图像，让多模态大模型（MLLM）利用视觉先验进行临床状态解读。在GVG-X-Omni和GVG-Janus两个骨干模型上验证，仅图像对齐的轻量模型在冻结7B参数骨干上仅调优170M参数，即可匹配1.7B参数文本对齐基线。进一步的三模态图像+文本对齐实验显示，视觉代理对齐能有效补充文本对齐，在EEG理解和视觉生成上均有一致提升。

AI 翻译 · 中文

arXiv cs.AILeveraging the universal representations of pre-trained LLMs and MLLMs offers a promising path toward brain foundation models. However, visually-evoked EEG datasets remain scarce, leading existing methods to align neural…

阅读原文