做蛋白质结构预测和语言建模的团队终于有了能处理动态构象的工具——Ensembits 从单个结构就能预测运动模式,比静态分词器更贴近真实生物学,做功能预测和突变效应分析的可以直接用。
蛋白质结构分词器(PST)是蛋白质语言建模和功能预测的重要工具,但现有方法只捕捉静态结构的局部几何信息,忽略了蛋白质构象集合中的相关运动和替代状态。研究者提出 Ensembits,这是首个对蛋白质构象集合进行分词的方法,通过残差 VQ-VAE 和帧蒸馏目标在大型分子动力学语料上训练。Ensembits 在 RMSF 预测上优于所有相关方法,在基于 token 的方差分析测试中成为最强的独立结构分词器,并在 EC、GO、结合位点/亲和力预测以及零样本突变效应预测上匹配或超越静态分词器。蒸馏目标还允许从单个预测结构预测动态 token,缓解了动力学数据稀疏问题,为将动力学引入蛋白质语言建模和设计提供了离散词汇。
蛋白质结构分词器(PST)是蛋白质语言建模和功能预测的重要工具,但现有方法只捕捉静态结构的局部几何信息,忽略了蛋白质构象集合中的相关运动和替代状态。研究者提出 Ensembits,这是首个对蛋白质构象集合进行分词的方法,通过残差 VQ-VAE 和帧蒸馏目标在大型分子动力学语料上训练。Ensembits 在 RMSF 预测上优于所有相关方法,在基于 token 的方差分析测试中成为最强的独立结构分词器,并在 EC、GO、结合位点/亲和力预测以及零样本突变效应预测上匹配或超越静态分词器。蒸馏目标还允许从单个预测结构预测动态 token,缓解了动力学数据稀疏问题,为将动力学引入蛋白质语言建模和设计提供了离散词汇。
Protein structure tokenizers (PSTs) are workhorses in protein language modeling, function prediction, and evolutionary analysis. However, existing PSTs only capture local geometry of static structures, and miss the corre…