精选理由
生物信息学研究者终于有了一个能跑全基因组的超快模型——Carbon 把处理时间从数周压缩到两天内,做基因组分析或蛋白质设计的团队可以直接用 demo 试效果。
Hugging Face 团队发布了名为 Carbon 的 DNA 模型,其速度比当前最先进的 Evo2 快 275 倍,可在单 GPU 上两天内处理整个人类基因组。Carbon 的核心创新在于其独特的 tokenizer:将 DNA 序列切分为 6 碱基的块,同时保留单碱基分辨率,解决了 BPE 分词器在无空格序列上的低效问题。该模型支持 DNA 序列生成、基因结构分析、突变效应预测、蛋白质折叠以及生命树重建等任务。团队还提供了交互式 demo 供用户探索。
AI 翻译 · 中文
Hugging Face 团队发布了名为 Carbon 的 DNA 模型,其速度比当前最先进的 Evo2 快 275 倍,可在单 GPU 上两天内处理整个人类基因组。Carbon 的核心创新在于其独特的 tokenizer:将 DNA 序列切分为 6 碱基的块,同时保留单碱基分辨率,解决了 BPE 分词器在无空格序列上的低效问题。该模型支持 DNA 序列生成、基因结构分析、突变效应预测、蛋白质折叠以及生命树重建等任务。团队还提供了交互式 demo 供用户探索。
It turns out DNA modeling is interestingly different from language modeling. Read more in our interactive blogpost/demo and explore our work here A joint work of the @huggingscience , pre-training and post-training teams…