21:08Clement Delangue@ClementDelangue83°Hugging Face 发布了名为 Carbon 的开源 DNA 基础模型,包含开放权重、训练代码和数据管道。该模型专为下游生物学任务设计,可微调或持续预训练。Carbon 比同尺寸最佳模型快 275 倍,能在单 GPU 上不到 2 天处理整个人类基因组,甚至可在笔记本电脑上本地运行。其核心技术是 DNA 原生分词器,将序列分割为 6 碱基块以提升效率,同时保留单碱基分辨率。此举旨在推动生物学 AI 的透明化和本地化,避免个人健康数据依赖黑盒 API。AI模型Hugging FaceDNA 模型开源/仓库生物信息学本地推理推荐理由:Hugging Face 把 DNA 分析从黑盒 API 拉到了本地,做生物信息学或个性化健康研究的开发者可以直接在笔记本上跑基因组模型,值得试试。原文
03:59Thomas Wolf@Thom_Wolf76°Hugging Face 团队发布了名为 Carbon 的 DNA 模型,其速度比当前最先进的 Evo2 快 275 倍,可在单 GPU 上两天内处理整个人类基因组。Carbon 的核心创新在于其独特的 tokenizer:将 DNA 序列切分为 6 碱基的块,同时保留单碱基分辨率,解决了 BPE 分词器在无空格序列上的低效问题。该模型支持 DNA 序列生成、基因结构分析、突变效应预测、蛋白质折叠以及生命树重建等任务。团队还提供了交互式 demo 供用户探索。AI模型DNA 模型CarbonHugging Face基因组分析tokenizer推荐理由:生物信息学研究者终于有了一个能跑全基因组的超快模型——Carbon 把处理时间从数周压缩到两天内,做基因组分析或蛋白质设计的团队可以直接用 demo 试效果。原文