生物信息学

§ 01综述

生物信息学正加速融合生成式AI与知识图谱技术，推动从数据表征到实验设计的全链条革新。近期进展集中体现在四个方向：

多模态与缺失模态学习：LWR框架通过加权重建策略，在部分模态缺失时仍能整合基因表达、蛋白质互作等多源数据，提升了模型在真实复杂场景下的鲁棒性（LWR框架：缺失模态下的多模态学习新方法）。

预训练模型标准化评估：BBOmix作为首个无监督生物表示学习超参数优化基准，系统比较了不同自监督方法的泛化能力，为模型选择提供了可重复的评估标准（BBOmix：首个无监督生物表示学习超参数优化基准）；Hugging Face发布的开源DNA模型Carbon可在本地笔记本运行，降低了基础模型的使用门槛（Hugging Face 发布开源 DNA 模型 Carbon，可在笔记本本地运行）。

LLM与知识工程融合：前沿LLM智能体在无需手工规则的情况下，成功突破自然表型本体自动注释瓶颈，大幅提升文献信息提取效率（前沿LLM智能体突破自然表型本体注释瓶颈）；BIRDNet将布尔蕴含知识图编码为可解释深度神经网络，实现了逻辑规则与神经网络的无缝融合（BIRDNet：将布尔蕴含知识图编码为可解释深度神经网络）；此外，Anthropic发布BioMysteryBench，专门评估Claude在生信研究中的推理与工具使用能力（Anthropic 发布 BioMysteryBench 评估 Claude 生物信息学研究能力）。

新基准与数据集：BioDefect成为首个专注于生信软件缺陷检测的数据集，填补了该领域软件工程资源的空白（BioDefect：首个生物信息学软件缺陷检测数据集）；AssayBench则从表型筛选角度系统测试LLM的实验设计能力（AssayBench：首个LLM表型筛选基准测试）。

当前焦点：如何在保证模型可解释性与数据隐私的前提下，将大语言模型深度嵌入生物学发现流程，并建立统一的基准以公平比较不同方法的优劣。未来观察点：LLM代理能否在实际湿实验闭环中自主设计并优化假设，以及知识图谱与大模型的协同范式是否会催生出新的生物数据标准。

§ 02相关报道08 条在档

§ 03邻近话题