ChemVA：让大模型看懂化学反应图，准确率92%

精选理由

做化学信息学或AI辅助药物研发的团队，终于有了让大模型真正看懂反应图的方法——开源框架可直接用，效果提升明显。

AI 摘要

大模型在理解化学反应图方面存在视觉缺陷和语义脱节两大瓶颈。ChemVA框架通过视觉锚点机制和语义对齐方法，将化学结构图转化为模型能理解的实体名称，显著提升理解能力。在OCRD-Bench基准测试中，ChemVA实现92%的结构识别准确率，并在9种不同大模型上平均提升约20个百分点，使开源模型在复杂化学推理任务上媲美闭源系统。

AI 翻译 · 中文

arXiv cs.AIWhile Large Language Models (LLMs) have revolutionized scientific text processing, they exhibit a significant capability gap when interpreting chemical reaction diagrams. We identify two fundamental bottlenecks restricti…

阅读原文