精选理由
做化学信息学或AI辅助药物研发的团队,终于有了让大模型真正看懂反应图的方法——开源框架可直接用,效果提升明显。
大模型在理解化学反应图方面存在视觉缺陷和语义脱节两大瓶颈。ChemVA框架通过视觉锚点机制和语义对齐方法,将化学结构图转化为模型能理解的实体名称,显著提升理解能力。在OCRD-Bench基准测试中,ChemVA实现92%的结构识别准确率,并在9种不同大模型上平均提升约20个百分点,使开源模型在复杂化学推理任务上媲美闭源系统。
AI 翻译 · 中文
大模型在理解化学反应图方面存在视觉缺陷和语义脱节两大瓶颈。ChemVA框架通过视觉锚点机制和语义对齐方法,将化学结构图转化为模型能理解的实体名称,显著提升理解能力。在OCRD-Bench基准测试中,ChemVA实现92%的结构识别准确率,并在9种不同大模型上平均提升约20个百分点,使开源模型在复杂化学推理任务上媲美闭源系统。
While Large Language Models (LLMs) have revolutionized scientific text processing, they exhibit a significant capability gap when interpreting chemical reaction diagrams. We identify two fundamental bottlenecks restricti…