全部 AI 动态 · AI 热点

6月29日

10:12

10:12

arXiv cs.LG@David Steinmann, Antonia Wüst, Kristian Kersting, Wolfgang Stammer

COCOLogic-V2 是一个面向现实图像的对象中心数据集，覆盖一阶逻辑的广泛子集，用于视觉归纳推理评估。它将样本分为正变体、近边界和远边界负例三类，实现对模型可解释性的细粒度诊断。实验表明，模型能很好区分正样本和远边界负例，但在近边界负例上表现失败。此外，感知噪声和大规则搜索空间在少样本场景下构成额外挑战。该数据集为推进视觉归纳推理提供了具体基础。

论文 COCOLogic-V2 推理模型视觉理解逻辑推理可解释性

推荐理由：COCOLogic-V2 这个新数据集专测视觉推理，正反例分类特别细，模型在近边界上直接翻车，做可解释 AI 的可以看看。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月19日

14:28

14:28

arXiv cs.AI@Songsong Yu, Yuxin Chen, Ying Shan, Yanwei Li

精选

统一多模态模型（UMMs）试图在单一架构中整合视觉理解与视觉生成，但现有训练范式将两者解耦，导致表征空间错位。本文首次系统研究生成式后训练，发现高层语义任务（如图像分割）可作为最优代理，通过提供结构语义来增强视觉感知和生成布局保真度。作者提出语义生成调优（SGT）范式，利用分割作为生成代理对齐多模态能力。机制分析表明SGT改善了特征线性可分性和视觉-文本注意力分配。实验证明SGT在主流基准上持续提升多模态理解和生成保真度。

论文统一多模态模型生成式后训练图像分割视觉理解视觉生成

推荐理由：做多模态模型训练的团队终于有了一个能同时提升理解和生成的后训练方法——SGT用分割任务对齐表征空间，比解耦训练更高效，做视觉AI的开发者可以直接参考代码实现。

10:06

10:06

arXiv cs.AI@Mingyang Rao, Kehua Feng, Zhihui Zhu, Jiangzhen Fu, Hao Yu, Keyan Ding, Huajun Chen

精选

大模型在理解化学反应图方面存在视觉缺陷和语义脱节两大瓶颈。ChemVA框架通过视觉锚点机制和语义对齐方法，将化学结构图转化为模型能理解的实体名称，显著提升理解能力。在OCRD-Bench基准测试中，ChemVA实现92%的结构识别准确率，并在9种不同大模型上平均提升约20个百分点，使开源模型在复杂化学推理任务上媲美闭源系统。

论文大模型化学推理视觉理解开源/仓库 ChemVA

推荐理由：做化学信息学或AI辅助药物研发的团队，终于有了让大模型真正看懂反应图的方法——开源框架可直接用，效果提升明显。