全部 AI 动态 · AI 热点

6月29日

10:12

10:12

arXiv cs.LG@David Steinmann, Antonia Wüst, Kristian Kersting, Wolfgang Stammer

COCOLogic-V2 是一个面向现实图像的对象中心数据集，覆盖一阶逻辑的广泛子集，用于视觉归纳推理评估。它将样本分为正变体、近边界和远边界负例三类，实现对模型可解释性的细粒度诊断。实验表明，模型能很好区分正样本和远边界负例，但在近边界负例上表现失败。此外，感知噪声和大规则搜索空间在少样本场景下构成额外挑战。该数据集为推进视觉归纳推理提供了具体基础。

论文 COCOLogic-V2 推理模型视觉理解逻辑推理可解释性

推荐理由：COCOLogic-V2 这个新数据集专测视觉推理，正反例分类特别细，模型在近边界上直接翻车，做可解释 AI 的可以看看。

6月18日

15:52

15:52IT之家（博客/媒体）

DeepSeek 识图模式已在网页和 App 端正式上线，App 端标注“图片理解功能内测中”，网页端无此提示。该模式与快速模式、专家模式并列，支持用户上传图片让 DeepSeek 解读。其能力不仅是文字提取，还能理解图像内容。背后的多模态模型技术已于今年 4 月公开，核心框架名为“Thinking with Visual Primitives”。

AI产品 DeepSeek 识图模式多模态视觉理解 Thinking with Visual Primitives

推荐理由：DeepSeek 现在能识图了，App 和网页都能用，不只是 OCR，还能理解画面，背后有专门的多模态技术。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

09:00

09:00

lmarena.ai@lmarena_ai

Anthropic 的 Claude Fable 5 模型在 Vision Arena 排行榜中综合排名第二，并在多个子类别中表现突出。其中，OCR（光学字符识别）单项排名第一，作业和图表理解分别排名第二。Vision Arena 是一个专注于视觉理解能力的评测平台，该成绩表明 Claude Fable 5 在视觉任务上具有较强竞争力。

AI模型 Claude Fable 5 Vision Arena OCR 视觉理解模型评测

推荐理由：Claude Fable 5 在视觉评测中拿下 OCR 第一，做文档处理、教育或图表分析的团队可以重点关注这个模型的实际表现。

6月2日

06:41

06:41IT之家（博客/媒体）

精选

阿里千问大模型推出 Qwen3.7-Plus，定位为多模态交互混合智能体，在保留文本、编码、工具使用等能力基础上，强化了视觉理解、视觉推理和跨模态任务处理。该模型支持图像、视频、屏幕、网页和文本输入，可在 GUI、CLI 和工具环境中完成复杂软件与办公流程。在 Vision Arena 评测中，阿里凭借该模型进入全球前 5、中国第 1，多模态测试在 BabyVision、MathVision 等基准上提升明显。模型已通过阿里云百炼和 Qwen Studio 提供服务。

AI模型 Qwen3.7-Plus 多模态智能体阿里千问视觉理解

推荐理由：Qwen3.7-Plus 把视觉与语言统一到智能体基座，做多模态应用或办公自动化的团队可以直接在百炼上试，能省掉不少模型拼接的麻烦。

5月31日

00:34

00:34

berryxia@berryxia

精选

开发者 Ivan Fioravanti 在 mlx-vlm 项目中新增了对 Step 3.7 Flash 模型的支持，将其转换为 MLX 格式后，视觉理解和文本生成功能均可在本地运行。该模型在 128GB Apple Silicon 机器上，4bit 量化版本支持 32K 上下文，生成速度超过 53 tokens/s。实测中，模型能快速准确地从截图中提取结构信息和关键元素。这一更新将高质量视觉语言任务从云端迁移到个人 Mac，兼顾隐私、速度和零额外费用，推动本地多模态 AI 进入实用阶段。

AI产品 mlx-vlm Step 3.7 Flash 本地多模态 Apple Silicon 视觉理解

推荐理由：本地跑通高质量视觉语言模型，做多模态应用或隐私敏感项目的开发者可以直接在 Mac 上体验，无需依赖云端，值得一试。

5月23日

02:16

02:16

Logan Kilpatrick@OfficialLoganK

精选

Gemini 3.5 Flash 在 Roboflow 视觉评估中多项指标超越 3.1 Pro。其平均推理速度快约6倍，大幅降低延迟。该模型在多模态理解上展示出更强能力，尤其适合视觉密集型任务。

AI模型 Gemini 3.5 Flash Gemini 3.1 Pro Google 多模态视觉理解

推荐理由：谷歌新 Flash 视觉又快又准

5月19日

14:28

14:28

arXiv cs.AI@Songsong Yu, Yuxin Chen, Ying Shan, Yanwei Li

精选

统一多模态模型（UMMs）试图在单一架构中整合视觉理解与视觉生成，但现有训练范式将两者解耦，导致表征空间错位。本文首次系统研究生成式后训练，发现高层语义任务（如图像分割）可作为最优代理，通过提供结构语义来增强视觉感知和生成布局保真度。作者提出语义生成调优（SGT）范式，利用分割作为生成代理对齐多模态能力。机制分析表明SGT改善了特征线性可分性和视觉-文本注意力分配。实验证明SGT在主流基准上持续提升多模态理解和生成保真度。

论文统一多模态模型生成式后训练图像分割视觉理解视觉生成

推荐理由：做多模态模型训练的团队终于有了一个能同时提升理解和生成的后训练方法——SGT用分割任务对齐表征空间，比解耦训练更高效，做视觉AI的开发者可以直接参考代码实现。

10:06

10:06

arXiv cs.AI@Mingyang Rao, Kehua Feng, Zhihui Zhu, Jiangzhen Fu, Hao Yu, Keyan Ding, Huajun Chen

精选

大模型在理解化学反应图方面存在视觉缺陷和语义脱节两大瓶颈。ChemVA框架通过视觉锚点机制和语义对齐方法，将化学结构图转化为模型能理解的实体名称，显著提升理解能力。在OCRD-Bench基准测试中，ChemVA实现92%的结构识别准确率，并在9种不同大模型上平均提升约20个百分点，使开源模型在复杂化学推理任务上媲美闭源系统。

论文大模型化学推理视觉理解开源/仓库 ChemVA

推荐理由：做化学信息学或AI辅助药物研发的团队，终于有了让大模型真正看懂反应图的方法——开源框架可直接用，效果提升明显。