全部 AI 动态 · AI 热点

6月18日

15:52

15:52IT之家（博客/媒体）

DeepSeek 识图模式已在网页和 App 端正式上线，App 端标注“图片理解功能内测中”，网页端无此提示。该模式与快速模式、专家模式并列，支持用户上传图片让 DeepSeek 解读。其能力不仅是文字提取，还能理解图像内容。背后的多模态模型技术已于今年 4 月公开，核心框架名为“Thinking with Visual Primitives”。

AI产品 DeepSeek 识图模式多模态视觉理解 Thinking with Visual Primitives

推荐理由：DeepSeek 现在能识图了，App 和网页都能用，不只是 OCR，还能理解画面，背后有专门的多模态技术。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月2日

06:41

06:41IT之家（博客/媒体）

精选

阿里千问大模型推出 Qwen3.7-Plus，定位为多模态交互混合智能体，在保留文本、编码、工具使用等能力基础上，强化了视觉理解、视觉推理和跨模态任务处理。该模型支持图像、视频、屏幕、网页和文本输入，可在 GUI、CLI 和工具环境中完成复杂软件与办公流程。在 Vision Arena 评测中，阿里凭借该模型进入全球前 5、中国第 1，多模态测试在 BabyVision、MathVision 等基准上提升明显。模型已通过阿里云百炼和 Qwen Studio 提供服务。

AI模型 Qwen3.7-Plus 多模态智能体阿里千问视觉理解

推荐理由：Qwen3.7-Plus 把视觉与语言统一到智能体基座，做多模态应用或办公自动化的团队可以直接在百炼上试，能省掉不少模型拼接的麻烦。