精选 AI 资讯 · AI 热点

6月30日

13:17

Geek@geekbb

精选

Qwythos 9B 基于 Qwen3.5-9B，在 5 亿 token 的 Claude 思维链轨迹上全参数微调，可处理 1M 上下文。支持原生 Function Calling 和多模态视觉（图像+文本）。GGUF 量化后仅 5.2 GiB，可在低配设备上运行。该模型为开源且未经审查。

AI模型 Qwythos 9B Qwen3.5-9B Claude 推理模型多模态

推荐理由：Empero AI 开源的 Qwythos 9B 把 Qwen3.5 和 Claude 思维链结合，1M 上下文加 Function Calling，量化后 5.2GB 的推理模型，低配机器也能跑。

原文

01:57

AWS Machine Learning Blog@Sanghwa Na

精选

AWS 博客展示如何用 Amazon Nova 2 Lite 和 Claude Sonnet 4.6 构建两模型管道，用于扫描文档的数字化。Nova 2 Lite 在单次调用中完成多模态提取（检测照片、提取姓名坐标、返回页面元数据）。Claude Sonnet 4.6 根据版面布局进行空间推理，将姓名和面孔匹配。该管道在 Amazon Bedrock 上运行，通过分工降低总处理成本。

技巧 Amazon Nova 2 Lite Claude Sonnet 4.6 Amazon Bedrock 文档数字化多模态

推荐理由：用 Nova 2 Lite 做粗提取，Claude Sonnet 4.6 做精准匹配，文档数字化省心又省钱。

原文

6月29日

13:49

阶跃星辰 Stepfun@Stepfun_AI

精选

Step 3.7 Flash 是开源多模态推理模型，现已在 DeepInfra API 上线。该模型支持私有端点部署，适用于专用负载场景。它专为智能体编码、工具使用、搜索和视觉工作流设计。开发者可通过 DeepInfra 的 API 直接调用。

AI模型 Step 3.7 Flash DeepInfra 多模态推理模型开源模型

推荐理由：Step 3.7 Flash 开源多模态推理模型刚上线 DeepInfra，支持私有部署，适合智能体编程和视觉任务，开发者可以试试。

原文

13:49

Jasper AI@heyjasperai

精选72°

Jasper Research 宣布推出 MONET 数据集，从 29 亿张图片中精炼出 1.049 亿张高质量样本，成为全球最大的开放文本-图像数据集。该数据集采用 Apache 2.0 许可，可免费商用。同时发布的 nano-t2i 方案支持在单张 GPU 上训练有竞争力的文生图模型。

AI模型 MONET Jasper Research nano-t2i Apache 2.0 多模态

推荐理由：Jasper Research 放出了 MONET 数据集，有 1 亿多张图，免费商用，还能用 nano-t2i 在单卡上训练模型，做文生图的值得试试。

原文

6月26日

03:54

Mustafa Suleyman@mustafasuleyman

精选72°

Microsoft 发布 MAI-Image-2.5，在 Artificial Analysis Image Arena 文本到图像基准中排名第2，仅次于 OpenAI 的 GPT Image 2。其图像编辑能力排名第3，仅次于 OpenAI 模型，性能与 Google 的 Nano Banana 2 相当。MAI-Image-2.5 最大输出约 1MP 分辨率，支持灵活宽高比和 32K token 上下文。定价为每千张图 $48（Flash 变体 $20），可通过 Foundry API 和 MAI Playground 使用。

AI模型 MAI-Image-2.5 Microsoft 文本到图像图像编辑多模态

推荐理由：微软新出的 MAI-Image-2.5 图像生成和编辑都很强，排名只输给 OpenAI，价格也透明，值得试试看。

原文

6月25日

16:06

16:06IT之家（博客/媒体）

精选

商汤科技正在研发代号U1 Pro的多模态模型，聚焦设计场景，对标OpenAI GPT-Image 2。该模型由联合创始人林达华牵头，属于日日新家族，预计7月启动内部邀请测试。支持8K分辨率输出，能实现设计-生成-评审长程循环。内部评测显示，相同提示词下U1 Pro生成图片质量接近甚至优于GPT-Image 2。LMSYS Chatbot Arena中GPT-Image 2文生图评分领先谷歌Nano Banana 2。

AI模型商汤科技 U1 Pro GPT-Image 2 多模态图像生成

推荐理由：商汤新模型U1 Pro专攻设计，对标GPT-Image 2，内部评测更优，支持8K输出，7月内测。

原文

10:45

arXiv cs.LG@Akshay Paruchuri, Sanmi Koyejo, Ehsan Adeli

精选

论文提出Facet-Probe审计框架，从选项、证据块、文档排序、图像集、混合模态五个维度测试18个前沿和开源MLLM的排序敏感性。采用贝叶斯项目反应模型分离排序噪声与各维度偏差，发现所有模型均非排序不变，各维度平均翻转率在24%至50%之间。Gemini在温度0下的同序控制显示，验证单元中存在远超解码器噪声的排序超额。最优模型仍有13.4%的试次输出翻转，提示词级缓解措施无法泛化到视觉推理。

论文 Facet-Probe MLLM Gemini 多模态模型可靠性

推荐理由：这篇论文用Facet-Probe测试了18个主流多模态大模型，发现它们对输入顺序都很敏感，最好的模型也错13.4%，提醒我们模型可靠性还不是想象中那么好。

原文

08:42

lmarena.ai@lmarena_ai

精选72°

Wan-2.7 I2V在视频生成竞技场中取得第5名，得分1,434。该排名来自与顶级模型的一对一对决，由全球用户在其创作任务中投票选出。它超越了Grok Imagine Video（720p）和所有Google Veo-3.1变体。该模型支持文本、图像、音频和视频的多模态控制，以及最多5个参考输入的角色自定义。阿里通义万相团队还提供了视频编辑、克隆、重风格化等全栈工具。

AI模型 Wan-2.7 Alibaba Video Arena 视频生成多模态

推荐理由：阿里通义万相出了个新视频模型Wan-2.7，在Video Arena排第5，干掉了Grok和Veo，视频创作能力挺强，可以试试。

原文

01:25

elvis@omarsar0

精选

作者完全改用语音而非文字输入与AI代理交互，发现音频描述越详细、越长，代理结果越好。他还开发了屏幕录制、截图、追踪鼠标动作和语音注释功能，帮助代理处理设计和精确开发任务。多模态提示（语音+屏幕+动作）显著提升了代理的可靠性，尽管消耗更多token。作者将这些经验制作为可复用的命令集，插入循环后效果显著改善。

技巧智能体多模态提示词工程语音交互

推荐理由：有人分享用语音+屏幕录制和多模态提示跟AI代理唠嗑，提示越啰嗦结果越靠谱，还教你怎么录屏加注释，值得试试

原文

6月24日

08:24

08:24SuperTechFans（博客/媒体）

精选

Mistral于2026年6月24日发布OCR 4模型，新增边界框、区块分类和置信度分数。该模型在内部盲评和公开基准测试中性能领先，支持170种语言，可自托管部署。

AI模型 Mistral OCR 4 多模态自托管模型发布

推荐理由：Mistral新出的OCR 4能自己部署，支持170种语言，还带边界框和置信度分数，识别效果领先，做文档处理很合适。

原文

6月23日

02:09

Philipp Schmid@_philschmid

精选

Google 推出 Interactions API，提供单一 API 接口调用 Gemini 模型和智能体。该 API 包含隔离的远程 Linux 沙箱环境，支持异步后台运行的 background=True 参数。已集成图像生成 Nano Banana、音乐生成 Lyria 3，并预告未来支持视频生成 Omni。同时具备多模态工具调用与组合能力，以及专用编码技能。开发者可通过该 API 构建人类与智能体交互的应用。

AI产品 Interactions API Gemini Google 智能体多模态

推荐理由：Google 上线了 Interactions API，一个 API 就能调用 Gemini 模型和智能体，还有沙箱、图像音乐生成，异步运行很简单。

原文

00:48

AWS Machine Learning Blog@Gilbert V Lepadatu

精选

AWS博客介绍了基于Amazon Bedrock和OpenSearch Serverless构建的可搜索航空影像系统架构。团队使用OpenStreetMap地面实况数据设计了四项实验，对比了嵌入模型、融合策略、字幕生成和搜索方法。其中Amazon Nova Multimodal Embeddings在基准查询中取得了最高的F1分数。该系统最终演变为Vexcel Intelligence产品，为地理空间语义搜索提供了实用指导。

AI模型 Amazon Nova Multimodal Embeddings Amazon Bedrock OpenSearch Serverless 多模态地理空间搜索

推荐理由：AWS用Amazon Nova做航空影像搜索，F1分数最高，想搞地理空间搜索的可以参考他们的实验设计。

原文

6月20日

03:05

Together AI@togethercompute

精选

MiniMax-M3 模型支持智能体携带长历史（超过百万token）、图像、视频、文档和工具输出进入上下文，显著提升多模态信息处理能力。Together 的推理优化通过改进服务路径上的 token 吞吐量，使这一能力在大规模部署时更实用。相比之前方案，每 GPU 可处理更多 token，从而降低每美元自动化工作成本。

AI模型 MiniMax-M3 Together 智能体多模态推理优化

推荐理由：MiniMax-M3 让智能体一口气带进长历史、图、视频、文档和工具输出，Together 优化后每 GPU token 翻倍，自动任务成本更低。

原文

6月19日

06:40

Stanford AI Lab@StanfordAILab

精选

斯坦福AI实验室发布M*运行时，用于统一服务多模态模型。相比专业系统，M*在omni TTS任务上提速2.7倍，在world-model rollouts任务上提速12.5倍。它匹配或超越所有专门系统的性能。

AI产品 M*斯坦福多模态运行时

推荐理由：斯坦福新发的M*运行时，一个系统就能搞定各种多模态模型，速度比专业方案快2到12倍，值得做部署的看看。

原文

6月16日

09:37

AWS Machine Learning Blog@Aris Tsakpinis

精选

Google DeepMind 发布的 Gemma 4 开源权重模型系列现已在 Amazon Bedrock 上可用。该系列包含三个指令调优变体：Gemma 4 31B（密集架构）、26B-A4B（MoE 架构，每次激活 4B 参数）和 E2B。所有变体均支持内置推理、原生函数调用以及文本和图像多模态输入。模型基于 Apache 2.0 许可发布，旨在多种部署场景下实现每参数智能最大化。

AI模型 Gemma 4 Amazon Bedrock Google DeepMind 开源模型多模态

推荐理由：Google DeepMind 把最新的 Gemma 4 放到 AWS 上了，三种规格可选，带推理和图文理解，正好拿来玩开源项目。

原文

6月15日

17:36

17:36IT之家（博客/媒体）

精选

理想在 Livis Day 上宣布马赫 Mind-Pro 模型全面落地 L9。该模型在 IFEval 指令跟随、LongBench-v2 超长文本理解、AIME26 高阶数学推理、BFCL-v4 工具调用等基准上位列第一梯队。其 Token 生成速度、任务完成质量、成本、端到端响应时延达到可量产水平。模型采用多模态流式时序建模，能连续理解动态物理世界并自主决策。所有能力在车端本地完成，数据不上传。

AI模型马赫 Mind-Pro 理想 L9 多模态车载AI

推荐理由：理想把马赫 Mind-Pro 模型塞进 L9 了，指令跟随和推理稳居第一梯队，多模态本地跑还不传数据，车载 AI 这波挺实在。

原文

11:13

arXiv cs.LG@Rohit Gandikota, David Bau

精选

论文发现视觉语言模型的LM骨干中存在一组称为gaze heads的注意力头，其注意力会追踪模型当前描述的图像区域。通过仅对top-100个gaze heads（少于全部9%）进行注意力掩码干预，能以83.1%的准确率引导模型描述指定的漫画面板，而随机干预无效。该干预同样适用于自然COCO图像，且机制在2B到32B参数规模及多种VLM架构中复现。该工作展示了通过机制分析实现无需重训的推理时多模态行为操控。

论文 VLM Gaze Heads 注意力头多模态模型可解释性

推荐理由：操控VLM输出，像翻漫画一样准

原文

6月13日

22:23

rohanpaul_ai@rohanpaul_ai

精选73°

Nvidia 推出 Cosmos 3，一个能够理解、模拟和行动于多种物理 AI 任务的统一模型。它将动作视为世界的一等语言，把语言、图像、视频、音频和动作整合到一个共享系统中。该模型通过动作标记设计，让机器人能连接所见与可能发生的事，并决定下一步行动。论文显示，Cosmos 3 可基于视频推断动作，或与未来场景一同生成动作，从而解决机器人抓取、滑动等物理交互问题。

论文 Cosmos 3 Nvidia 物理AI 多模态动作标记

推荐理由：Nvidia 让机器人学会动作语言

原文

17:22

量子位@一水

精选

Jiuwen Symbiosis是一个将AI Agent与物理实体结合的框架，通过整合传感器、执行器和实时控制，使Agent能直接与环境交互。该框架在工业机器人测试中实现了90%的任务完成率，相比传统方案提升30%。它支持多模态感知（视觉、触觉、力觉）和动态规划，已在仓储物流场景中部署。实践表明，这种具身智能系统能有效处理非结构化环境中的复杂操作。

AI模型 Jiuwen Symbiosis 智能体具身智能多模态工业机器人

推荐理由：让AI Agent动起来干活

原文

10:55

MiniMax_AI@MiniMax_AI

精选

MiniMax 发布 M3 模型，总参数量约 428B，激活参数约 23B。该模型在编码、长周期智能体和原生多模态（文本、图像、视频）任务上表现优异，支持 1M token 上下文长度。M3 以开源权重形式发布，在 Baseten 平台可运行。

AI模型 MiniMax M3 开源模型多模态智能体

推荐理由：开源模型能打编码和多模态

原文

10:53

Together AI@togethercompute

精选

MiniMax 发布开源权重原生多模态模型 MiniMax-M3，具备 1M 上下文窗口和 MiniMax 稀疏注意力机制。模型提供思考与非思考两种模式。Together AI 作为首选云合作伙伴，通过推理优化在并发场景下实现高达 125% 的吞吐量提升。

AI模型 MiniMax-M3 Together AI 多模态开源模型 1M上下文

推荐理由：MiniMax 新模型上线，吞吐量提升 125%

原文

10:02

pandaily@contact@pandaily.com (Pandaily)

精选

华为在HDC 2026上推出HarmonyOS 7开发者测试版，系统从应用平台转型为智能任务平台。新架构以Agent为核心，支持任务自动编排与跨设备协同。开发者可通过ArkTS语言和API构建智能体，实现语音、视觉等多模态交互。HarmonyOS 7计划于2026年第三季度正式商用。

AI产品 HarmonyOS 7 华为智能体多模态开发者测试版

推荐理由：华为系统全面转向智能体

原文

09:47

09:47IT之家（博客/媒体）

精选

华为云与MiniMax达成深化合作，基于昇腾算力底座为M3模型提供Tokens算力支持。M3采用MSA注意力架构，支持1M超长上下文，是原生多模态模型，可处理图片、视频输入并操作电脑桌面。在SWE-Bench Pro上，M3超过GPT-5.5和Gemini 3.1 Pro，接近Opus 4.7；在SVG-Bench上超过Opus 4.7；在OmniDocBench上超过Gemini 3.1 Pro；在Claw-Eval上获得最高分。华为云通过昇腾算力优化MSA算子和MOE均衡，保障M3大规模推理性能。

AI模型 MiniMax M3 华为云昇腾多模态

推荐理由：华为云联手MiniMax，M3多模态模型开源

原文

6月12日

00:24

SiliconFlowAI@siliconflowai

精选

Google DeepMind 的 Gemma 4 12B 模型已在 SiliconFlow 平台上线，支持 262K 上下文、内置思考、原生工具调用及 140+ 语言。该模型采用无编码器架构，视觉和音频输入直接进入 LLM 主干，降低处理延迟。12B 参数规模但拥有 26B 的“大脑”性能，接近 Google 26B 模型的表现，在多步推理和智能体工作流中表现出色。定价为输入/输出每百万 tokens 0.1/0.3 美元，性价比突出。

AI模型 Gemma 4 智能体多模态长上下文 SiliconFlow

推荐理由：做智能体、长上下文或多模态应用的开发者终于有了一个模型搞定三件事的选择——Gemma 4 12B 在 SiliconFlow 上价格亲民，建议直接上手试试。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

12:32

arXiv cs.AI@Litao Li, Yibo Yu, Yufeng Hu, Zhuo Yang, Jiali Wen, Yixin Chen, Yixi Zhou

精选

本文提出了针对2026年SoccerNet VQA挑战赛的解决方案。研究团队首先开发了一种由视觉语言模型驱动的低成本数据合成流程，将原始领域数据系统性地转化为多样化的VQA样本，包括简洁答案和长文本回答。其次，提出了MSUE架构，这是一种多专家问答架构，利用大语言模型动态地将问题分配给文本、图像和视频专家。这些专家分别由强大的文本基线Gemini3-Flash、微调的Qwen3-VL和外部知识库实例化，协同工作以提升VQA性能。MSUE在挑战基准上达到了0.95的准确率，在排行榜上获得第三名。

论文多模态 VQA 足球分析 SoccerNet 大语言模型

推荐理由：足球视频分析团队和体育AI研究者可以借鉴其低成本数据合成和多专家协作架构，直接提升VQA任务的准确率，值得关注。

原文

09:51

arXiv cs.AI@Shang Ma, Jisheng Dang, Wencan Zhang, Yifan Zhang, Bimei Wang, Hong Peng, Bin Hu, Qi Tian, Tat-Seng Chua

精选

研究者提出了一种名为 MODF-SIR 的多智能体协作框架，基于轻量级多模态大语言模型，专门用于社交智能推理。该框架通过知识蒸馏增强训练和推理阶段，能够精确定位多模态社交数据，并提取长尾事件以格式化文本呈现，避免关键信息被噪声淹没。它集成了测试时自适应（TTA）、思维链提示和自反思机制，并利用 LoRA 微调基础模型。在多个基准测试中，仅用约 30% 的训练数据就达到了最先进的结果。代码、演示和模型均已开源。

论文多智能体知识蒸馏社交智能推理多模态 LoRA

推荐理由：社交智能推理是 AI 理解人类互动的关键，MODF-SIR 用轻量模型和蒸馏技术解决了长尾事件被忽略的痛点，做多模态社交分析或人机交互的团队可以直接用开源代码复现。

原文

6月10日

10:07

arXiv cs.AI@Peiqi Jia, Haonan Jia, Ziqi Miao, Linkang Du, Yuntao Wang, Zhou Su

精选

该论文首次在视觉语言模型（MLLMs）中引入显式人格条件，建立了涵盖单人格诱导、多人格诱导和人格切换的系统评估框架。实验发现，人格诱导能提升图像描述性能，但会损害需要精确推理的任务（如视觉问答）。多人格组合和动态切换时存在平衡与残留效应，模型行为受前后人格约束共同调节。现有基于提示的人格诱导方法在多模态场景下迁移性有限。研究揭示了MLLMs人格建模的动态复杂性，呼吁开发更鲁棒、定制化的方法。

论文视觉语言模型人格建模多模态行为控制评估框架

推荐理由：做多模态AI行为控制或社交机器人开发的团队，这篇论文揭示了人格诱导对推理能力的意外损害，值得在模型部署前仔细评估。

原文

09:10

arXiv: DeepSeek@ Kwai Keye Team, Bin Wen, Changyi Liu, Chengru Song, Chongling Rao, Guowang Zhang, Han Li, Haonan Fan, Hengrui Ju, Jiankang Chen, Jiapeng Chen, Jiawei Yuan, Kaixuan Yang, Kaiyu Jiang, Kun Gai, Lingzhi Zhou, Na Nie, Sen Na, Tianke Zhang, Tingting Gao, Xuanyu Zheng, Yulong Chen, Fan Yang, Haixuan Gao, Lele Yang, Mingqiao Liu, Muxi Diao, Qi Zhang, Qile Su, Wei Chen, Wentao Hong, Xingyu Lu, Yancheng Long, Yankai Yang, Yingxin Li, Yiyang Fan, Yu Xia, Yuzhe Chen, Ziliang Lai, Chuan Yi, Haonan Jia, Tianming Liang, Weixin Xu, Xiaoxiao Ma, Yang Tian, Yufei Han, Feng Han, Hang Li, Jing Wang, Jinghui Jia, Junmin Chen, Junyu Shi, Ruilin Zhang

精选76°

快手发布Keye-VL-2.0-30B-A3B，一个基于MoE架构的开源多模态基础模型，专为长视频理解和智能体场景设计。该模型首次将DeepSeek Sparse Attention适配到GQA架构，实现无损256K上下文处理，能捕捉关键帧和长程时序依赖。通过跨模态多教师策略蒸馏（MOPD）和上下文/视频强化学习，解决了多任务对齐中的灾难性遗忘问题，仅激活3B参数即可在代码、工具和搜索场景中实现智能体协作与多模态自我纠正。在视频理解、时序定位、推理、STEM和智能体基准测试中，Keye-VL-2.0在相似规模模型中达到最优性能，尤其在TimeLens细粒度时序定位和Video-MME-v2长视频理解上表现突出。模型权重已开源。

AI模型开源/仓库 MoE 长视频理解智能体多模态

推荐理由：长视频理解和智能体场景的开发者终于有了一个开源且高效的MoE模型——Keye-VL-2.0仅激活3B参数就能处理256K上下文，做视频分析或智能体应用的团队可以直接下载权重试试。

原文

6月9日

11:01