全部 AI 动态 · AI 热点

6月29日

13:50

阿里云 Alibaba Cloud@alibaba_cloud

在Flink Forward Asia Shenzhen 2026上，NVIDIA的Chuan Chen介绍了与阿里云的技术合作。双方通过CUDA库加速Apache Flink的多模态数据流处理。这一开源协作实现了端到端高性能多模态流式架构，适用于AI评论、实时图文流和交互式问答。

行业 NVIDIA Alibaba Cloud Apache Flink CUDA 多模态

推荐理由：NVIDIA和阿里云用CUDA把Flink的多模态数据处理速度拉满了，想做实时AI评论或图文问答的可以看看这个架构。

原文

13:50

阶跃星辰 Stepfun@Stepfun_AI

StepFun（阶跃星辰）推出初创公司计划，为早期AI团队提供支持。入选团队可获得API额度、专属生态系统支持、联合营销机会、展示位置及合作伙伴引荐。该计划面向构建多模态应用和智能体系统的团队。申请现已开放。

行业 StepFun 多模态智能体初创计划

推荐理由：StepFun给早期AI团队送API额度、资源和曝光，做多模态或智能体项目的小伙伴可以试试，链接在推文里。

原文

13:49

阶跃星辰 Stepfun@Stepfun_AI

精选

Step 3.7 Flash 是开源多模态推理模型，现已在 DeepInfra API 上线。该模型支持私有端点部署，适用于专用负载场景。它专为智能体编码、工具使用、搜索和视觉工作流设计。开发者可通过 DeepInfra 的 API 直接调用。

AI模型 Step 3.7 Flash DeepInfra 多模态推理模型开源模型

推荐理由：Step 3.7 Flash 开源多模态推理模型刚上线 DeepInfra，支持私有部署，适合智能体编程和视觉任务，开发者可以试试。

原文

13:49

Microsoft AI@MicrosoftAI

微软的 MAI-Image-2.5 在 Artificial Analysis 的文本到图像榜单中排名第2，图像编辑排名第3。该模型能对图像进行精确编辑，例如将雨窗模糊场景转换为清晰街景，同时保持物体一致性、光照、反射和场景几何。模型现已通过 Foundry API、MAI Playground 和 OpenRouter 提供使用。

AI模型 MAI-Image-2.5 Microsoft 图像生成图像编辑多模态

推荐理由：微软 MAI-Image-2.5 图像生成排第2、编辑排第3，还能把雨窗变清晰，想用去 Foundry API 或 OpenRouter 试试。

原文

13:49

阶跃星辰 Stepfun@Stepfun_AI

StepFun 的 Step 3.7 Flash 模型已在 AI 平台 ZenMuxAI 上架。该模型支持多模态输入，针对实际工作流优化，推理速度较快。用户可在 ZenMuxAI 上免费使用该模型30天。

AI模型 Step 3.7 Flash ZenMux StepFun 多模态免费试用

推荐理由：StepFun 的新模型 Step 3.7 Flash 上线 ZenMux，多模态且快，还能免费用一个月，想试试的别错过。

原文

13:49

Jasper AI@heyjasperai

精选72°

Jasper Research 宣布推出 MONET 数据集，从 29 亿张图片中精炼出 1.049 亿张高质量样本，成为全球最大的开放文本-图像数据集。该数据集采用 Apache 2.0 许可，可免费商用。同时发布的 nano-t2i 方案支持在单张 GPU 上训练有竞争力的文生图模型。

AI模型 MONET Jasper Research nano-t2i Apache 2.0 多模态

推荐理由：Jasper Research 放出了 MONET 数据集，有 1 亿多张图，免费商用，还能用 nano-t2i 在单卡上训练模型，做文生图的值得试试。

原文

6月27日

11:20

Latent.Space@latentspacepod

OpenAI首席研究官Mark Chen在播客中讨论了AGI距离，认为模型正越来越接近自主创新。他重申扩展定律和预训练仍然关键，并透露OpenAI如何分配算力。他还指出评估基准正面临危机，模型需提升长周期任务与多模态推理能力。

行业 OpenAI Mark Chen AGI 智能体多模态

推荐理由：OpenAI内部的人聊AGI有多远，还讲了评估危机和长周期学习，干货不少。

原文

6月26日

09:39

向阳乔木@vista8

一个团队展示了能实时计数乒乓球颠球数的AI系统，并认为Physical AGI需要满足三个必要条件：统一的多模态大脑（非模型拼接）、在同一个大脑中完成任意模态的理解与生成、理解与生成以流式方式持续运行。最关键的一点是该大脑必须完整运行在端侧。团队还提供了更多介绍和演示视频。

AI模型 Physical AGI 多模态端侧模型智能体

推荐理由：看看这个团队对Physical AGI的看法，他们提出了3+1个必要条件，还做了颠球计数的演示，强调端侧运行和统一多模态大脑。

原文

03:54

Mustafa Suleyman@mustafasuleyman

精选72°

Microsoft 发布 MAI-Image-2.5，在 Artificial Analysis Image Arena 文本到图像基准中排名第2，仅次于 OpenAI 的 GPT Image 2。其图像编辑能力排名第3，仅次于 OpenAI 模型，性能与 Google 的 Nano Banana 2 相当。MAI-Image-2.5 最大输出约 1MP 分辨率，支持灵活宽高比和 32K token 上下文。定价为每千张图 $48（Flash 变体 $20），可通过 Foundry API 和 MAI Playground 使用。

AI模型 MAI-Image-2.5 Microsoft 文本到图像图像编辑多模态

推荐理由：微软新出的 MAI-Image-2.5 图像生成和编辑都很强，排名只输给 OpenAI，价格也透明，值得试试看。

原文

6月25日

08:42

lmarena.ai@lmarena_ai

精选72°

Wan-2.7 I2V在视频生成竞技场中取得第5名，得分1,434。该排名来自与顶级模型的一对一对决，由全球用户在其创作任务中投票选出。它超越了Grok Imagine Video（720p）和所有Google Veo-3.1变体。该模型支持文本、图像、音频和视频的多模态控制，以及最多5个参考输入的角色自定义。阿里通义万相团队还提供了视频编辑、克隆、重风格化等全栈工具。

AI模型 Wan-2.7 Alibaba Video Arena 视频生成多模态

推荐理由：阿里通义万相出了个新视频模型Wan-2.7，在Video Arena排第5，干掉了Grok和Veo，视频创作能力挺强，可以试试。

原文

01:25

elvis@omarsar0

精选

作者完全改用语音而非文字输入与AI代理交互，发现音频描述越详细、越长，代理结果越好。他还开发了屏幕录制、截图、追踪鼠标动作和语音注释功能，帮助代理处理设计和精确开发任务。多模态提示（语音+屏幕+动作）显著提升了代理的可靠性，尽管消耗更多token。作者将这些经验制作为可复用的命令集，插入循环后效果显著改善。

技巧智能体多模态提示词工程语音交互

推荐理由：有人分享用语音+屏幕录制和多模态提示跟AI代理唠嗑，提示越啰嗦结果越靠谱，还教你怎么录屏加注释，值得试试

原文

6月24日

19:12

orange.ai@oran_ge

Cola上线了Seed 2.1 Pro模型，这是一款原生多模态模型，官方声称是目前多模态最强。相比Seed 2.0版本，该模型在Coding和Agent能力上有所增强。用户可通过colaos.ai进行体验。

AI模型 Cola Seed 2.1 Pro 多模态智能体代码能力

推荐理由：Cola刚发了Seed 2.1 Pro，说是多模态最强，coding和agent比2.0强不少，想试试去colaos.ai就行。

原文

06:52

Google AI Developers@googleaidevs

Google 发布 Gemini Interactions API，用一个端点统一处理文本、多模态输入（图片、音频、视频）、工具调用（Function Calling）和托管智能体。该 API 旨在降低开发复杂度，帮助开发者从提示词快速过渡到生产部署。开发者可在 Google AI Studio 中获取详细指南。

AI产品 Gemini Interactions API Google 多模态智能体

推荐理由：Google 把文本、多模态、工具和智能体塞进一个 API 里，少折腾接口，直接跑。

原文

6月23日

14:48

orange.ai@oran_ge

豆包音频生成模型 Seed Audio 1.0 发布，可根据想象生成人声、音乐、音效和环境音。与传统的 TTS（仅文本转语音）不同，它能捕捉声音中的微妙细节。这是首次将智能赋予声音的模型，类似图像领域的 Seedance 时刻。

AI产品豆包 Seed Audio 1.0 音频生成多模态声音模型

推荐理由：豆包发了 Seed Audio 1.0，不光能念稿，还能生成音乐和音效，像声音版的 DALL·E，值得听听。

原文

02:09

Philipp Schmid@_philschmid

精选

Google 推出 Interactions API，提供单一 API 接口调用 Gemini 模型和智能体。该 API 包含隔离的远程 Linux 沙箱环境，支持异步后台运行的 background=True 参数。已集成图像生成 Nano Banana、音乐生成 Lyria 3，并预告未来支持视频生成 Omni。同时具备多模态工具调用与组合能力，以及专用编码技能。开发者可通过该 API 构建人类与智能体交互的应用。

AI产品 Interactions API Gemini Google 智能体多模态

推荐理由：Google 上线了 Interactions API，一个 API 就能调用 Gemini 模型和智能体，还有沙箱、图像音乐生成，异步运行很简单。

原文

00:23

AK@_akhaliq

PerceptionDLM是一个新提出的多模态扩散语言模型，能够并行地感知图像中的多个区域。该模型结合了扩散模型的生成能力和语言模型的推理能力，支持多区域联合理解。它在一系列视觉定位和区域描述任务上展示了优越性能，但具体基准名称和数值未在原文中提及。

AI模型 PerceptionDLM 多模态扩散语言模型区域感知

推荐理由：这是一个新模型，能用多模态扩散语言模型同时理解图片里的多个区域，跟以前的单区域方法不一样。

原文

6月21日

15:00

Geek@geekbb

Cowart 在 Codex 中集成了本地 tldraw 画布，用户放置 AI 占位框即可指定生成图片。还支持截图标注重绘：在画布上画标注后，Codex 能移除痕迹并生成干净新图。所有操作在本地运行，无需联网。

技巧 Codex Cowart tldraw 多模态提示词工程

推荐理由：想边画草图边让 AI 生图？这个本地画布工具让 Codex 直接改，标注去除功能特别好用。

原文

03:53

Browser Use@browser_use

GLM 5.2（纯文本模型）在网站设计任务中击败了 Fable 5。团队将 GLM 5.2 与 Browser Use v2 多模态 QA 子代理配对，让代理审查网站、发现 bug、判断美学，再向 GLM 发送修复指令。整个构建加质量保证的成本低于 0.75 美元。展示了纯文本模型通过智能协作在视觉任务上的潜力。

技巧 GLM 5.2 Browser Use v2 Fable 5 多模态智能体

推荐理由：GLM 5.2 纯文本模型竟然能设计网站，还打败了 Fable 5？搭配 Browser Use v2 多模态 QA 代理，成本不到 0.75 美元，太会玩了。

原文

6月20日

03:05

Together AI@togethercompute

精选

MiniMax-M3 模型支持智能体携带长历史（超过百万token）、图像、视频、文档和工具输出进入上下文，显著提升多模态信息处理能力。Together 的推理优化通过改进服务路径上的 token 吞吐量，使这一能力在大规模部署时更实用。相比之前方案，每 GPU 可处理更多 token，从而降低每美元自动化工作成本。

AI模型 MiniMax-M3 Together 智能体多模态推理优化

推荐理由：MiniMax-M3 让智能体一口气带进长历史、图、视频、文档和工具输出，Together 优化后每 GPU token 翻倍，自动任务成本更低。

原文

03:05

Together AI@togethercompute

88°

OpenAI 的 GPT Image 2 模型现已在 Together AI 的 Serverless Inference 服务中上线。开发者可通过该接口将图像生成与编辑功能集成到多模态应用中。模型支持精准布局控制、可读文本生成以及参考图像引导生成。Together AI 提供无服务器推理能力，无需管理基础设施即可调用。

AI模型 GPT Image 2 OpenAI Together AI 图像生成多模态

推荐理由：OpenAI 的新图像模型 GPT Image 2 现在能用 Together AI 的无服务器接口调用了，做多模态应用时直接用它生成和编辑图片，支持布局和文字控制，挺方便。

原文

6月19日

10:25

腾讯混元 Tencent Hunyuan@TencentCloud

腾讯推出了Tencent Design Miora智能体创意工作室，面向设计师和内容创作者。该工具能根据简短指令自动规划并交付图像、视频、UI/UX、3D等完整创意资产。Miora具有记忆功能，能学习用户创作风格和项目上下文。内置了品牌系统、故事板、插画、UI/UX、视频、3D等多个专业AI专家，无需切换工具。用户可将已验证的工作流程保存为可复用的技能。

AI产品 Tencent Design Miora Tencent Cloud 智能体多模态 AI设计

推荐理由：腾讯出了个能记住你风格的AI设计工作台，图像视频UI/UX都能在一个画布搞定，内置多个专业AI助手。

原文

06:40

Stanford AI Lab@StanfordAILab

精选

斯坦福AI实验室发布M*运行时，用于统一服务多模态模型。相比专业系统，M*在omni TTS任务上提速2.7倍，在world-model rollouts任务上提速12.5倍。它匹配或超越所有专门系统的性能。

AI产品 M*斯坦福多模态运行时

推荐理由：斯坦福新发的M*运行时，一个系统就能搞定各种多模态模型，速度比专业方案快2到12倍，值得做部署的看看。

原文

6月17日

06:28

AK@_akhaliq

Data Journalist Agent是一个能将结构化数据自动转化为多模态报道的智能体，输出包括图表、文本和视频。它内置事实核查机制，每一条数据均可追溯原始来源。这个智能体旨在提升数据新闻的生产效率和可信度。

AI模型 Data Journalist Agent 智能体多模态数据新闻事实核查

推荐理由：这个Data Journalist Agent能自动把数据做成带验证的图文视频报道，做数据新闻的不用手动整合多模态了

原文

06:04

NVIDIA AI@NVIDIAAI

73°

NVIDIA Research 推出 SpatialClaw，一个无需训练的智能体，通过编写 Python 代码作为动作接口。它在持久内核中动态组合感知模块，检查中间结果并跨步骤调整策略。感知输出作为普通变量，可结合 NumPy、SciPy 等库复用。SpatialClaw 在 20 个基准上平均比先前方法高 11.2 分，在 6 种不同模型骨干上表现稳定。

AI模型 SpatialClaw NVIDIA 智能体多模态视觉推理

推荐理由：SpatialClaw 不用额外训练，靠写代码搞定复杂视觉任务，在 20 个基准上平均提升 11.2 分，还兼容多种模型。

原文

00:59

AK@_akhaliq

JoyAI发布了JoyAI-VL-Interaction模型，这是一个实时视觉语言交互智能系统。该模型支持实时视觉理解与语言生成，能够处理视频帧序列并生成自然语言响应。目前尚未公布具体基准测试成绩或版本号。

AI模型 JoyAI-VL-Interaction JoyAI 多模态实时交互

推荐理由：JoyAI出了个能实时看懂画面并跟你聊天的模型，适合做交互式AI应用。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

13:41

阿里云 Alibaba Cloud@alibaba_cloud

MiniMax 与阿里云 PolarDB 宣布合作探索 AI 原生数据库。PolarDB 为 MiniMax 提供多模态存储、秒级弹性扩容及智能冷热分层能力。该合作旨在应对海量数据与高并发挑战，提升业务敏捷性和用户体验。

行业 MiniMax Alibaba Cloud PolarDB AI原生数据库多模态

推荐理由：MiniMax 和阿里云联手了，用 PolarDB 搞定大规模数据，主打秒级弹性和冷热分层。

原文

09:22

Runway ML@runwayml

Runway 宣布其视频和图像生成与编辑功能直接集成到 ChatGPT 中，用户无需在标签页之间切换即可使用。该集成支持在 ChatGPT 对话界面内直接调用 Runway 的模型生成视频和图像。Runway 此前已提供文本生成视频、图像编辑等功能，此次与 ChatGPT 的整合简化了工作流程。用户可同时利用 ChatGPT 的对话能力和 Runway 的多模态生成能力。

AI产品 Runway ChatGPT 视频生成图像生成多模态

推荐理由：Runway 直接嵌进 ChatGPT 里了，不用来回切页面就能生成和编辑视频图片，特别方便。

原文

6月15日

23:52

Julien Chaumond@julien_c

83°

Mistral AI 正式确认即将发布 Le Chaton Fat，这是一个拥有 30 万亿参数（30T）的混合专家（MoE）模型，配备 256 个专家。该模型支持 1M 上下文窗口，具备多模态和多语言能力，并在所有基准测试上超越 Fable 5。具体发布日期尚未公布。

AI模型 MistralAI Le Chaton Fat MoE 多模态 1M上下文

推荐理由：Mistral 要发一个 30T 参数、256 专家的超大 MoE 模型，还带 1M 上下文和多模态，性能吊打 Fable 5，开源有望了。

原文

20:12

小互@imxiaohu

Perceptron AI 发布了 Agentic Detection 模型，用户只需提供一张图片并用自然语言描述目标，模型就能在图中精确框出并标注每个目标。该模型无需预先训练，可直接处理从未见过的检测任务。它还能执行物理推理，例如从森林火灾画面中定位“烟的来源”，识别“需要维修的电线杆”或标记“空着的停车位”。这些能力使其在零样本目标检测领域展现了显著进步。

AI模型 Perceptron AI Agentic Detection 视觉检测多模态推理模型

推荐理由：Perceptron AI 发了新视觉检测模型，不用提前训练，直接说找什么它就圈出来，还能推理物理关系，挺实用。

原文

17:50

阿里云 Alibaba Cloud@alibaba_cloud

阿里云使用其Qwen和Wan模型创作了一段AI视频，重新演绎墨西哥文化。视频融合了mariachi音乐和Zapotec编织图案等元素。从古老圣地到现代创新中心，展示了AI连接过去与未来的能力。该创作可通过阿里云Model Studio平台体验。

AI模型 Qwen Wan Alibaba Cloud 视频生成多模态

推荐理由：阿里云用Qwen和Wan模型做了一个墨西哥文化AI视频，画面很有创意，展示了模型在艺术创作上的能力。

原文

13:02

李继刚@lijigang_com

许多AI模型在回复中喜欢说“想象一下”。目前很多Agent已支持多模态能力。可以添加一条规则：每当模型输出“想象一下”时，直接生成配图并标注信息。这样能直观呈现模型想表达的画面。该方法利用了Agent的多模态能力来增强表达效果。

技巧智能体多模态提示词工程配图生成

推荐理由：让模型边想边画

原文

6月13日

22:23

rohanpaul_ai@rohanpaul_ai

精选73°

Nvidia 推出 Cosmos 3，一个能够理解、模拟和行动于多种物理 AI 任务的统一模型。它将动作视为世界的一等语言，把语言、图像、视频、音频和动作整合到一个共享系统中。该模型通过动作标记设计，让机器人能连接所见与可能发生的事，并决定下一步行动。论文显示，Cosmos 3 可基于视频推断动作，或与未来场景一同生成动作，从而解决机器人抓取、滑动等物理交互问题。

论文 Cosmos 3 Nvidia 物理AI 多模态动作标记

推荐理由：Nvidia 让机器人学会动作语言

原文

13:16

MiniMax_AI@MiniMax_AI

MiniMax 在 X 上感谢 SambaNovaAI 的合作，并表达了对 M3 模型在 SambaNova 的 RDU（可重构数据流单元）上运行的期待。M3 是 MiniMax 开发的多模态模型，SambaNovaAI 提供专用硬件加速。这一合作旨在提升 M3 的推理效率。

行业 MiniMax SambaNovaAI M3 RDU 多模态

推荐理由：MiniMax 的 M3 要上 SambaNova 的 RDU 了

原文

13:05

MiniMax_AI@MiniMax_AI

UnslothAI 支持在本地运行 MiniMax 的 M3 模型，用户可通过其优化工具进行部署。M3 是 MiniMax 发布的多模态模型，支持文本、图像和音频处理。UnslothAI 提供高效的本地推理方案，降低硬件门槛。

AI模型 M3 MiniMax UnslothAI 多模态本地部署

推荐理由：用UnslothAI本地跑M3

原文

11:02

MiniMax_AI@MiniMax_AI

MiniMax 的 M3 模型已上线 Fireworks AI 平台，提供快速推理服务。M3 支持长时智能体、全仓库理解和多模态编程功能。用户现可在 Fireworks AI 上直接尝试 M3 模型。

AI产品 MiniMax M3 Fireworks AI 多模态编程助手

推荐理由：MiniMax M3 上线 Fireworks，推理快

原文

10:58

MiniMax_AI@MiniMax_AI

MiniMax 的 M3 模型已集成至 FactoryAI 的 droid 平台。M3 是 MiniMax 于 2025 年 1 月发布的混合专家模型，拥有 4560 亿参数，支持 400 万 token 上下文窗口。该模型在多个基准测试中表现优异，例如在 MMLU 上达到 90.8% 准确率。此次上线意味着开发者可通过 FactoryAI 的机器人平台直接调用 M3 进行推理任务。

AI产品 MiniMax M3 FactoryAI droid 多模态

推荐理由：M3 模型上线机器人平台

原文

10:55

MiniMax_AI@MiniMax_AI

精选

MiniMax 发布 M3 模型，总参数量约 428B，激活参数约 23B。该模型在编码、长周期智能体和原生多模态（文本、图像、视频）任务上表现优异，支持 1M token 上下文长度。M3 以开源权重形式发布，在 Baseten 平台可运行。

AI模型 MiniMax M3 开源模型多模态智能体

推荐理由：开源模型能打编码和多模态

原文

10:53

Together AI@togethercompute

精选

MiniMax 发布开源权重原生多模态模型 MiniMax-M3，具备 1M 上下文窗口和 MiniMax 稀疏注意力机制。模型提供思考与非思考两种模式。Together AI 作为首选云合作伙伴，通过推理优化在并发场景下实现高达 125% 的吞吐量提升。

AI模型 MiniMax-M3 Together AI 多模态开源模型 1M上下文

推荐理由：MiniMax 新模型上线，吞吐量提升 125%

原文

10:40

AI Will@FinanceYF5

Fable模型在测试中成功生成等时线旅行地图，需查询数千条路线并综合飞机、火车、驾车、步行多种交通方式。此前所有模型均无法完成此复杂任务。Fable仅需一个提示即可开始处理。该测试展示了Fable在复杂规划任务上的能力。

AI模型 Fable 等时线地图智能体多模态

推荐理由：Fable能搞定别人做不了的地图

原文

6月12日

22:18

LMSYS Org (SGLang)@lmsysorg

73°

SGLang 宣布 Day-0 支持 MiniMax-M3，这是 MiniMax 推出的原生多模态 MoE 推理模型，总参数量约 428B（活跃参数约 23B），支持文本、图像和视频的融合处理。M3 采用 MiniMax 稀疏注意力机制，在 1M 上下文下相比 M2 实现 9 倍预填充和 15 倍解码加速，每 token 计算量降至 1/20。该模型在编码和协作任务上达到前沿智能体性能，并原生支持 NVIDIA Blackwell 和 AMD MI350X/MI355X 上的 MXFP8 格式。开发者可通过 SGLang 立即运行该模型。

AI模型 SGLang MiniMax-M3 多模态 MoE 推理模型

推荐理由：SGLang 第一时间支持 MiniMax-M3，做多模态推理和长上下文应用的团队可以直接上手体验 428B 模型的稀疏注意力加速，编码和智能体任务表现值得一试。

原文

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？