13:50阿里云 Alibaba Cloud@alibaba_cloud在Flink Forward Asia Shenzhen 2026上,NVIDIA的Chuan Chen介绍了与阿里云的技术合作。双方通过CUDA库加速Apache Flink的多模态数据流处理。这一开源协作实现了端到端高性能多模态流式架构,适用于AI评论、实时图文流和交互式问答。行业NVIDIAAlibaba CloudApache FlinkCUDA多模态5 个信源在谈推荐理由:NVIDIA和阿里云用CUDA把Flink的多模态数据处理速度拉满了,想做实时AI评论或图文问答的可以看看这个架构。原文
13:50阶跃星辰 Stepfun@Stepfun_AIStepFun(阶跃星辰)推出初创公司计划,为早期AI团队提供支持。入选团队可获得API额度、专属生态系统支持、联合营销机会、展示位置及合作伙伴引荐。该计划面向构建多模态应用和智能体系统的团队。申请现已开放。行业StepFun多模态智能体初创计划推荐理由:StepFun给早期AI团队送API额度、资源和曝光,做多模态或智能体项目的小伙伴可以试试,链接在推文里。原文
13:49阶跃星辰 Stepfun@Stepfun_AI精选Step 3.7 Flash 是开源多模态推理模型,现已在 DeepInfra API 上线。该模型支持私有端点部署,适用于专用负载场景。它专为智能体编码、工具使用、搜索和视觉工作流设计。开发者可通过 DeepInfra 的 API 直接调用。AI模型Step 3.7 FlashDeepInfra多模态推理模型开源模型推荐理由:Step 3.7 Flash 开源多模态推理模型刚上线 DeepInfra,支持私有部署,适合智能体编程和视觉任务,开发者可以试试。原文
13:49Microsoft AI@MicrosoftAI微软的 MAI-Image-2.5 在 Artificial Analysis 的文本到图像榜单中排名第2,图像编辑排名第3。该模型能对图像进行精确编辑,例如将雨窗模糊场景转换为清晰街景,同时保持物体一致性、光照、反射和场景几何。模型现已通过 Foundry API、MAI Playground 和 OpenRouter 提供使用。AI模型MAI-Image-2.5Microsoft图像生成图像编辑多模态推荐理由:微软 MAI-Image-2.5 图像生成排第2、编辑排第3,还能把雨窗变清晰,想用去 Foundry API 或 OpenRouter 试试。原文
13:49阶跃星辰 Stepfun@Stepfun_AIStepFun 的 Step 3.7 Flash 模型已在 AI 平台 ZenMuxAI 上架。该模型支持多模态输入,针对实际工作流优化,推理速度较快。用户可在 ZenMuxAI 上免费使用该模型30天。AI模型Step 3.7 FlashZenMuxStepFun多模态免费试用推荐理由:StepFun 的新模型 Step 3.7 Flash 上线 ZenMux,多模态且快,还能免费用一个月,想试试的别错过。原文
13:49Jasper AI@heyjasperai精选72°Jasper Research 宣布推出 MONET 数据集,从 29 亿张图片中精炼出 1.049 亿张高质量样本,成为全球最大的开放文本-图像数据集。该数据集采用 Apache 2.0 许可,可免费商用。同时发布的 nano-t2i 方案支持在单张 GPU 上训练有竞争力的文生图模型。AI模型MONETJasper Researchnano-t2iApache 2.0多模态推荐理由:Jasper Research 放出了 MONET 数据集,有 1 亿多张图,免费商用,还能用 nano-t2i 在单卡上训练模型,做文生图的值得试试。原文
11:20Latent.Space@latentspacepodOpenAI首席研究官Mark Chen在播客中讨论了AGI距离,认为模型正越来越接近自主创新。他重申扩展定律和预训练仍然关键,并透露OpenAI如何分配算力。他还指出评估基准正面临危机,模型需提升长周期任务与多模态推理能力。行业OpenAIMark ChenAGI智能体多模态10 个信源在谈推荐理由:OpenAI内部的人聊AGI有多远,还讲了评估危机和长周期学习,干货不少。原文
09:39向阳乔木@vista8一个团队展示了能实时计数乒乓球颠球数的AI系统,并认为Physical AGI需要满足三个必要条件:统一的多模态大脑(非模型拼接)、在同一个大脑中完成任意模态的理解与生成、理解与生成以流式方式持续运行。最关键的一点是该大脑必须完整运行在端侧。团队还提供了更多介绍和演示视频。AI模型Physical AGI多模态端侧模型智能体推荐理由:看看这个团队对Physical AGI的看法,他们提出了3+1个必要条件,还做了颠球计数的演示,强调端侧运行和统一多模态大脑。原文
03:54Mustafa Suleyman@mustafasuleyman精选72°Microsoft 发布 MAI-Image-2.5,在 Artificial Analysis Image Arena 文本到图像基准中排名第2,仅次于 OpenAI 的 GPT Image 2。其图像编辑能力排名第3,仅次于 OpenAI 模型,性能与 Google 的 Nano Banana 2 相当。MAI-Image-2.5 最大输出约 1MP 分辨率,支持灵活宽高比和 32K token 上下文。定价为每千张图 $48(Flash 变体 $20),可通过 Foundry API 和 MAI Playground 使用。AI模型MAI-Image-2.5Microsoft文本到图像图像编辑多模态10 个信源在谈推荐理由:微软新出的 MAI-Image-2.5 图像生成和编辑都很强,排名只输给 OpenAI,价格也透明,值得试试看。原文
08:42lmarena.ai@lmarena_ai精选72°Wan-2.7 I2V在视频生成竞技场中取得第5名,得分1,434。该排名来自与顶级模型的一对一对决,由全球用户在其创作任务中投票选出。它超越了Grok Imagine Video(720p)和所有Google Veo-3.1变体。该模型支持文本、图像、音频和视频的多模态控制,以及最多5个参考输入的角色自定义。阿里通义万相团队还提供了视频编辑、克隆、重风格化等全栈工具。AI模型Wan-2.7AlibabaVideo Arena视频生成多模态推荐理由:阿里通义万相出了个新视频模型Wan-2.7,在Video Arena排第5,干掉了Grok和Veo,视频创作能力挺强,可以试试。原文
01:25elvis@omarsar0精选作者完全改用语音而非文字输入与AI代理交互,发现音频描述越详细、越长,代理结果越好。他还开发了屏幕录制、截图、追踪鼠标动作和语音注释功能,帮助代理处理设计和精确开发任务。多模态提示(语音+屏幕+动作)显著提升了代理的可靠性,尽管消耗更多token。作者将这些经验制作为可复用的命令集,插入循环后效果显著改善。技巧智能体多模态提示词工程语音交互推荐理由:有人分享用语音+屏幕录制和多模态提示跟AI代理唠嗑,提示越啰嗦结果越靠谱,还教你怎么录屏加注释,值得试试原文
19:12orange.ai@oran_geCola上线了Seed 2.1 Pro模型,这是一款原生多模态模型,官方声称是目前多模态最强。相比Seed 2.0版本,该模型在Coding和Agent能力上有所增强。用户可通过colaos.ai进行体验。AI模型ColaSeed 2.1 Pro多模态智能体代码能力3 个信源在谈推荐理由:Cola刚发了Seed 2.1 Pro,说是多模态最强,coding和agent比2.0强不少,想试试去colaos.ai就行。原文
06:52Google AI Developers@googleaidevsGoogle 发布 Gemini Interactions API,用一个端点统一处理文本、多模态输入(图片、音频、视频)、工具调用(Function Calling)和托管智能体。该 API 旨在降低开发复杂度,帮助开发者从提示词快速过渡到生产部署。开发者可在 Google AI Studio 中获取详细指南。AI产品GeminiInteractions APIGoogle多模态智能体推荐理由:Google 把文本、多模态、工具和智能体塞进一个 API 里,少折腾接口,直接跑。原文
14:48orange.ai@oran_ge豆包音频生成模型 Seed Audio 1.0 发布,可根据想象生成人声、音乐、音效和环境音。与传统的 TTS(仅文本转语音)不同,它能捕捉声音中的微妙细节。这是首次将智能赋予声音的模型,类似图像领域的 Seedance 时刻。AI产品豆包Seed Audio 1.0音频生成多模态声音模型3 个信源在谈推荐理由:豆包发了 Seed Audio 1.0,不光能念稿,还能生成音乐和音效,像声音版的 DALL·E,值得听听。原文
02:09Philipp Schmid@_philschmid精选Google 推出 Interactions API,提供单一 API 接口调用 Gemini 模型和智能体。该 API 包含隔离的远程 Linux 沙箱环境,支持异步后台运行的 background=True 参数。已集成图像生成 Nano Banana、音乐生成 Lyria 3,并预告未来支持视频生成 Omni。同时具备多模态工具调用与组合能力,以及专用编码技能。开发者可通过该 API 构建人类与智能体交互的应用。AI产品Interactions APIGeminiGoogle智能体多模态推荐理由:Google 上线了 Interactions API,一个 API 就能调用 Gemini 模型和智能体,还有沙箱、图像音乐生成,异步运行很简单。原文
00:23AK@_akhaliqPerceptionDLM是一个新提出的多模态扩散语言模型,能够并行地感知图像中的多个区域。该模型结合了扩散模型的生成能力和语言模型的推理能力,支持多区域联合理解。它在一系列视觉定位和区域描述任务上展示了优越性能,但具体基准名称和数值未在原文中提及。AI模型PerceptionDLM多模态扩散语言模型区域感知推荐理由:这是一个新模型,能用多模态扩散语言模型同时理解图片里的多个区域,跟以前的单区域方法不一样。原文
15:00Geek@geekbbCowart 在 Codex 中集成了本地 tldraw 画布,用户放置 AI 占位框即可指定生成图片。还支持截图标注重绘:在画布上画标注后,Codex 能移除痕迹并生成干净新图。所有操作在本地运行,无需联网。技巧CodexCowarttldraw多模态提示词工程推荐理由:想边画草图边让 AI 生图?这个本地画布工具让 Codex 直接改,标注去除功能特别好用。原文
03:53Browser Use@browser_useGLM 5.2(纯文本模型)在网站设计任务中击败了 Fable 5。团队将 GLM 5.2 与 Browser Use v2 多模态 QA 子代理配对,让代理审查网站、发现 bug、判断美学,再向 GLM 发送修复指令。整个构建加质量保证的成本低于 0.75 美元。展示了纯文本模型通过智能协作在视觉任务上的潜力。技巧GLM 5.2Browser Use v2Fable 5多模态智能体2 个信源在谈推荐理由:GLM 5.2 纯文本模型竟然能设计网站,还打败了 Fable 5?搭配 Browser Use v2 多模态 QA 代理,成本不到 0.75 美元,太会玩了。原文
03:05Together AI@togethercompute精选MiniMax-M3 模型支持智能体携带长历史(超过百万token)、图像、视频、文档和工具输出进入上下文,显著提升多模态信息处理能力。Together 的推理优化通过改进服务路径上的 token 吞吐量,使这一能力在大规模部署时更实用。相比之前方案,每 GPU 可处理更多 token,从而降低每美元自动化工作成本。AI模型MiniMax-M3Together智能体多模态推理优化2 个信源在谈推荐理由:MiniMax-M3 让智能体一口气带进长历史、图、视频、文档和工具输出,Together 优化后每 GPU token 翻倍,自动任务成本更低。原文
03:05Together AI@togethercompute88°OpenAI 的 GPT Image 2 模型现已在 Together AI 的 Serverless Inference 服务中上线。开发者可通过该接口将图像生成与编辑功能集成到多模态应用中。模型支持精准布局控制、可读文本生成以及参考图像引导生成。Together AI 提供无服务器推理能力,无需管理基础设施即可调用。AI模型GPT Image 2OpenAITogether AI图像生成多模态10 个信源在谈推荐理由:OpenAI 的新图像模型 GPT Image 2 现在能用 Together AI 的无服务器接口调用了,做多模态应用时直接用它生成和编辑图片,支持布局和文字控制,挺方便。原文
10:25腾讯混元 Tencent Hunyuan@TencentCloud腾讯推出了Tencent Design Miora智能体创意工作室,面向设计师和内容创作者。该工具能根据简短指令自动规划并交付图像、视频、UI/UX、3D等完整创意资产。Miora具有记忆功能,能学习用户创作风格和项目上下文。内置了品牌系统、故事板、插画、UI/UX、视频、3D等多个专业AI专家,无需切换工具。用户可将已验证的工作流程保存为可复用的技能。AI产品Tencent Design MioraTencent Cloud智能体多模态AI设计推荐理由:腾讯出了个能记住你风格的AI设计工作台,图像视频UI/UX都能在一个画布搞定,内置多个专业AI助手。原文
06:40Stanford AI Lab@StanfordAILab精选斯坦福AI实验室发布M*运行时,用于统一服务多模态模型。相比专业系统,M*在omni TTS任务上提速2.7倍,在world-model rollouts任务上提速12.5倍。它匹配或超越所有专门系统的性能。AI产品M*斯坦福多模态运行时推荐理由:斯坦福新发的M*运行时,一个系统就能搞定各种多模态模型,速度比专业方案快2到12倍,值得做部署的看看。原文
06:28AK@_akhaliqData Journalist Agent是一个能将结构化数据自动转化为多模态报道的智能体,输出包括图表、文本和视频。它内置事实核查机制,每一条数据均可追溯原始来源。这个智能体旨在提升数据新闻的生产效率和可信度。AI模型Data Journalist Agent智能体多模态数据新闻事实核查推荐理由:这个Data Journalist Agent能自动把数据做成带验证的图文视频报道,做数据新闻的不用手动整合多模态了原文
06:04NVIDIA AI@NVIDIAAI73°NVIDIA Research 推出 SpatialClaw,一个无需训练的智能体,通过编写 Python 代码作为动作接口。它在持久内核中动态组合感知模块,检查中间结果并跨步骤调整策略。感知输出作为普通变量,可结合 NumPy、SciPy 等库复用。SpatialClaw 在 20 个基准上平均比先前方法高 11.2 分,在 6 种不同模型骨干上表现稳定。AI模型SpatialClawNVIDIA智能体多模态视觉推理8 个信源在谈推荐理由:SpatialClaw 不用额外训练,靠写代码搞定复杂视觉任务,在 20 个基准上平均提升 11.2 分,还兼容多种模型。原文
00:59AK@_akhaliqJoyAI发布了JoyAI-VL-Interaction模型,这是一个实时视觉语言交互智能系统。该模型支持实时视觉理解与语言生成,能够处理视频帧序列并生成自然语言响应。目前尚未公布具体基准测试成绩或版本号。AI模型JoyAI-VL-InteractionJoyAI多模态实时交互推荐理由:JoyAI出了个能实时看懂画面并跟你聊天的模型,适合做交互式AI应用。原文
13:41阿里云 Alibaba Cloud@alibaba_cloudMiniMax 与阿里云 PolarDB 宣布合作探索 AI 原生数据库。PolarDB 为 MiniMax 提供多模态存储、秒级弹性扩容及智能冷热分层能力。该合作旨在应对海量数据与高并发挑战,提升业务敏捷性和用户体验。行业MiniMaxAlibaba CloudPolarDBAI原生数据库多模态推荐理由:MiniMax 和阿里云联手了,用 PolarDB 搞定大规模数据,主打秒级弹性和冷热分层。原文
09:22Runway ML@runwaymlRunway 宣布其视频和图像生成与编辑功能直接集成到 ChatGPT 中,用户无需在标签页之间切换即可使用。该集成支持在 ChatGPT 对话界面内直接调用 Runway 的模型生成视频和图像。Runway 此前已提供文本生成视频、图像编辑等功能,此次与 ChatGPT 的整合简化了工作流程。用户可同时利用 ChatGPT 的对话能力和 Runway 的多模态生成能力。AI产品RunwayChatGPT视频生成图像生成多模态推荐理由:Runway 直接嵌进 ChatGPT 里了,不用来回切页面就能生成和编辑视频图片,特别方便。原文
23:52Julien Chaumond@julien_c83°Mistral AI 正式确认即将发布 Le Chaton Fat,这是一个拥有 30 万亿参数(30T)的混合专家(MoE)模型,配备 256 个专家。该模型支持 1M 上下文窗口,具备多模态和多语言能力,并在所有基准测试上超越 Fable 5。具体发布日期尚未公布。AI模型MistralAILe Chaton FatMoE多模态1M上下文推荐理由:Mistral 要发一个 30T 参数、256 专家的超大 MoE 模型,还带 1M 上下文和多模态,性能吊打 Fable 5,开源有望了。原文
20:12小互@imxiaohuPerceptron AI 发布了 Agentic Detection 模型,用户只需提供一张图片并用自然语言描述目标,模型就能在图中精确框出并标注每个目标。该模型无需预先训练,可直接处理从未见过的检测任务。它还能执行物理推理,例如从森林火灾画面中定位“烟的来源”,识别“需要维修的电线杆”或标记“空着的停车位”。这些能力使其在零样本目标检测领域展现了显著进步。AI模型Perceptron AIAgentic Detection视觉检测多模态推理模型推荐理由:Perceptron AI 发了新视觉检测模型,不用提前训练,直接说找什么它就圈出来,还能推理物理关系,挺实用。原文
17:50阿里云 Alibaba Cloud@alibaba_cloud阿里云使用其Qwen和Wan模型创作了一段AI视频,重新演绎墨西哥文化。视频融合了mariachi音乐和Zapotec编织图案等元素。从古老圣地到现代创新中心,展示了AI连接过去与未来的能力。该创作可通过阿里云Model Studio平台体验。AI模型QwenWanAlibaba Cloud视频生成多模态推荐理由:阿里云用Qwen和Wan模型做了一个墨西哥文化AI视频,画面很有创意,展示了模型在艺术创作上的能力。原文
13:02李继刚@lijigang_com许多AI模型在回复中喜欢说“想象一下”。目前很多Agent已支持多模态能力。可以添加一条规则:每当模型输出“想象一下”时,直接生成配图并标注信息。这样能直观呈现模型想表达的画面。该方法利用了Agent的多模态能力来增强表达效果。技巧智能体多模态提示词工程配图生成推荐理由:让模型边想边画原文
22:23rohanpaul_ai@rohanpaul_ai精选73°Nvidia 推出 Cosmos 3,一个能够理解、模拟和行动于多种物理 AI 任务的统一模型。它将动作视为世界的一等语言,把语言、图像、视频、音频和动作整合到一个共享系统中。该模型通过动作标记设计,让机器人能连接所见与可能发生的事,并决定下一步行动。论文显示,Cosmos 3 可基于视频推断动作,或与未来场景一同生成动作,从而解决机器人抓取、滑动等物理交互问题。论文Cosmos 3Nvidia物理AI多模态动作标记3 个信源在谈推荐理由:Nvidia 让机器人学会动作语言原文
13:16MiniMax_AI@MiniMax_AIMiniMax 在 X 上感谢 SambaNovaAI 的合作,并表达了对 M3 模型在 SambaNova 的 RDU(可重构数据流单元)上运行的期待。M3 是 MiniMax 开发的多模态模型,SambaNovaAI 提供专用硬件加速。这一合作旨在提升 M3 的推理效率。行业MiniMaxSambaNovaAIM3RDU多模态推荐理由:MiniMax 的 M3 要上 SambaNova 的 RDU 了原文
13:05MiniMax_AI@MiniMax_AIUnslothAI 支持在本地运行 MiniMax 的 M3 模型,用户可通过其优化工具进行部署。M3 是 MiniMax 发布的多模态模型,支持文本、图像和音频处理。UnslothAI 提供高效的本地推理方案,降低硬件门槛。AI模型M3MiniMaxUnslothAI多模态本地部署推荐理由:用UnslothAI本地跑M3原文
11:02MiniMax_AI@MiniMax_AIMiniMax 的 M3 模型已上线 Fireworks AI 平台,提供快速推理服务。M3 支持长时智能体、全仓库理解和多模态编程功能。用户现可在 Fireworks AI 上直接尝试 M3 模型。AI产品MiniMaxM3Fireworks AI多模态编程助手推荐理由:MiniMax M3 上线 Fireworks,推理快原文
10:58MiniMax_AI@MiniMax_AIMiniMax 的 M3 模型已集成至 FactoryAI 的 droid 平台。M3 是 MiniMax 于 2025 年 1 月发布的混合专家模型,拥有 4560 亿参数,支持 400 万 token 上下文窗口。该模型在多个基准测试中表现优异,例如在 MMLU 上达到 90.8% 准确率。此次上线意味着开发者可通过 FactoryAI 的机器人平台直接调用 M3 进行推理任务。AI产品MiniMaxM3FactoryAIdroid多模态推荐理由:M3 模型上线机器人平台原文
10:55MiniMax_AI@MiniMax_AI精选MiniMax 发布 M3 模型,总参数量约 428B,激活参数约 23B。该模型在编码、长周期智能体和原生多模态(文本、图像、视频)任务上表现优异,支持 1M token 上下文长度。M3 以开源权重形式发布,在 Baseten 平台可运行。AI模型MiniMaxM3开源模型多模态智能体推荐理由:开源模型能打编码和多模态原文
10:53Together AI@togethercompute精选MiniMax 发布开源权重原生多模态模型 MiniMax-M3,具备 1M 上下文窗口和 MiniMax 稀疏注意力机制。模型提供思考与非思考两种模式。Together AI 作为首选云合作伙伴,通过推理优化在并发场景下实现高达 125% 的吞吐量提升。AI模型MiniMax-M3Together AI多模态开源模型1M上下文7 个信源在谈推荐理由:MiniMax 新模型上线,吞吐量提升 125%原文
10:40AI Will@FinanceYF5Fable模型在测试中成功生成等时线旅行地图,需查询数千条路线并综合飞机、火车、驾车、步行多种交通方式。此前所有模型均无法完成此复杂任务。Fable仅需一个提示即可开始处理。该测试展示了Fable在复杂规划任务上的能力。AI模型Fable等时线地图智能体多模态推荐理由:Fable能搞定别人做不了的地图原文
22:18LMSYS Org (SGLang)@lmsysorg73°SGLang 宣布 Day-0 支持 MiniMax-M3,这是 MiniMax 推出的原生多模态 MoE 推理模型,总参数量约 428B(活跃参数约 23B),支持文本、图像和视频的融合处理。M3 采用 MiniMax 稀疏注意力机制,在 1M 上下文下相比 M2 实现 9 倍预填充和 15 倍解码加速,每 token 计算量降至 1/20。该模型在编码和协作任务上达到前沿智能体性能,并原生支持 NVIDIA Blackwell 和 AMD MI350X/MI355X 上的 MXFP8 格式。开发者可通过 SGLang 立即运行该模型。AI模型SGLangMiniMax-M3多模态MoE推理模型10 个信源在谈推荐理由:SGLang 第一时间支持 MiniMax-M3,做多模态推理和长上下文应用的团队可以直接上手体验 428B 模型的稀疏注意力加速,编码和智能体任务表现值得一试。原文