全部 AI 动态 · AI 热点

6月30日

11:22

arXiv cs.LG@Haitao Wu, Qirui Zhang, Zhouheng Yao, Shangquan Sun, Qihao Zheng, Mianxin Liu, Chi Zhang, Wanli Ouyang, Chunfeng Song, Changqing Zhang, Jiamin Wu

BrainJanus是首个将脑、视觉和语言整合到单一框架的统一脑模型。它引入Unified Brain Tokenizer将连续神经活动量化为离散Token，并与视觉和语言表征对齐到共享的Omni空间。基于All-in-One自回归架构，该模型通过下一个Token预测实现图像到脑、文本到脑的编码以及脑到图像、脑到文本的解码。在多项基准测试中，BrainJanus取得优越性能，并展现出零样本泛化能力和可解释的生物拓扑结构。代码已在GitHub开源。

论文 BrainJanus 脑机接口多模态零样本学习脑解码

推荐理由：这篇论文提出了BrainJanus，一个能双向翻译脑信号与图像、文本的统一模型，在零样本和生物可解释性上突破传统方法。

原文

10:21

arXiv cs.AI@Chao Tian, Zikun Zhou, Chao Yang, Guoqing Zhu, Zhenyu He

本文提出一种稀疏跨模态融合机制用于RGB-T目标检测，避免传统方法中双重骨干网络和全局融合的高计算成本。该方法先通过轻量级单模态检测器快速扫描图像，生成高召回率的候选区域（RoI），再对稀疏的候选区域进行跨模态特征融合以精化检测结果。两阶段框架显著降低了参数和计算成本，同时在高分辨率图像上保持可扩展性。实验证明该方法在保持竞争力的前提下实现高效检测。

论文 RGB-T 稀疏融合目标检测多模态

推荐理由：这篇论文找到了一种聪明的方法：先快速扫一遍图像找出可能的目标区域，再只对这几个区域做多模态融合，省了很多计算。适合想做轻量级多模态目标检测的人读。

原文

10:16

arXiv cs.AI@Elys Allesiardo, Antoine Caubrière, Valentin Vielzeuf

该论文深入分析了非序列多模态句子级嵌入，重点研究SONAR模型。研究发现某些嵌入维度对扰动敏感，可作为解码异常的指示器。通过利用编码与解码间的一致性，构建了准确的异常检测器。论文还探索了修改特定维度以尝试纠正异常。

论文 SONAR 多模态嵌入异常检测

推荐理由：这篇论文用SONAR模型把嵌入维度玩出花了，直接用一致性检测解码异常，还尝试修正，挺有意思的。

原文

01:57

AWS Machine Learning Blog@Sanghwa Na

精选

AWS 博客展示如何用 Amazon Nova 2 Lite 和 Claude Sonnet 4.6 构建两模型管道，用于扫描文档的数字化。Nova 2 Lite 在单次调用中完成多模态提取（检测照片、提取姓名坐标、返回页面元数据）。Claude Sonnet 4.6 根据版面布局进行空间推理，将姓名和面孔匹配。该管道在 Amazon Bedrock 上运行，通过分工降低总处理成本。

技巧 Amazon Nova 2 Lite Claude Sonnet 4.6 Amazon Bedrock 文档数字化多模态

推荐理由：用 Nova 2 Lite 做粗提取，Claude Sonnet 4.6 做精准匹配，文档数字化省心又省钱。

原文

6月29日

18:50

量子位@量子位的朋友们

OceanBase推出AI数据库版本，将湖仓一体、多模态数据与AI能力集成于单一引擎。该版本支持SQL+AI混合查询，可同时处理结构化表格、非结构化文本及图片等数据。OceanBase在TPC-C、TPC-H等基准测试中保持领先性能，新版本使企业无需额外ETL即可直接运行AI模型。

AI产品 OceanBase 数据库多模态湖仓一体 AI数据库

推荐理由：OceanBase这次更新把数据库和AI揉在一起了，一个引擎搞定表格、文本和图片，省了来回搬数据的麻烦。

原文

16:34

pandaily@contact@pandaily.com (Pandaily)

具身智能公司智平方（Zhipingfang）完成约50亿元新融资。其估值突破200亿元（约28亿美元），成为粤港澳大湾区首个具身智能独角兽。核心采用类脑NeuroVLA架构，模拟人脑多模态信息处理机制。

行业 Zhipingfang NeuroVLA 具身智能类脑智能多模态

推荐理由：智平方刚融了50亿，估值200亿，靠类脑NeuroVLA搞具身智能，大湾区第一个独角兽，挺有看头。

原文

13:50

阿里云 Alibaba Cloud@alibaba_cloud

在Flink Forward Asia Shenzhen 2026上，NVIDIA的Chuan Chen介绍了与阿里云的技术合作。双方通过CUDA库加速Apache Flink的多模态数据流处理。这一开源协作实现了端到端高性能多模态流式架构，适用于AI评论、实时图文流和交互式问答。

行业 NVIDIA Alibaba Cloud Apache Flink CUDA 多模态

推荐理由：NVIDIA和阿里云用CUDA把Flink的多模态数据处理速度拉满了，想做实时AI评论或图文问答的可以看看这个架构。

原文

13:50

阶跃星辰 Stepfun@Stepfun_AI

StepFun（阶跃星辰）推出初创公司计划，为早期AI团队提供支持。入选团队可获得API额度、专属生态系统支持、联合营销机会、展示位置及合作伙伴引荐。该计划面向构建多模态应用和智能体系统的团队。申请现已开放。

行业 StepFun 多模态智能体初创计划

推荐理由：StepFun给早期AI团队送API额度、资源和曝光，做多模态或智能体项目的小伙伴可以试试，链接在推文里。

原文

13:49

阶跃星辰 Stepfun@Stepfun_AI

精选

Step 3.7 Flash 是开源多模态推理模型，现已在 DeepInfra API 上线。该模型支持私有端点部署，适用于专用负载场景。它专为智能体编码、工具使用、搜索和视觉工作流设计。开发者可通过 DeepInfra 的 API 直接调用。

AI模型 Step 3.7 Flash DeepInfra 多模态推理模型开源模型

推荐理由：Step 3.7 Flash 开源多模态推理模型刚上线 DeepInfra，支持私有部署，适合智能体编程和视觉任务，开发者可以试试。

原文

13:49

Microsoft AI@MicrosoftAI

微软的 MAI-Image-2.5 在 Artificial Analysis 的文本到图像榜单中排名第2，图像编辑排名第3。该模型能对图像进行精确编辑，例如将雨窗模糊场景转换为清晰街景，同时保持物体一致性、光照、反射和场景几何。模型现已通过 Foundry API、MAI Playground 和 OpenRouter 提供使用。

AI模型 MAI-Image-2.5 Microsoft 图像生成图像编辑多模态

推荐理由：微软 MAI-Image-2.5 图像生成排第2、编辑排第3，还能把雨窗变清晰，想用去 Foundry API 或 OpenRouter 试试。

原文

13:49

阶跃星辰 Stepfun@Stepfun_AI

StepFun 的 Step 3.7 Flash 模型已在 AI 平台 ZenMuxAI 上架。该模型支持多模态输入，针对实际工作流优化，推理速度较快。用户可在 ZenMuxAI 上免费使用该模型30天。

AI模型 Step 3.7 Flash ZenMux StepFun 多模态免费试用

推荐理由：StepFun 的新模型 Step 3.7 Flash 上线 ZenMux，多模态且快，还能免费用一个月，想试试的别错过。

原文

13:49

Jasper AI@heyjasperai

精选72°

Jasper Research 宣布推出 MONET 数据集，从 29 亿张图片中精炼出 1.049 亿张高质量样本，成为全球最大的开放文本-图像数据集。该数据集采用 Apache 2.0 许可，可免费商用。同时发布的 nano-t2i 方案支持在单张 GPU 上训练有竞争力的文生图模型。

AI模型 MONET Jasper Research nano-t2i Apache 2.0 多模态

推荐理由：Jasper Research 放出了 MONET 数据集，有 1 亿多张图，免费商用，还能用 nano-t2i 在单卡上训练模型，做文生图的值得试试。

原文

6月27日

11:20

Latent.Space@latentspacepod

OpenAI首席研究官Mark Chen在播客中讨论了AGI距离，认为模型正越来越接近自主创新。他重申扩展定律和预训练仍然关键，并透露OpenAI如何分配算力。他还指出评估基准正面临危机，模型需提升长周期任务与多模态推理能力。

行业 OpenAI Mark Chen AGI 智能体多模态

推荐理由：OpenAI内部的人聊AGI有多远，还讲了评估危机和长周期学习，干货不少。

原文

6月26日

11:39

11:39IT之家（博客/媒体）

Mistral AI 于6月23日发布OCR 4文档识别模型。该模型支持横跨10个语族的170种语言，在OmniDocBench基准上获得93.07分，优于GPT 5.5 Pro和Gemini 3.1 Pro Preview。OCR 4提供边框、区域分类和置信度评分，并支持RAG语义分块等下游任务。基础API定价每千页4美元，批处理可享50%优惠。

AI模型 Mistral AI OCR 4 多模态文档识别 RAG

推荐理由：Mistral出了新OCR模型，支持170种语言，评分比GPT和Gemini都高，处理文档识别可以试试它。

原文

10:52

arXiv cs.AI@Junhao Shi, Zezheng Huai, Siyin Wang, Jia Chen, Yubang Wang, Zhaoye Fei, Hechang Chen, Jingjing Gong, Xipeng Qiu, Yu-Gang Jiang

OmniAct 提出了一个分层异步架构，将多模态语义规划器、基于事件边界压缩的自适应分层记忆和异步视觉抢占引擎模块化集成，以解决持久自主机器人的跨域工具调用与物理故障恢复问题。在40个真实世界长期任务中，使用两个机器人平台协调四个IoT设备，OmniAct在所有复杂度级别上端到端成功率一致提升，累积超过10万交互token时保持接近线性的token消耗，并让中等规模开源模型达到闭源模型性能。

AI模型 OmniAct 具身智能多模态机器人 IoT交互

推荐理由：他们搞了个新架构，让机器人能自己协调API、物联网和物理动作，干活出错还能自己恢复，20个任务里成功率都比之前高，而且省钱省token。

原文

09:39

向阳乔木@vista8

一个团队展示了能实时计数乒乓球颠球数的AI系统，并认为Physical AGI需要满足三个必要条件：统一的多模态大脑（非模型拼接）、在同一个大脑中完成任意模态的理解与生成、理解与生成以流式方式持续运行。最关键的一点是该大脑必须完整运行在端侧。团队还提供了更多介绍和演示视频。

AI模型 Physical AGI 多模态端侧模型智能体

推荐理由：看看这个团队对Physical AGI的看法，他们提出了3+1个必要条件，还做了颠球计数的演示，强调端侧运行和统一多模态大脑。

原文

03:54

Mustafa Suleyman@mustafasuleyman

精选72°

Microsoft 发布 MAI-Image-2.5，在 Artificial Analysis Image Arena 文本到图像基准中排名第2，仅次于 OpenAI 的 GPT Image 2。其图像编辑能力排名第3，仅次于 OpenAI 模型，性能与 Google 的 Nano Banana 2 相当。MAI-Image-2.5 最大输出约 1MP 分辨率，支持灵活宽高比和 32K token 上下文。定价为每千张图 $48（Flash 变体 $20），可通过 Foundry API 和 MAI Playground 使用。

AI模型 MAI-Image-2.5 Microsoft 文本到图像图像编辑多模态

推荐理由：微软新出的 MAI-Image-2.5 图像生成和编辑都很强，排名只输给 OpenAI，价格也透明，值得试试看。

原文

6月25日

16:06

16:06IT之家（博客/媒体）

精选

商汤科技正在研发代号U1 Pro的多模态模型，聚焦设计场景，对标OpenAI GPT-Image 2。该模型由联合创始人林达华牵头，属于日日新家族，预计7月启动内部邀请测试。支持8K分辨率输出，能实现设计-生成-评审长程循环。内部评测显示，相同提示词下U1 Pro生成图片质量接近甚至优于GPT-Image 2。LMSYS Chatbot Arena中GPT-Image 2文生图评分领先谷歌Nano Banana 2。

AI模型商汤科技 U1 Pro GPT-Image 2 多模态图像生成

推荐理由：商汤新模型U1 Pro专攻设计，对标GPT-Image 2，内部评测更优，支持8K输出，7月内测。

原文

11:01

arXiv cs.AI@Yu-Yang Chen, Lan-Zhe Guo

TriViewBench 是一个基于合成3D场景的受控多视图视觉推理基准，包含1,923个场景和超过14K个问答对，分为4个复杂度级别和3个推理类别：局部决策、物体计数和全局恢复。评估18个开源和闭源MLLMs发现，所有模型能力排序一致（局部决策>物体计数>全局恢复），且随着复杂度增加性能单调下降：局部决策下降12.11%，物体计数下降59.14%，全局恢复骤降80.02%。错误分析表明，单视图任务中因遮挡导致欠计数，多视图任务因跨视角身份混淆导致过计数。Chain-of-Thought提示几乎无收益（Δ=-0.16%），表明瓶颈在于跨视角空间表示而非推理策略。

论文 TriViewBench MLLMs 多模态视觉推理基准测试

推荐理由：这篇论文用TriViewBench测了18个多模态模型，发现它们都在多视图推理上崩得厉害，CoT也救不了。想了解当前MLLM的结构推理极限，可以看看。

原文

10:45

arXiv cs.LG@Akshay Paruchuri, Sanmi Koyejo, Ehsan Adeli

精选

论文提出Facet-Probe审计框架，从选项、证据块、文档排序、图像集、混合模态五个维度测试18个前沿和开源MLLM的排序敏感性。采用贝叶斯项目反应模型分离排序噪声与各维度偏差，发现所有模型均非排序不变，各维度平均翻转率在24%至50%之间。Gemini在温度0下的同序控制显示，验证单元中存在远超解码器噪声的排序超额。最优模型仍有13.4%的试次输出翻转，提示词级缓解措施无法泛化到视觉推理。

论文 Facet-Probe MLLM Gemini 多模态模型可靠性

推荐理由：这篇论文用Facet-Probe测试了18个主流多模态大模型，发现它们对输入顺序都很敏感，最好的模型也错13.4%，提醒我们模型可靠性还不是想象中那么好。

原文

09:40

arXiv: OpenAI@Nikolaos D. Tantaroudas, Ilias Karachalios, Andrew J. McCracken

论文介绍了Falco eleonorae，一个面向希腊小岛农民的双语（希腊语主、英语次）对话式AI助手。系统利用OpenAI GPT-5家族模型进行回答生成，并通过MCP工具查询本地作物、季节性日历、方言词汇等结构化数据。它支持语音输入（使用欧盟流式语音转文字服务）和图像描述（由视觉模型处理），并设计为渐进式Web应用以适应低带宽环境。作者论证，对于资源受限的农村部署，这种托管式检索增强方案比自托管模型更可靠且更易实现。

论文 Falco eleonorae GPT-5 MCP/工具多模态 RAG

推荐理由：OpenAI的GPT-5给希腊农民做了个接地气的AI助手，能说方言、看图、查作物日历，比通用聊天更实用。

原文

08:42

lmarena.ai@lmarena_ai

精选72°

Wan-2.7 I2V在视频生成竞技场中取得第5名，得分1,434。该排名来自与顶级模型的一对一对决，由全球用户在其创作任务中投票选出。它超越了Grok Imagine Video（720p）和所有Google Veo-3.1变体。该模型支持文本、图像、音频和视频的多模态控制，以及最多5个参考输入的角色自定义。阿里通义万相团队还提供了视频编辑、克隆、重风格化等全栈工具。

AI模型 Wan-2.7 Alibaba Video Arena 视频生成多模态

推荐理由：阿里通义万相出了个新视频模型Wan-2.7，在Video Arena排第5，干掉了Grok和Veo，视频创作能力挺强，可以试试。

原文

01:25

elvis@omarsar0

精选

作者完全改用语音而非文字输入与AI代理交互，发现音频描述越详细、越长，代理结果越好。他还开发了屏幕录制、截图、追踪鼠标动作和语音注释功能，帮助代理处理设计和精确开发任务。多模态提示（语音+屏幕+动作）显著提升了代理的可靠性，尽管消耗更多token。作者将这些经验制作为可复用的命令集，插入循环后效果显著改善。

技巧智能体多模态提示词工程语音交互

推荐理由：有人分享用语音+屏幕录制和多模态提示跟AI代理唠嗑，提示越啰嗦结果越靠谱，还教你怎么录屏加注释，值得试试

原文

6月24日

19:12

orange.ai@oran_ge

Cola上线了Seed 2.1 Pro模型，这是一款原生多模态模型，官方声称是目前多模态最强。相比Seed 2.0版本，该模型在Coding和Agent能力上有所增强。用户可通过colaos.ai进行体验。

AI模型 Cola Seed 2.1 Pro 多模态智能体代码能力

推荐理由：Cola刚发了Seed 2.1 Pro，说是多模态最强，coding和agent比2.0强不少，想试试去colaos.ai就行。

原文

17:51

Decoder@Maximilian Schreiner

Mistral AI推出OCR 4模型，专门用于从PDF、Word和PowerPoint等文档中读取文本。公司称在盲测中，OCR 4在72%的案例中表现优于竞品。该模型专注于文档文本提取，与现有OCR方案相比有显著提升。

AI模型 Mistral OCR 4 文档处理多模态基准测试

推荐理由：Mistral新出的OCR 4在盲测里赢了七成多对手，专治PDF和PPT文字提取，文档党可以看看。

原文

09:45

09:45IT之家（博客/媒体）

71°

火山引擎发布豆包音频生成模型1.0（Doubao-Seed-Audio 1.0），首次支持将文本、音频等多模态输入端到端生成目标音频。该模型能在长时生成中保持多角色音色一致性，减少后期修音工作。单条Prompt可编排角色对白、情绪语气、背景音乐等，直接产出完整音频作品。火山方舟已开启API邀测，个人用户可体验30分钟创作额度。

AI模型豆包音频生成模型1.0 火山引擎音频生成多模态音色一致性

推荐理由：火山引擎新模型能一次编排对白、音效、配乐，还能保持10分钟的角色音色一致，省掉后期对轨修音，音频创作者值得一试。

原文

08:24

08:24SuperTechFans（博客/媒体）

精选

Mistral于2026年6月24日发布OCR 4模型，新增边界框、区块分类和置信度分数。该模型在内部盲评和公开基准测试中性能领先，支持170种语言，可自托管部署。

AI模型 Mistral OCR 4 多模态自托管模型发布

推荐理由：Mistral新出的OCR 4能自己部署，支持170种语言，还带边界框和置信度分数，识别效果领先，做文档处理很合适。

原文

06:52

Google AI Developers@googleaidevs

Google 发布 Gemini Interactions API，用一个端点统一处理文本、多模态输入（图片、音频、视频）、工具调用（Function Calling）和托管智能体。该 API 旨在降低开发复杂度，帮助开发者从提示词快速过渡到生产部署。开发者可在 Google AI Studio 中获取详细指南。

AI产品 Gemini Interactions API Google 多模态智能体

推荐理由：Google 把文本、多模态、工具和智能体塞进一个 API 里，少折腾接口，直接跑。

原文

6月23日

14:48

orange.ai@oran_ge

豆包音频生成模型 Seed Audio 1.0 发布，可根据想象生成人声、音乐、音效和环境音。与传统的 TTS（仅文本转语音）不同，它能捕捉声音中的微妙细节。这是首次将智能赋予声音的模型，类似图像领域的 Seedance 时刻。

AI产品豆包 Seed Audio 1.0 音频生成多模态声音模型

推荐理由：豆包发了 Seed Audio 1.0，不光能念稿，还能生成音乐和音效，像声音版的 DALL·E，值得听听。

原文

10:35

arXiv cs.LG@Talia Sternberg, Gallil Maimon, Yossi Adi

该论文分析了来自不同模型族和规模的交错语音文本语言模型，发现它们会在中间层隐式转录语音对应的文本词，其中77%的数据中该文本词出现在Top候选词中。随后模型在文本空间预测下一个词，再转回语音域。研究还表明，交错训练数据和文本LM初始化是诱发该行为的关键，且该行为与口语知识能力相关。

论文 Speech Language Models 交错训练语音模型多模态模型可解释性

推荐理由：这篇论文让你搞懂语音语言模型内部是怎么偷偷把语音转成文本再推理的，分析得很透彻，适合想深入理解多模态模型原理的人。

原文

10:06

10:06IT之家（博客/媒体）

字节跳动发布的豆包Seed 2.1系列包括Pro和Turbo两个版本，Pro面向高复杂度任务，Turbo面向大规模生产。该系列在Coding工程交付、Agent长链路任务执行和多模态理解三大方向实现升级。价格方面，Pro模型推理输入6元/百万tokens（缓存命中1.2元），推理输出30元/百万tokens；Turbo模型推理输入3元/百万tokens（缓存命中0.6元），推理输出15元/百万tokens。同时发布了每周至少更新一次版本的Seed-Evolving模型和面向泛娱乐的角色模型Character。

AI模型豆包Seed 2.1 字节跳动推理模型多模态智能体

推荐理由：字节新出的豆包Seed 2.1 Pro和Turbo，专门优化编程、智能体和多模态任务，Pro适合高难度场景，Turbo便宜且效率高，很适合接项目用。

原文

02:09

Philipp Schmid@_philschmid

精选

Google 推出 Interactions API，提供单一 API 接口调用 Gemini 模型和智能体。该 API 包含隔离的远程 Linux 沙箱环境，支持异步后台运行的 background=True 参数。已集成图像生成 Nano Banana、音乐生成 Lyria 3，并预告未来支持视频生成 Omni。同时具备多模态工具调用与组合能力，以及专用编码技能。开发者可通过该 API 构建人类与智能体交互的应用。

AI产品 Interactions API Gemini Google 智能体多模态

推荐理由：Google 上线了 Interactions API，一个 API 就能调用 Gemini 模型和智能体，还有沙箱、图像音乐生成，异步运行很简单。

原文

00:48

AWS Machine Learning Blog@Gilbert V Lepadatu

精选

AWS博客介绍了基于Amazon Bedrock和OpenSearch Serverless构建的可搜索航空影像系统架构。团队使用OpenStreetMap地面实况数据设计了四项实验，对比了嵌入模型、融合策略、字幕生成和搜索方法。其中Amazon Nova Multimodal Embeddings在基准查询中取得了最高的F1分数。该系统最终演变为Vexcel Intelligence产品，为地理空间语义搜索提供了实用指导。

AI模型 Amazon Nova Multimodal Embeddings Amazon Bedrock OpenSearch Serverless 多模态地理空间搜索

推荐理由：AWS用Amazon Nova做航空影像搜索，F1分数最高，想搞地理空间搜索的可以参考他们的实验设计。

原文

00:23

AK@_akhaliq

PerceptionDLM是一个新提出的多模态扩散语言模型，能够并行地感知图像中的多个区域。该模型结合了扩散模型的生成能力和语言模型的推理能力，支持多区域联合理解。它在一系列视觉定位和区域描述任务上展示了优越性能，但具体基准名称和数值未在原文中提及。

AI模型 PerceptionDLM 多模态扩散语言模型区域感知

推荐理由：这是一个新模型，能用多模态扩散语言模型同时理解图片里的多个区域，跟以前的单区域方法不一样。

原文

6月22日

21:30

21:30IT之家（博客/媒体）

生数科技的新一代视频生成大模型 Vidu Q3 上线华为云 MaaS，支持文生视频和图生视频一体化成片。该模型是全球首个“为剧而生”的视频大模型，可生成 16 秒 1080P 画质内容，并实现声画同出、多镜头叙事。Vidu Q3 推出两个版本：Turbo 极速版优化推理速度与成本，适合快速创意打样；Pro 专业版支持 4K 分辨率，面向广告大片等专业场景。模型还具备多国语言文字渲染及多语言输出功能，可用于漫剧、短剧和影视创作。

AI模型 Vidu Q3 华为云生数科技视频生成多模态

推荐理由：生数 Vidu Q3 上线华为云，能一键文/图生视频，支持 16 秒 1080P 和 4K，还有专为剧集设计的镜头叙事能力，做短视频或专业视频都合适。

原文

16:45

16:45IT之家（博客/媒体）

71°

京东发布并开源了实时视频视觉语言交互模型JoyAI-VL-Interaction，这是全球首个全栈开源的interaction模型和系统，获得vLLM-Omni的day-0原生支持。该模型能持续观察视频流，自主判断何时响应，而非被动等待用户提问。在58个真人盲评案例中，JoyAI-VL-Interaction对比豆包视频通话助手胜率77.6%，对比Gemini视频通话助手胜率87.9%。它支持摄像头、直播流、监控流等多种视频输入，并具备后台智能体委托能力。

AI模型 JoyAI-VL-Interaction 京东多模态智能体开源模型

推荐理由：京东开源了JoyAI-VL-Interaction，能实时看视频主动说话，安防、直播都能用，盲评胜率比豆包和Gemini高一大截。

原文

10:48

Pandaily@contact@pandaily.com (Pandaily)

ByteDance Seed与学术合作伙伴提出SpatialTree，这是一个分层框架，旨在重新定义多模态大模型（MLLM）对空间的理解与推理能力。该工作已被计算机视觉顶级会议CVPR 2026接收。SpatialTree通过层级结构显著提升MLLM在空间任务上的表现。

AI模型 SpatialTree ByteDance Seed CVPR 2026 多模态空间智能

推荐理由：字节跳动Seed搞了个SpatialTree框架，专门提升多模态模型的空间推理能力，还被CVPR 2026接受了，值得一看。

原文

6月21日

15:00

Geek@geekbb

Cowart 在 Codex 中集成了本地 tldraw 画布，用户放置 AI 占位框即可指定生成图片。还支持截图标注重绘：在画布上画标注后，Codex 能移除痕迹并生成干净新图。所有操作在本地运行，无需联网。

技巧 Codex Cowart tldraw 多模态提示词工程

推荐理由：想边画草图边让 AI 生图？这个本地画布工具让 Codex 直接改，标注去除功能特别好用。

原文

03:53

Browser Use@browser_use

GLM 5.2（纯文本模型）在网站设计任务中击败了 Fable 5。团队将 GLM 5.2 与 Browser Use v2 多模态 QA 子代理配对，让代理审查网站、发现 bug、判断美学，再向 GLM 发送修复指令。整个构建加质量保证的成本低于 0.75 美元。展示了纯文本模型通过智能协作在视觉任务上的潜力。

技巧 GLM 5.2 Browser Use v2 Fable 5 多模态智能体

推荐理由：GLM 5.2 纯文本模型竟然能设计网站，还打败了 Fable 5？搭配 Browser Use v2 多模态 QA 代理，成本不到 0.75 美元，太会玩了。

原文

6月20日

10:18

pandaily@contact@pandaily.com (Pandaily)

小米发布并开源了Miloco 2.0全屋AI系统，具备多模态感知能力，可识别用户行为和场景。该系统支持主动智能，能预测需求并执行持续任务，如自动调节灯光温度。Miloco 2.0拥有家庭记忆功能，可记住家庭成员的偏好和习惯。该系统被比作钢铁侠的JARVIS管家，面向中国家庭提供个性化服务。

AI模型小米 Miloco 2.0 智能家居多模态开源模型

推荐理由：小米开源了Miloco 2.0，一个像JARVIS一样有记忆能主动帮忙的智能家居AI，多模态和家庭记忆功能很实用。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？