全部 AI 动态 · AI 热点

6月21日

03:53

Browser Use@browser_use

GLM 5.2（纯文本模型）在网站设计任务中击败了 Fable 5。团队将 GLM 5.2 与 Browser Use v2 多模态 QA 子代理配对，让代理审查网站、发现 bug、判断美学，再向 GLM 发送修复指令。整个构建加质量保证的成本低于 0.75 美元。展示了纯文本模型通过智能协作在视觉任务上的潜力。

技巧 GLM 5.2 Browser Use v2 Fable 5 多模态智能体

推荐理由：GLM 5.2 纯文本模型竟然能设计网站，还打败了 Fable 5？搭配 Browser Use v2 多模态 QA 代理，成本不到 0.75 美元，太会玩了。

原文

6月20日

10:18

pandaily@contact@pandaily.com (Pandaily)

小米发布并开源了Miloco 2.0全屋AI系统，具备多模态感知能力，可识别用户行为和场景。该系统支持主动智能，能预测需求并执行持续任务，如自动调节灯光温度。Miloco 2.0拥有家庭记忆功能，可记住家庭成员的偏好和习惯。该系统被比作钢铁侠的JARVIS管家，面向中国家庭提供个性化服务。

AI模型小米 Miloco 2.0 智能家居多模态开源模型

推荐理由：小米开源了Miloco 2.0，一个像JARVIS一样有记忆能主动帮忙的智能家居AI，多模态和家庭记忆功能很实用。

原文

07:27

07:27IT之家（博客/媒体）

苹果将于今秋推送visionOS 27，M5版Vision Pro独占Siri语音定制功能，用户可调整语气的表现力和语速。M5版还独占AFM 3 Core Advanced模型，该模型支持原生多模态能力并采用稀疏架构，可在本地执行更复杂的AI任务。M2版Vision Pro仍可享受visionOS 27的大部分升级，包括全景照片转空间场景、重新设计的控制中心以及更智能的自然语言理解。苹果未来计划通过云端计算为M2设备提供部分AI功能折中方案，但细节未公布。

AI产品 visionOS 27 M5 Vision Pro Siri AFM 3 Core Advanced 多模态

推荐理由：苹果给M5 Vision Pro加了本地AI模型和自定义Siri语音，其他头显暂时没有，等正式版可以试试效果。

原文

03:05

Together AI@togethercompute

精选

MiniMax-M3 模型支持智能体携带长历史（超过百万token）、图像、视频、文档和工具输出进入上下文，显著提升多模态信息处理能力。Together 的推理优化通过改进服务路径上的 token 吞吐量，使这一能力在大规模部署时更实用。相比之前方案，每 GPU 可处理更多 token，从而降低每美元自动化工作成本。

AI模型 MiniMax-M3 Together 智能体多模态推理优化

推荐理由：MiniMax-M3 让智能体一口气带进长历史、图、视频、文档和工具输出，Together 优化后每 GPU token 翻倍，自动任务成本更低。

原文

03:05

Together AI@togethercompute

88°

OpenAI 的 GPT Image 2 模型现已在 Together AI 的 Serverless Inference 服务中上线。开发者可通过该接口将图像生成与编辑功能集成到多模态应用中。模型支持精准布局控制、可读文本生成以及参考图像引导生成。Together AI 提供无服务器推理能力，无需管理基础设施即可调用。

AI模型 GPT Image 2 OpenAI Together AI 图像生成多模态

推荐理由：OpenAI 的新图像模型 GPT Image 2 现在能用 Together AI 的无服务器接口调用了，做多模态应用时直接用它生成和编辑图片，支持布局和文字控制，挺方便。

原文

6月19日

11:47

arXiv cs.LG@Wenhao Chi, Arkaprava Sinha, Dominick Reilly, Hieu Le, Srijan Das

UNIEGO提出分层多教师蒸馏框架，使用9个教师（覆盖自我/他人视角、RGB/深度/骨架模态和4个基础模型）来训练统一编码器。为解决异构教师的不兼容架构和特征几何冲突，框架引入代理模型将不同教师知识翻译到同质化的自我中心空间。第二阶段选择性代理蒸馏（SPD）为每个样本自适应选择正确且自信的代理子集，抑制错误信号。UNIEGO在三个自我中心视频基准（动作识别、视频检索、动作分割）上达到最先进性能。

AI模型 UNIEGO 自我中心视频知识蒸馏表示学习多模态

推荐理由：想用多视角多模态数据训练视频理解模型？UNIEGO用代理模型搞定异构教师蒸馏，在三个任务上刷新了纪录。

原文

11:36

arXiv cs.AI@Solène Debuysère, Nicolas Trouvé, Nathan Letheule, Elise Colin, Georgia Channing

SARLO-80是一个基于Umbra卫星VHR SAR SLC数据构建的SAR-光学-文本对齐数据集，包含约2500个全球场景，覆盖72个国家257个地点。所有SAR数据被标准化为80cm斜距网格，并切分为1024×1024像素图块，与对应的高分辨率光学图像精确对齐。数据集提供119,566个三元组（幅度/复数SAR图块、对齐光学图块、三种长度的自然语言描述），支持跨模态检索和条件生成等基准测试。完整代码和划分已开源在Hugging Face Hub。

论文 SARLO-80 Umbra SAR 多模态数据集

推荐理由：想做SAR与光学图像对齐研究？这个数据集用Umbra的VHR数据做了精细对齐，还带文本描述，直接拿去做多模态训练或评测。

原文

10:25

腾讯混元 Tencent Hunyuan@TencentCloud

腾讯推出了Tencent Design Miora智能体创意工作室，面向设计师和内容创作者。该工具能根据简短指令自动规划并交付图像、视频、UI/UX、3D等完整创意资产。Miora具有记忆功能，能学习用户创作风格和项目上下文。内置了品牌系统、故事板、插画、UI/UX、视频、3D等多个专业AI专家，无需切换工具。用户可将已验证的工作流程保存为可复用的技能。

AI产品 Tencent Design Miora Tencent Cloud 智能体多模态 AI设计

推荐理由：腾讯出了个能记住你风格的AI设计工作台，图像视频UI/UX都能在一个画布搞定，内置多个专业AI助手。

原文

10:23

10:23IT之家（博客/媒体）

谷歌与艺术家Refik Anadol合作的全球首个AI艺术博物馆Dataland将于6月20日在洛杉矶开馆，面积约2500平方米。开幕展“Machine Dreams: Rainforest”由Large Nature Model驱动，该模型基于自然世界数据集训练。博物馆使用Google Cloud工具（包括Gemini Enterprise Agent Platform和Compute Engine）协调GANs、扩散模型和Gemini，将数据转化为12亿像素的超现实画面。系统可生成动态声景、实时情绪感应并通过算法增强气味，运行使用87%无碳可再生能源。

行业谷歌 Dataland Refik Anadol 多模态 AI艺术

推荐理由：谷歌和艺术家在洛杉矶开了个AI艺术博物馆，进去能看到12亿像素的实时画面，还能感应你的情绪释放气味，挺新鲜的。

原文

10:10

arXiv cs.AI@Bo Yin, Xiaobin Hu, Chengming Xu, Ruolin Shen, Mo Yang, Jiangning Zhang, Peng-Tao Jiang, Cheng Tan, Shuicheng YAN

SPOT-E方法针对视觉语言模型在处理证据密集型任务时因小区域视觉证据被忽略导致的读取失败问题。该方法利用答案跨度预测熵作为模型内部反馈，通过低熵锚点和熵整形目标消除歧义，避免模型陷入捷径塌缩。SPOT-E基于GRPO进行每实例轻量级调优，生成问题条件化的聚光灯。在多个VLM族和基准测试中，SPOT-E一致提升了性能并增强了视觉损坏鲁棒性。代码已开源。

论文 SPOT-E VLM GRPO 多模态测试时优化

推荐理由：SPOT-E这个新方法挺有意思，它不重训模型，只在推理时搞了个视觉聚光灯和熵整形，就让VLM在那些需要细看局部证据的任务上表现好多了。尤其用GRPO调优，效果提升还挺稳定。

原文

06:40

Stanford AI Lab@StanfordAILab

精选

斯坦福AI实验室发布M*运行时，用于统一服务多模态模型。相比专业系统，M*在omni TTS任务上提速2.7倍，在world-model rollouts任务上提速12.5倍。它匹配或超越所有专门系统的性能。

AI产品 M*斯坦福多模态运行时

推荐理由：斯坦福新发的M*运行时，一个系统就能搞定各种多模态模型，速度比专业方案快2到12倍，值得做部署的看看。

原文

6月18日

15:52

15:52IT之家（博客/媒体）

DeepSeek 识图模式已在网页和 App 端正式上线，App 端标注“图片理解功能内测中”，网页端无此提示。该模式与快速模式、专家模式并列，支持用户上传图片让 DeepSeek 解读。其能力不仅是文字提取，还能理解图像内容。背后的多模态模型技术已于今年 4 月公开，核心框架名为“Thinking with Visual Primitives”。

AI产品 DeepSeek 识图模式多模态视觉理解 Thinking with Visual Primitives

推荐理由：DeepSeek 现在能识图了，App 和网页都能用，不只是 OCR，还能理解画面，背后有专门的多模态技术。

原文

12:35

12:35IT之家（博客/媒体）

73°

阿里与人大联合开源 LOGOS，这是一个基于统一“科学语法”的多领域科学生成基础模型。LOGOS-1B 仅用 1B 参数量，在多项科学任务上超越参数为 8×7B 的微软 NatureLM。模型预训练语料涵盖蛋白质（28.9B tokens）、抗体（3.0B tokens）、小分子（2.1B tokens）等 7 类模态共 44.87B tokens。它通过共享词表将异构对象编码为离散 token，无需 3D 坐标即可理解 3D 空间互作规律。LOGOS 已开源模型权重、推理代码与技术报告。

AI模型 LOGOS NatureLM 开源模型科学大模型多模态

推荐理由：阿里开源的 LOGOS 模型，用 1/56 参数就碾压了微软 NatureLM，还统一了蛋白质、小分子等科学对象的语言，搞科研的可以看看源码和论文，开箱即用。

原文

10:57

arXiv cs.LG@Nikita Kachaev, Andrey Moskalenko, Matvey Skripkin, Nikita Kurlaev, Daria Pugacheva, Albina Burlova, Mikhail Kolosov, Denis Shepelev, Andrey Kuznetsov, Elena Tutubalina, Aleksandr I. Panov, Alexey K. Kovalev, Vlad Shakhuro

论文提出 Act2Answer 协议，通过让智能体在桌面场景中执行物体放置动作来选择答案，从而在动作层面评估 7 个 VLA 模型和 9 个 VLM 基线在常识与知识任务上的表现。研究发现，VLA 在简单概念上表现扎实，但在丰富语义类别上相比源 VLM 出现更大差距。实验还表明，VQA 联合训练有助于提升知识保留，而答案相关信息在 VLA 中层达到峰值，上层则衰减。

论文 VLA VLM Act2Answer 常识推理多模态

推荐理由：想知道微调后的机器人模型到底还记不记得常识？这篇论文用动作答题的方式测了7个VLA，发现简单概念还行，复杂知识掉得厉害。

原文

10:38

arXiv cs.LG@Hugo Miccinilli, Theo Di Piazza

ChronoSurv是一个基于有向图的框架，用于头颈癌患者的多模态生存预测。它将患者诊疗过程建模为按诊断步骤对齐的临床轨迹，并通过分层拓扑整合细粒度、粗粒度和全局表示。在两个公开数据集上，ChronoSurv实现了优于现有方法的判别性能，且校准误差达到统计显著水平。消融实验验证了各组件对整体性能的贡献。

论文 ChronoSurv 生存分析多模态头颈癌图神经网络

推荐理由：这篇论文把临床流程做成图结构来预测生存时间，比传统方法更准，适合做医疗AI的朋友看看。

原文

10:34

arXiv cs.LG@Sihan Wang, Xiyao Liu, Lianqing Liu, Zhi Han

ViGOS是一种针对多模态大语言模型(MLLM)的后训练框架，采用解耦感知与推理的自蒸馏方法(OPSD)。学生模型先生成视觉描述，再基于此进行推理，避免直接利用文本目标产生捷径。实验在通用视觉-语言、专家推理、视觉数学、空间定位和视觉-语言先验五类基准上验证，ViGOS在易出现捷径的场景中显著提升了图像依赖行为。

论文 ViGOS MLLM OPSD 多模态自蒸馏

推荐理由：这篇论文提出了ViGOS，专门解决多模态模型自蒸馏时只看文本不看图的毛病，在多个视觉语言基准上有效果。

原文

09:41

arXiv cs.AI@Jinhao Song, Shan Liang, Yiqun Yue, Zhuhuayang Zhang, Tianqi Gao

ThinkDeception首次将多模态大语言模型(MLLM)引入欺骗检测领域，将其从二分类任务转变为显式认知推理过程。研究团队构建了首个逐步多模态思维链(CoT)数据集，并基于此开发基础模型ThinkDeception Base。核心创新是提出Visual-Audio Consistency Group Relative Policy Optimization(VAC-GRPO)，采用渐进式训练将数据分为四个难度层级。在主流基准上，ThinkDeception在检测准确性和推理质量上达到新SOTA。

AI模型 ThinkDeception MLLM 多模态思维链(CoT)推理模型

推荐理由：这个框架用MLLM和思维链一步步拆解欺骗线索，比黑箱模型更能解释为什么判定说谎，准确率还最高。

原文

6月17日

10:17

arXiv cs.LG@Haoqi Yuan, Zhixuan Liang, Anzhe Chen, Ye Wang, Haoyang Li, Pei Lin, Yiyang Huang, Zixing Lei, Tong Zhang, Jiazhao Zhang, Jie Zhang, Jingyang Fan, Gengze Zhou, Qihang Peng, Chenxu Lv, Xiaoyue Chen, An Yang, Fei Huang, Junyang Lin, Dayiheng Liu, Jingren Zhou, Chenfei Wu, Xiong-Hui Chen

83°

Qwen-RobotManip是基于Qwen-VL构建的视觉-语言-动作基础模型。它引入统一对齐框架，覆盖表示、运动和操作行为三个维度，使多源训练数据协调一致。通过人工到机器人的合成流水线，利用15种平台的示教数据，构建了约38,100小时的预训练语料。模型在RoboCasa365、LIBERO-Plus、EBench等OOD基准上显著优于先前最佳模型π0.5，并在AgileX ALOHA、Franka、UR、ARX等真实机器人平台上验证。

AI模型 Qwen-RobotManip Qwen-VL 机器人基础模型多模态零样本迁移

推荐理由：阿里Qwen团队这个机器人模型用开源数据和人类演示就能学，跨平台零样本操作，还在多个测试里碾压了π0.5，做机器人开发的别错过。

原文

07:57

07:57IT之家（博客/媒体）

彭博社马克·古尔曼爆料，苹果带摄像头的AirPods将延迟到2027年发布。延迟原因是苹果在Apple智能/Siri AI方面面临开发挑战，同时需优化用于识别周围物体的视觉AI模型。该耳机左右均配备低分辨率摄像头，外观类似AirPods Pro 3。苹果还在探索通过摄像头提供基于视觉的提醒和逐向导航功能。

AI产品 AirPods 苹果摄像头 AI开发多模态

推荐理由：苹果因为AI研发挑战，把带摄像头的AirPods推迟到2027年了，想实现视觉导航的功能还得等。

原文

07:29

07:29IT之家（博客/媒体）

谷歌正式推送 Android 17 系统，并同步发布 Wear OS 7。新版安卓深度集成 AI 模型，包括音乐生成模型 Lyria 3、多模态大模型 Gemini Omni 以及基于 AudioLM 的语音翻译工具。Pixel 系列设备率先获得更新，Pixel 10a 搭载实时同声传译功能。系统新增同屏录摄、气泡任务栏、折叠屏游戏模式等实用功能。Wear OS 7 续航提升 10%，并新增紧急状况检测和 Gemini 智能功能。

AI产品 Android 17 Gemini Omni Lyria 3 Wear OS 7 多模态

推荐理由：谷歌刚推的Android 17，深度集成了AI，能用Lyria 3生成音乐、Gemini Omni剪视频、AudioLM实时翻译，Pixel 10a还有新功能，挺实用。

原文

06:28

AK@_akhaliq

Data Journalist Agent是一个能将结构化数据自动转化为多模态报道的智能体，输出包括图表、文本和视频。它内置事实核查机制，每一条数据均可追溯原始来源。这个智能体旨在提升数据新闻的生产效率和可信度。

AI模型 Data Journalist Agent 智能体多模态数据新闻事实核查

推荐理由：这个Data Journalist Agent能自动把数据做成带验证的图文视频报道，做数据新闻的不用手动整合多模态了

原文

06:04

NVIDIA AI@NVIDIAAI

73°

NVIDIA Research 推出 SpatialClaw，一个无需训练的智能体，通过编写 Python 代码作为动作接口。它在持久内核中动态组合感知模块，检查中间结果并跨步骤调整策略。感知输出作为普通变量，可结合 NumPy、SciPy 等库复用。SpatialClaw 在 20 个基准上平均比先前方法高 11.2 分，在 6 种不同模型骨干上表现稳定。

AI模型 SpatialClaw NVIDIA 智能体多模态视觉推理

推荐理由：SpatialClaw 不用额外训练，靠写代码搞定复杂视觉任务，在 20 个基准上平均提升 11.2 分，还兼容多种模型。

原文

00:59

AK@_akhaliq

JoyAI发布了JoyAI-VL-Interaction模型，这是一个实时视觉语言交互智能系统。该模型支持实时视觉理解与语言生成，能够处理视频帧序列并生成自然语言响应。目前尚未公布具体基准测试成绩或版本号。

AI模型 JoyAI-VL-Interaction JoyAI 多模态实时交互

推荐理由：JoyAI出了个能实时看懂画面并跟你聊天的模型，适合做交互式AI应用。

原文

6月16日

22:28

量子位@梦瑶

AI产品鸿蒙小艺华为智能体多模态 AI助手

推荐理由：华为小艺升级后能和朱广权说脱口秀，能主动调度应用、自进化，不是普通问答助手，值得试试。

原文

13:41

阿里云 Alibaba Cloud@alibaba_cloud

MiniMax 与阿里云 PolarDB 宣布合作探索 AI 原生数据库。PolarDB 为 MiniMax 提供多模态存储、秒级弹性扩容及智能冷热分层能力。该合作旨在应对海量数据与高并发挑战，提升业务敏捷性和用户体验。

行业 MiniMax Alibaba Cloud PolarDB AI原生数据库多模态

推荐理由：MiniMax 和阿里云联手了，用 PolarDB 搞定大规模数据，主打秒级弹性和冷热分层。

原文

12:38

12:38IT之家（博客/媒体）

72°

苹果 iOS 27 的 AI 版 Siri 上线延迟，项目负责人迈克·罗克韦尔透露，去年已有迭代版本但未达预期，最终决定从零重构。新版 Siri 基于底层大模型，支持多模态交互，覆盖 iPhone、iPad、Mac、Apple Watch、Vision Pro、CarPlay、AirPods 全平台，隐私保护贯穿架构。

AI产品 Apple Siri iOS 27 多模态隐私保护

推荐理由：苹果总算说了实话！Siri 迟到是因为推倒重来，现在能跨设备统一体验还支持多模态，比旧版强太多了。

原文

12:14

arXiv cs.LG@Yonghyun Kim, Junwon Lee, Haiwen Xia, Yinghao Ma, Junghyun Koo, Koichi Saito, Yuki Mitsufuji, Chris Donahue

TuneJury 是一个面向文本到音乐生成的开放实例级成对奖励模型，基于人类偏好标签（包括竞技场投票、指标对齐偏好、众包成对比较和专家美学评分）训练。它通过简单分数阈值支持数据过滤，在保留测试对和分布外基准上表现良好，并胜过先前的基线。该模型还引入锚定校准方法，以更高的数据效率恢复一致性，并在三种下游应用（推理时最优N采样、DITTO风格潜在优化和专家迭代后训练）中持续提升奖励轴收益。TuneJury 已在 GitHub 发布。

论文 TuneJury 音乐生成多模态偏好对齐奖励模型

推荐理由：如果你在搞音乐生成，想用人类偏好来对齐模型，这个开源的奖励模型 TuneJury 可以让你直接拿来用，还附带了三种应用示例，比重新训一个省事多了。

原文

10:48

arXiv: DeepSeek@Zewen Liu

论文发现，当AI智能体使用语言模型在反馈循环中自我评估时，会产生系统性偏好偏差。在多模态环境中，评估者偏好崩溃（EPC）被显著放大：用GPT-4o评估DeepSeek-chat时，单一策略step_by_step吸收48.4%权重，是纯文本自评估崩溃程度的3.2倍，而三个视觉域策略合计仅占9.1%。跨模态传染现象揭示：在一个模态获得的评估者偏好会转移到另一个模态并扭曲策略选择。四阶段隔离训练实验测量了传染系数，并发现跨模态暴露后最优策略发生反转。在53次独立重复、15,592次API调用统计中，跨模型评估产生强对称双向传染（均值γ_{T->V}=1.176, γ_{V->T}=1.089），而自评估（DeepSeek-chat）97%运行传染为零。

论文 GPT-4o DeepSeek-chat 多模态评估者偏好崩溃跨模态传染

推荐理由：这篇论文用GPT-4o和DeepSeek-chat做实验，发现AI自我评估时策略偏好会崩坏，还跨模态传染，数字很硬核，搞多模态和智能体的值得看。

原文

10:41

arXiv cs.LG@Miso Choi, Seonga Choi, Mincheol Kwon, Woosung Joung, Jinkyu Kim, Jungbeom Lee

论文发现，在Vicuna、Qwen2.5、LLaMA2和Mistral等模型家族中，上下文的真实性评分（Truth Scores）在指令微调或多模态适配后高度保留，与其注意头权重继承一致。作者提出TruthProbe软门控策略，通过放大上下文真实头而保留其他头贡献，在HaluEval上提升上下文真实性，并在POPE和CHAIR上减少多模态幻觉。基础LLM的真实头评分有效传递给微调后的LLM和多模态LLM后代。代码已开源。

论文 TruthProbe Vicuna Qwen2.5 多模态幻觉

推荐理由：这篇论文挺有意思，发现模型家族里真实头会继承，搞了个TruthProbe来减少幻觉，效果不错，适合研究模型可解释性和幻觉问题的人看。

原文

09:47

arXiv cs.LG@Hangling Xie

该论文提出MAF（多模态自适应少样本提示）框架，用于提升多模态大语言模型在情感分析任务中的表现。MAF动态检索与查询相关的演示样本，通过编码面部表情、场景上下文和文本语义，并引入唇动幅度检测机制在多人场景中准确识别说话人。一个轻量级系数生成网络被训练用于实时输出查询条件化融合权重，加权聚合多模态相似度以选取Top-K信息量最大的示例。在多个公开基准数据集上，MAF相比骨干模型取得显著且一致的性能提升，并与强基线方法保持竞争力。

论文 MAF MLLM 情感分析少样本提示多模态

推荐理由：这篇论文提出MAF，能根据输入动态挑选示例来引导MLLM做情感分析，在多个数据集上效果提升明显，比固定提示强很多。

原文

09:45

arXiv cs.AI@Yaoting Huang, Yifu Yuan, Linqi Han, Chengwen Li, Shuoheng Zhang, Xianze Yao, Hongyao Tang, Yan Zheng, Jianye Hao

RoboPIN提出PinCoT（固定思维链）方法，将每个推理步骤绑定到视觉锚点，每个锚点包含实体名称、唯一标识、视图索引和空间定位。基于4B参数的小模型，在14个基准测试（涵盖空间推理、多视图推理和指向任务）中，平均超越7B开源模型Mimo-Embodied达12%。该方法通过三阶段后训练注入具身知识和过程监督，显著提升定位精度和跨步骤实体一致性。

论文 RoboPIN PinCoT 具身推理推理模型多模态

推荐理由：这篇论文用4B小模型在具身推理上打败了7B的Mimo-Embodied，平均提高12%，靠的是把每一步推理都牢牢钉在视觉证据上，挺有意思。

原文

09:44

arXiv cs.AI@Maonan Wang, Zhengyan Huang, Kemou Jiang, Yuhang Fu, Jiayue Zhu, Yuxin Cai, Xingchen Zou, Qiaosheng Zhang, Yi Yu, Ding Wang, Xi Chen, Ben M. Chen, Yuxuan Liang, Zhiyong Cui, Man On Pun, Yirong Chen

OmniTraffic是一个基于12个真实十字路口重建3D环境的可控生成管道，可编辑车道拓扑、信号相位等参数。它产出800万VQA样本和3000个人工验证的测试集，覆盖场景感知、多视角推理和决策支持三个层级。评估11个前沿MLLM显示人类与模型间存在显著差距，尤其在拓扑和时空推理任务上。基于OmniTraffic模拟数据微调轻量级MLLM后，在真实场景中性能得到提升。

论文 OmniTraffic 交通推理 MLLM 多模态 3D重建

推荐理由：想研究交通场景的多模态推理？OmniTraffic提供了大规模可控数据集和基准，还能用模拟数据微调小模型提升真实表现，很实用。

原文

09:37