全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月2日

12:04

12:04

arXiv cs.AI@Hilton Raj, Vishnuram AV

MASER 提出了一种轻量级框架，解决现有视觉语言模型（VLM）在3D环境中仅针对单一模态微调、忽略问题语义可能更适合其他模态的问题。该框架在共享VLM骨干上训练五个不同模态适配器（自然语言、RGB图像、点云、深度图、相机姿态），并通过神经路由策略在推理时根据问题选择最优适配器。在Open3D-VQA基准测试中，点云模态在51.5%情况下最优，MASER的路由准确率达到51.3%的oracle一致性，优于随机森林的43.5%，且每次推理仅需一次适配器调用。这项工作为具身智能体在3D空间中的多模态推理提供了高效解决方案。

论文具身智能 3D空间智能多模态路由视觉语言模型 Open3D-VQA

推荐理由：做具身智能或3D视觉问答的团队，终于有了一个不用暴力融合所有模态的轻量方案——MASER根据问题语义动态选最优模态，点云在超半数场景下最准，值得在Open3D-VQA上试试。