11:00
11:00
arXiv cs.AI@Yi Zhang, Yinda Chen, Che Liu, Zeyuan Ding, Jin Xu, Shilong Zou, Junwei Liao, Jiayu Hu, Xiancong Ren, Xiaopeng Zhang, Yechi Liu, Haoyuan Shi, Zecong Tang, Haosong Sun, Renwen Cui, Kuishu Wu, Wenhai Liu, Yang Xu, Yingji Zhang, Yidong Wang, Senkang Hu, Jinpeng Lu, Nga Teng Chan, Yechen Wu, Yong Dai, Jian Tang, Xiaozhu Ju Pelican-Unified 1.0 是首个按照统一原则训练的具身基础模型,将场景理解、指令推理、未来想象和动作执行整合到单一模型中。它使用一个视觉语言模型(VLM)作为统一的理解和推理模块,并通过统一未来生成器(UFG)同时生成未来视频和动作。实验表明,统一并未牺牲性能:在八个VLM基准上平均得分64.7,在WorldArena上排名第一(66.03),在RoboTwin上达到93.5(动作方法中第二好)。该工作展示了统一范式在保持专家级性能的同时,将多种能力融合到一个模型中的可行性。
推荐理由:具身智能研究者终于有了一个统一框架——Pelican-Unified 1.0 用一个模型搞定理解、推理、想象和行动,不再需要拼凑三个独立系统。做机器人、仿真或多模态模型的团队值得关注,它证明了统一不意味着妥协。
10:53
10:53
arXiv cs.AI@Kaixin Zhu, Yiwen Tang, Yifan Yang, Renrui Zhang, Bohan Zeng, Ziyu Guo, Ruichuan An, Zhou Liu, Qizhi Chen, Delin Qu, Jaehong Yoon, Wentao Zhang VGGT-Edit 是一种前馈式框架,用于文本驱动的原生3D场景编辑,解决了现有2D提升方法导致的纹理模糊和几何不一致问题。它通过深度同步文本注入对齐语义与空间姿态,并利用残差变换头直接预测3D几何位移,实现场景变形同时保持背景稳定。研究团队还构建了 DeltaScene 数据集,通过自动管道和3D一致性过滤确保高质量真值。实验表明,VGGT-Edit 在物体细节锐度、多视角一致性和推理速度上显著优于2D提升基线,支持近即时推理。
推荐理由:做3D场景编辑或交互式应用的开发者,VGGT-Edit 直接预测3D位移而非逐帧2D编辑,解决了多视角不一致的痛点,值得一试。
10:02
10:02
arXiv cs.AI@Shaoan Zhao, Huanlin Gao, Qiang Hui, Ting Lu, Xueqiang Guo, Yantao Li, Xinpei Su, Fuyuan Shi, Chao Tan, Fang Zhao, Kai Wang, Shiguo Lian MediaClaw 是一个基于 OpenClaw 生态构建的多模态智能体平台,旨在解决 AIGC 落地中的碎片化能力、异构接口、生产流程割裂和高质量工作流复用难等痛点。其核心采用三层架构:统一抽象层将全品类 AIGC 能力抽象为统一调用模型,插件化扩展层支持热插拔能力扩展,工作流编排层通过面向任务的 Skills 将复杂生产过程转化为可复用资产。该技术报告重点阐述了 MediaClaw 的架构设计理念、核心能力模型的设计逻辑以及实现中的关键工程权衡,为构建多模态能力平台提供了可复用的实践参考。
推荐理由:做多模态 AI 应用或 AIGC 平台架构的团队,可以直接参考 MediaClaw 的三层抽象和插件化设计,解决能力碎片化和工作流复用难题,建议点开看看工程权衡细节。
仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。