02:45Microsoft Research@MSFTResearch精选ResNet在CVPR 2026上获得Longuet-Higgins奖,表彰其持久影响力。该论文发表十年,残差连接已成为现代AI系统的基础组件。其引用量超过32万次,并在持续增长。残差连接解决了深层网络退化问题,推动了计算机视觉和整个深度学习领域的发展。AI模型ResNetCVPRLonguet-Higgins Prize残差连接计算机视觉推荐理由:ResNet的残差思想直到今天还在被所有大模型使用,32万引用不是白来的,这个奖实至名归。原文
07:51NVIDIA AI@NVIDIAAI72°NVIDIA Research 的 PixelDiT(像素扩散 Transformer)入选 CVPR2026 最佳论文候选。传统图像生成模型依赖预训练自编码器压缩图像后再进行扩散,导致质量损失累积。PixelDiT 完全移除这一步骤,直接在像素空间进行端到端扩散学习,是一种单阶段模型。该方法避免了压缩带来的信息丢失,有望提升生成图像的保真度和细节表现。这一创新为图像生成领域提供了新的技术路径。论文图像生成扩散模型PixelDiTNVIDIACVPR5 个信源在谈推荐理由:NVIDIA 的 PixelDiT 解决了传统扩散模型因预训练编码器压缩导致的质量损失问题,做图像生成的研究者和开发者值得关注——它可能改变现有生成流程的底层设计。原文
03:28Jim Fan@jimfanNVIDIA 研究团队在 CVPR 2026 上展示了三篇关于物理 AI 的论文,分别针对零样本抓取、高效推理和具身智能体训练。GraspGen-X 是首个零样本抓取基础模型,基于数十亿次模拟抓取训练;LCDrive 用紧凑的潜在表示替代昂贵的文本推理;NitroGen 则是一个通用游戏 AI 基础模型,利用 NVIDIA Isaac GR00T 训练具身智能体。这些工作为大规模训练提供了突破性方案,覆盖了机器人操作、自动驾驶和游戏 AI 等关键领域。论文物理 AI零样本抓取具身智能体NVIDIACVPR4 个信源在谈推荐理由:做机器人抓取、自动驾驶或游戏 AI 的开发者,这三篇论文直接给出了可规模化训练的新思路——零样本抓取和紧凑推理方案值得重点关注。原文
02:46Jim Fan@jimfanNitroGen 项目在 CVPR 2025 上获得最佳论文荣誉提名,标志着通用具身智能体研究的重要进展。该工作旨在让智能体不仅掌握真实世界物理,还能适应多宇宙模拟中的各种物理规则。这是该团队继 MineDojo(在 Minecraft 中的首个具身智能体)获得 NeurIPS 最佳论文奖四年后的又一里程碑。NitroGen 的突破意味着具身智能体正从单一环境向跨领域泛化迈进。论文具身智能CVPR最佳论文NitroGen通用智能体推荐理由:做具身智能和仿真研究的团队值得关注——NitroGen 解决了智能体跨物理规则泛化的核心难题,看完会理解通用智能体的下一个突破口在哪。原文
23:33Meta AI@AIatMeta精选Meta 的 SAM 3D 研究团队在 CVPR 2026 上获得 Best Paper Honorable Mention。该工作扩展了 SAM 模型到 3D 领域,推动计算机视觉边界。论文全文已在 arxiv 上公开(2511.16624)。论文SAM3DMetaCVPR最佳论文推荐理由:Meta 的 SAM 3D 拿下 CVPR 2026 最佳论文提名原文
00:51Jerry Liu@jerryjliu0LlamaIndex 团队在 CVPR 2026 上发布了 ParseBench,这是一个针对视觉语言模型(VLM)的文档理解基准测试。该基准包含 2000 页真实企业文档,评估模型在表格、图表、视觉定位、语义格式和内容忠实度等方面的能力。核心目标是衡量模型是否能正确语义理解文档,而不只是过拟合基准。团队指出,当前前沿模型多针对编程、数学和科学推理优化,缺乏精确的视觉理解能力,ParseBench 旨在推动这一领域的进步。相关论文和网站已公开。论文ParseBench文档理解基准测试VLMCVPR推荐理由:做文档解析或 RAG 系统的开发者终于有了一个贴近真实业务场景的评估工具——ParseBench 用 2000 页企业文档测试 VLM 的语义理解能力,比现有基准更贴近实际需求,值得关注并尝试。原文
09:11Runway ML@runwaymlRunway 宣布将于6月4日在丹佛举办年度 CVPR 朋友晚宴,邀请与会者参与交流、享用鸡尾酒和小食。该活动是计算机视觉与模式识别会议(CVPR)的周边社交活动,旨在促进 AI 领域从业者的互动。RSVP 链接已开放,感兴趣者可报名参加。行业RunwayCVPR行业活动推荐理由:Runway 在 CVPR 期间举办社交活动,为 AI 视觉领域从业者提供交流机会。原文