全部 AI 动态 · AI 热点

6月18日

02:45

Microsoft Research@MSFTResearch

精选

ResNet在CVPR 2026上获得Longuet-Higgins奖，表彰其持久影响力。该论文发表十年，残差连接已成为现代AI系统的基础组件。其引用量超过32万次，并在持续增长。残差连接解决了深层网络退化问题，推动了计算机视觉和整个深度学习领域的发展。

AI模型 ResNet CVPR Longuet-Higgins Prize 残差连接计算机视觉

推荐理由：ResNet的残差思想直到今天还在被所有大模型使用，32万引用不是白来的，这个奖实至名归。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月6日

07:51

NVIDIA AI@NVIDIAAI

72°

NVIDIA Research 的 PixelDiT（像素扩散 Transformer）入选 CVPR2026 最佳论文候选。传统图像生成模型依赖预训练自编码器压缩图像后再进行扩散，导致质量损失累积。PixelDiT 完全移除这一步骤，直接在像素空间进行端到端扩散学习，是一种单阶段模型。该方法避免了压缩带来的信息丢失，有望提升生成图像的保真度和细节表现。这一创新为图像生成领域提供了新的技术路径。

论文图像生成扩散模型 PixelDiT NVIDIA CVPR

推荐理由：NVIDIA 的 PixelDiT 解决了传统扩散模型因预训练编码器压缩导致的质量损失问题，做图像生成的研究者和开发者值得关注——它可能改变现有生成流程的底层设计。

原文

03:28

Jim Fan@jimfan

NVIDIA 研究团队在 CVPR 2026 上展示了三篇关于物理 AI 的论文，分别针对零样本抓取、高效推理和具身智能体训练。GraspGen-X 是首个零样本抓取基础模型，基于数十亿次模拟抓取训练；LCDrive 用紧凑的潜在表示替代昂贵的文本推理；NitroGen 则是一个通用游戏 AI 基础模型，利用 NVIDIA Isaac GR00T 训练具身智能体。这些工作为大规模训练提供了突破性方案，覆盖了机器人操作、自动驾驶和游戏 AI 等关键领域。

论文物理 AI 零样本抓取具身智能体 NVIDIA CVPR

推荐理由：做机器人抓取、自动驾驶或游戏 AI 的开发者，这三篇论文直接给出了可规模化训练的新思路——零样本抓取和紧凑推理方案值得重点关注。

原文

02:46

Jim Fan@jimfan

NitroGen 项目在 CVPR 2025 上获得最佳论文荣誉提名，标志着通用具身智能体研究的重要进展。该工作旨在让智能体不仅掌握真实世界物理，还能适应多宇宙模拟中的各种物理规则。这是该团队继 MineDojo（在 Minecraft 中的首个具身智能体）获得 NeurIPS 最佳论文奖四年后的又一里程碑。NitroGen 的突破意味着具身智能体正从单一环境向跨领域泛化迈进。

论文具身智能 CVPR 最佳论文 NitroGen 通用智能体

推荐理由：做具身智能和仿真研究的团队值得关注——NitroGen 解决了智能体跨物理规则泛化的核心难题，看完会理解通用智能体的下一个突破口在哪。

原文

6月5日

23:33

Meta AI@AIatMeta

精选

Meta 的 SAM 3D 研究团队在 CVPR 2026 上获得 Best Paper Honorable Mention。该工作扩展了 SAM 模型到 3D 领域，推动计算机视觉边界。论文全文已在 arxiv 上公开（2511.16624）。

论文 SAM 3D Meta CVPR 最佳论文

推荐理由：Meta 的 SAM 3D 拿下 CVPR 2026 最佳论文提名

原文

00:51

Jerry Liu@jerryjliu0

LlamaIndex 团队在 CVPR 2026 上发布了 ParseBench，这是一个针对视觉语言模型（VLM）的文档理解基准测试。该基准包含 2000 页真实企业文档，评估模型在表格、图表、视觉定位、语义格式和内容忠实度等方面的能力。核心目标是衡量模型是否能正确语义理解文档，而不只是过拟合基准。团队指出，当前前沿模型多针对编程、数学和科学推理优化，缺乏精确的视觉理解能力，ParseBench 旨在推动这一领域的进步。相关论文和网站已公开。

论文 ParseBench 文档理解基准测试 VLM CVPR

推荐理由：做文档解析或 RAG 系统的开发者终于有了一个贴近真实业务场景的评估工具——ParseBench 用 2000 页企业文档测试 VLM 的语义理解能力，比现有基准更贴近实际需求，值得关注并尝试。

原文

5月13日

09:11

Runway ML@runwayml

Runway 宣布将于6月4日在丹佛举办年度 CVPR 朋友晚宴，邀请与会者参与交流、享用鸡尾酒和小食。该活动是计算机视觉与模式识别会议（CVPR）的周边社交活动，旨在促进 AI 领域从业者的互动。RSVP 链接已开放，感兴趣者可报名参加。

行业 Runway CVPR 行业活动

推荐理由：Runway 在 CVPR 期间举办社交活动，为 AI 视觉领域从业者提供交流机会。

原文