20:29AlphaSignal@AlphaSignalAI精选MPMWorlds是一个包含95,000个2D仿真视频的基准,覆盖液体、雪、沙子和弹性体。模型观看2.5秒场景后预测后续运动。代码生成方法能保持长期物理稳定性,但无法从帧中读取位置,隐藏坐标后精度骤降。扩散模型可捕获短期几何,但物体随时间消失、运动不真实。混合两种方法的简单门控机制超越单一模型。论文MPMWorlds物理模拟代码生成扩散模型视频理解推荐理由:这篇论文用MPMWorlds测试了AI看视频写物理代码的能力,发现代码生成稳但缺位置感知,扩散模型短时准但长期漂移,混合模型效果最好。原文
10:21Qdrant@qdrant_engineTwelve Labs 的 James Le 将在 Vector Space Day 上展示如何正确构建多模态检索,从体育和音频的语义搜索到处理目标跟踪和高光生成的智能体工作流。视频是信息密度最高的模态,但大多数检索管道仍将其视为带图片的文本。该演讲将展示向量搜索的前沿方向,适合对多模态检索和智能体工作流感兴趣的开发者。AI产品多模态检索向量搜索视频理解智能体Twelve Labs推荐理由:多模态检索是当前向量搜索的关键突破点,做视频理解、智能体或搜索系统的团队值得关注这场演讲,看看 Twelve Labs 如何将视频从“带图片的文本”变成真正的语义搜索对象。原文
18:24berryxia@berryxia精选76°KwaiKeye 在 Hugging Face 开源了多模态模型 Keye VL 2.0-30B-A3B,总参数 30B 但活跃参数仅 3B,采用 Apache 2.0 协议。模型通过 DeepSeek 稀疏注意力实现 256K 上下文,视频理解能力随输入帧数增加而准确率上升,打破长视频导致模型迷失的直觉。在多个长视频基准上,其表现与 Qwen3 VL 和 Gemini 3 Flash 相当。该模型证明了稀疏注意力可同时兼顾长上下文和深度理解,是多模态领域的重要进展。AI模型多模态模型稀疏注意力开源/仓库视频理解KwaiKeye推荐理由:做视频理解或多模态应用的开发者,终于有了一个长上下文和深度理解兼得的开源模型,建议直接去 Hugging Face 下载试试。原文
17:38Philipp Schmid@_philschmid精选谷歌Gemini 3.5 Flash在视频理解、图像和音频等多模态任务中表现优异,但目前关注度不高。作者Phil Schmid认为该模型的能力被严重低估。该模型支持多种输入模态,适合复杂的多模态推理场景。AI模型Gemini 3.5 Flash视频理解多模态推荐理由:谷歌的Gemini 3.5 Flash多模态能力被严重低估了原文
08:00小互@imxiaohu一条推文将 Gemini Omni 形容为“视频版的香蕉”,暗示其具备强大的视频编辑与理解能力。作者认为它远不止视频编辑,而是世界模型的雏形,代表了通用 AGI 的初始形态。该推文引发了对 Gemini Omni 潜力的讨论,认为它可能推动 AI 从语言模型向多模态世界理解迈进。AI产品Gemini Omni世界模型AGI多模态视频理解推荐理由:如果你关注多模态 AI 和 AGI 进展,这条推文点出了 Gemini Omni 可能超越视频编辑、成为世界模型雏形的关键判断,值得一看。原文
01:10AK@_akhaliqEgoMemReason 是一个新的基准测试,专门用于评估 AI 在长时间自我中心视频理解中的记忆驱动推理能力。该基准要求模型在观看长视频后,基于记忆回答关于事件顺序、因果关系和细节的问题。它填补了现有视频理解基准在长期记忆和推理方面的空白,对开发更智能的视觉助手和机器人有重要意义。论文基准测试视频理解记忆推理自我中心视频长期推理推荐理由:做视频理解或具身智能的团队终于有了一个专门测试长期记忆推理的基准——EgoMemReason 直击当前模型在长视频中“看完就忘”的痛点,做相关研究的建议直接拿来评估自己的模型。原文