全部 AI 动态 · AI 热点

6月25日

09:43

arXiv cs.AI@Duy Tran Thanh

论文提出MagikaDocumentFromPixel，一个轻量级CPU图像质量门，在单个CPU核上约7ms判断图像为清晰、模糊或不确定。基于46配置8扫描经验搜索，发现输入分辨率是主导杠杆。引入边缘先验模块(EPM)，通过拉普拉斯幅度辅助输入使F1提升1.3点。在GoPro Large帧上以384x384训练，F1达0.9803（AUC 0.9989），ONNX模型仅17 MB。局限性包括仅针对单一运动模糊分布和单次种子结果。

论文 MagikaDocumentFromPixel MobileNetV3-Large EPM 模糊检测视觉语言模型

推荐理由：这论文搞了个超轻量的图像模糊检测模块，7毫秒就能判断，能帮下游视觉语言模型省掉很多无用计算。实测F1到0.98，模型才17MB，值得做生产管线的看看。

原文

6月23日

13:55

Geek@geekbb

精选

百度开源了一个基于DeepSeek-OCR升级的视觉语言模型OCR项目，支持一次性解析超长文档。该模型提供两种推理模式：gundam模式用于处理单张图片中的密集文字，base模式适用于多页文档或PDF。项目代码已在GitHub上发布，允许开发者直接使用。

AI模型百度 DeepSeek-OCR 视觉语言模型 OCR 开源模型

推荐理由：百度开源的OCR模型，在DeepSeek-OCR上做了升级，能一次性处理超长文档和密集文字，两种模式很实用。

原文

12:53

arXiv cs.LG@Andrei Liviu Nicolicioiu, Sarvjeet Singh Ghotra, Morgane M. Moss, Aaron Courville

论文提出一种自举的Self-Filtering方法，通过迭代训练CLIP模型并动态筛选数据混合来提升训练数据质量。该方法在不需要额外数据或预训练模型的情况下，平衡了高置信度干净样本与全分布多样样本。实验表明，经该方法过滤后的视觉语言数据集在下游任务上性能显著提升。该方法避免了传统启发式或依赖参考数据集的局限。

论文 CLIP 数据选择自过滤视觉语言模型

推荐理由：这篇论文教你怎么自动筛选高质量训练数据，用CLIP自己迭代过滤，效果比手动搞还好，还不用额外数据。

原文

10:53

arXiv cs.AI@Yundaichuan Zhan, Minghe Gao, Zhongqi Yue, Wendong Bu, Wenqiao Zhang, Guoming Wang, Jisheng Dang, Juncheng Li, Siliang Tang, Yueting Zhuang

SCOPE 提出一种自适应的符号规划框架，由 Symbolic Execution Simulator（SESim）和 Self-Adaptive Symbolic Memory（SASMem）两个模块协同工作。SESim 通过符号验证和实际执行反馈来 refine 行动计划和进化符号世界；SASMem 则将反馈蒸馏为可演化的符号知识。在开放环境实验中，SCOPE 使符号世界完整性提升，在环境扰动下计划成功率提高，并增强了跨任务泛化能力。

AI模型 SCOPE 符号规划视觉语言模型智能体

推荐理由：搞机器人规划的朋友可以看看 SCOPE，它用符号执行加记忆更新解决开放世界符号不完整的老问题。

原文

6月19日

10:15

arXiv cs.AI@Shihao Ji, HongXi Li, Zihui Song, Mingyu Li

Lagrange提出基于掩码潜在场（MLF）的开放词汇稀疏驾驶框架，利用视觉语言模型（VLM）编码类无关目标提议为连续语义视觉标记。通过意图驱动的掩码交叉注意力模块过滤无关实体，将注意力解码为空间坐标上的隐式连续能量场。将决策制定为跨越该能量场的拉格朗日动作最小化问题，强制遵守车辆运动学并执行碰撞避免。在nuScenes和CODA基准上的离线评估显示，该框架实现了鲁棒、可解释且运动学可行的开放世界自主性。

论文 Lagrange 自动驾驶视觉语言模型掩码潜在场端到端驾驶

推荐理由：自动驾驶新框架Lagrange用掩码潜在场和VLM处理开放世界异常，比密集模型更高效，在nuScenes和CODA上表现不错。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

13:08

arXiv cs.AI@Jiaju Han, Ben Zhang, Xuemeng Sun, Qike Zhang, Yuxian Dong, Chengyin Hu, Fengyu Zhang, Yiwei Wei, Jiujiang Guo

FusionRS是用于遥感双模态视觉语言学习的首个大规模RGB-红外-文本数据集。它由超过100万对对齐的RGB和红外风格图像组成，每对包含场景描述和红外感知描述。基于FusionRS训练的CLIP-style和生成式VLM模型在RGB-红外对齐、红外-文本检索和双模态描述任务上均优于纯RGB训练基线。消融实验表明，红外感知描述对强化红外-语言对齐至关重要。

AI模型 FusionRS RGB-红外遥感数据集视觉语言模型双模态学习

推荐理由：FusionRS填补了RGB-红外双模态遥感数据集的空白，用公开RGB图转红外风格，加上两种描述，让模型同时理解可见光和红外信息。

原文

11:38

arXiv: OpenAI@Marta Vallejo, Siwen Wang

该研究通过十名参与者观看33张安全风险场景图像的眼动数据，生成人口平均注视热图。使用GPT-4o通过OpenAI Vision API生成视觉注意力显著性图，并与注视数据比较。空间对齐评估采用四个指标：皮尔逊相关系数0.515±0.117、NSS 0.988±0.323、KL散度1.766±0.844、AUC-Judd 0.806±0.076。与Gemini Pro、Gemini Flash和Claude的对比显示，所有模型AUC-Judd超过机会基线0.5且NSS为正。Gemini Pro在三个指标上定位最强，GPT-4o在KL散度上分布匹配最佳。

论文 GPT-4o Gemini Pro Gemini Flash Claude 视觉语言模型注意力安全场景

推荐理由：想知道AI能不能像人一样在危险场景下抓住关键区域？这篇论文用GPT-4o、Gemini Pro等模型做了对比，发现它们不靠眼动训练数据就能大致预测人类注视点。

原文

6月15日

11:12

arXiv cs.AI@Jianzhe Lin

论文发现验证器驱动的自DPO方法在视觉语言模型自改进中存在任务特异性问题。在MathVista、MMMU和BLINK上用开源验证器阶梯测试，同一验证器在MathVista上提升Qwen-3-VL-2B学生模型，但在MMMU上验证器准确率降至8%-23%，导致学生模型性能下降3.4-10.9个百分点。该现象在Qwen-2.5-VL-3B上复现。论文给出基于方差定理的机械论解释，指出目标任务验证器质量而非参数量才是关键。

论文 Qwen-3-VL-2B MathVista MMMU 视觉语言模型自改进

推荐理由：验证器在新任务上会拖后腿

原文

6月12日

16:13

marktechpost@Asif Razzaq

Zyphra 发布了 Zamba2-VL 系列开源视觉语言模型，包含 1.2B、2.7B 和 7B 三个参数版本。该模型采用混合 Mamba2 状态空间和 Transformer 骨干架构，在 Apache 2.0 许可下发布。与同类 Transformer 视觉语言模型相比，Zamba2-VL 在保持竞争力的同时，将首 token 生成时间降低了约一个数量级。这标志着在高效视觉语言推理方面的重要进展，尤其适合对延迟敏感的应用场景。

AI模型视觉语言模型 Mamba2 Transformer 开源/仓库低延迟

推荐理由：做视觉语言模型部署或实时推理的开发者，Zamba2-VL 的首 token 延迟优势能显著提升用户体验，值得直接尝试。

原文