10:38arXiv cs.LG@Kamar Hibatallah Baghdadi, Kawther Guoual Belhamidi, Sara Belhadj, Aissa Boulmerka, Nadir FarhiHiReLC是一个分层集成强化学习框架,用于深度神经网络的自动联合量化与结构化剪枝。低层智能体按块独立选择位宽、剪枝保留比、量化类型和粒度,高层智能体基于Fisher信息估计协调全局预算分配。框架使用轻量MLP代理进行奖励塑造,降低策略评估成本。在Vision Transformer和CNN基准上,实现参数存储压缩比5.99-6.72倍,一个设定下准确率提升3.83%,其他设定准确率下降0.55-5.62%。论文HiReLCVision TransformerCNN剪枝量化推荐理由:这个框架能自动给神经网络做剪枝和量化,压缩比达到6倍多,准确率几乎不掉,适合做模型部署。原文
10:14arXiv cs.AI@Luyang Fang, Yingchuan Zhang, Jongchan Park, Zhaoji Wang, Ping Ma, Xiaoming Zhai研究提出基于Vision Transformer(ViT)的自信度感知评分框架,用于自动评估学生绘制的科学模型。在6个NGSS对齐的中学评估项目上,该方法通过从测试时预测分布中提取响应级自信度,实现高置信度响应自动评分,低置信度响应转人工审核。相比传统方法,该框架在保持评分可靠性的同时,支持自动覆盖率和评分风险之间的实用权衡。论文Vision Transformer自信度感知自动评分教育评估NGSS推荐理由:这篇论文教你用ViT给学生的科学画图自动打分,还能判断哪些该机器批、哪些该人看,很适合做教育评估的参考。原文
09:45arXiv cs.AI@David Aaron Evans, Jay C. Rothenberger, Kara J. Sulia, Nick P. Bassill, Chris D. ThorncroftHRRR高分辨率数值天气预报系统的误差常与未解析的边界层过程、对流和地形诱导环流有关。已有研究用LSTM网络基于地表观测预测HRRR误差,但复杂垂直大气演变时性能下降。本文提出LSTM-ViT混合框架,融合地表序列学习与纽约州网大气廓线数据。在预测降水、10m风速和2m温度误差上,LSTM-ViT均优于基线LSTM,其中降水误差预测技能提升约两倍。改进在短预报时效和行星边界层活跃期尤为显著。论文LSTMVision TransformerHRRR天气预报预报误差推荐理由:这篇论文用LSTM加Vision Transformer看大气垂直结构,让天气预报误差预测精度翻倍,搞气象AI的值得一读。原文
11:35arXiv cs.LG@Gandhimathi Padmanaban, Fred Feng精选该研究提出一个开源的两阶段计算机视觉流水线,用于从自然道路视频中细粒度分类车辆类型(轿车、SUV、皮卡、小型货车、大型货车、商用卡车),以评估自行车事故中骑车人受伤严重程度。第一阶段使用预训练的RT-DETR检测器进行粗略车辆定位,第二阶段使用微调的Vision Transformer(ViT-Base/16)进行六类车身类型分类。引入基于置信度的弃权机制(softmax输出低于0.60时输出“未知”标签),避免静默误分类。在密歇根州安阿伯市自行车道走廊的3805个超车事件(分布内)上,流水线准确率达0.94,各类F1分数在0.91(小型货车)到0.97(SUV)之间。在独立的外部数据集(311个事件,无再训练)上,准确率为0.89,其中三个常见类别F1仍保持在0.90以上,小型货车因弃权率从2.4%升至25.0%导致F1降至0.72,但未出现主动误分类。完整流水线(含推理脚本、训练代码、评估工具和模型权重)已开源,支持道路视频档案和骑行安全研究的复现与复用。论文计算机视觉细粒度分类Vision TransformerRT-DETR交通安全推荐理由:做交通安全分析或自动驾驶细粒度感知的团队,可以直接用这个开源流水线替代粗粒度检测,它用弃权机制解决了域迁移下的误分类问题,值得在真实道路视频上试试。原文
10:44arXiv cs.LG@Lianghuan Huang, Yihao Li, Saeed Salehi, Yingshan Chang, Ansh Soni, Konrad P. Kording精选该论文从信息论角度形式化了视觉中的“绑定问题”,即系统如何知道哪些特征(如颜色、形状)属于同一个物体。研究者提出了一种探测方法,用于测量深度学习模型(尤其是Vision Transformers)内部表示中的绑定信息。实验发现,ViT的不同组件(如[CLS]标记和空间标记)包含不同程度的绑定信息,且在特征共享、遮挡等挑战性场景中表现差异显著。这项工作表明,绑定信息是强视觉识别与推理的关键要素,但目前模型仍存在特征误归因的常见失败。论文绑定问题Vision Transformer信息论视觉推理特征归因推荐理由:做视觉AI的开发者会关心:你的ViT模型真的理解“蓝色圆形”是一个整体吗?这篇论文给出了量化绑定信息的方法,值得点开看看如何诊断模型的结构性盲点。原文
10:04arXiv cs.AI@Nisreen Albzour, Sarah S. Lam精选本研究系统优化了轻量级Vision Transformer(ViT-Tiny)用于宫颈癌细胞自动分类,在Herlev数据集上达到94.9%-95.2%的交叉验证准确率。通过对比数据增强、类别加权和超参数,发现随机水平翻转和类别权重(0.7×1.3)组合最有效。Grad-CAM分析显示模型注意力聚焦于细胞核、细胞边界和染色质纹理等临床相关形态特征。这项工作表明Vision Transformer能在保持临床性能的同时提供可解释的决策支持,满足医疗AI部署对透明度的要求。论文Vision Transformer宫颈癌分类可解释AI医疗影像Grad-CAM推荐理由:医疗AI团队终于有了兼顾准确率和可解释性的宫颈癌筛查方案——ViT-Tiny在轻量级下达到95%准确率,且注意力热图与病理标准对齐,做细胞学自动分析的开发者可以直接参考其优化策略。原文