全部 AI 动态 · AI 热点

6月25日

10:38

10:38

arXiv cs.LG@Kamar Hibatallah Baghdadi, Kawther Guoual Belhamidi, Sara Belhadj, Aissa Boulmerka, Nadir Farhi

HiReLC是一个分层集成强化学习框架，用于深度神经网络的自动联合量化与结构化剪枝。低层智能体按块独立选择位宽、剪枝保留比、量化类型和粒度，高层智能体基于Fisher信息估计协调全局预算分配。框架使用轻量MLP代理进行奖励塑造，降低策略评估成本。在Vision Transformer和CNN基准上，实现参数存储压缩比5.99-6.72倍，一个设定下准确率提升3.83%，其他设定准确率下降0.55-5.62%。

论文 HiReLC Vision Transformer CNN 剪枝量化

推荐理由：这个框架能自动给神经网络做剪枝和量化，压缩比达到6倍多，准确率几乎不掉，适合做模型部署。

6月19日

10:14

10:14

arXiv cs.AI@Luyang Fang, Yingchuan Zhang, Jongchan Park, Zhaoji Wang, Ping Ma, Xiaoming Zhai

研究提出基于Vision Transformer（ViT）的自信度感知评分框架，用于自动评估学生绘制的科学模型。在6个NGSS对齐的中学评估项目上，该方法通过从测试时预测分布中提取响应级自信度，实现高置信度响应自动评分，低置信度响应转人工审核。相比传统方法，该框架在保持评分可靠性的同时，支持自动覆盖率和评分风险之间的实用权衡。

论文 Vision Transformer 自信度感知自动评分教育评估 NGSS

推荐理由：这篇论文教你用ViT给学生的科学画图自动打分，还能判断哪些该机器批、哪些该人看，很适合做教育评估的参考。

6月18日

09:45

09:45

arXiv cs.AI@David Aaron Evans, Jay C. Rothenberger, Kara J. Sulia, Nick P. Bassill, Chris D. Thorncroft

HRRR高分辨率数值天气预报系统的误差常与未解析的边界层过程、对流和地形诱导环流有关。已有研究用LSTM网络基于地表观测预测HRRR误差，但复杂垂直大气演变时性能下降。本文提出LSTM-ViT混合框架，融合地表序列学习与纽约州网大气廓线数据。在预测降水、10m风速和2m温度误差上，LSTM-ViT均优于基线LSTM，其中降水误差预测技能提升约两倍。改进在短预报时效和行星边界层活跃期尤为显著。

论文 LSTM Vision Transformer HRRR 天气预报预报误差

推荐理由：这篇论文用LSTM加Vision Transformer看大气垂直结构，让天气预报误差预测精度翻倍，搞气象AI的值得一读。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月4日

11:35

11:35

arXiv cs.LG@Gandhimathi Padmanaban, Fred Feng

精选

该研究提出一个开源的两阶段计算机视觉流水线，用于从自然道路视频中细粒度分类车辆类型（轿车、SUV、皮卡、小型货车、大型货车、商用卡车），以评估自行车事故中骑车人受伤严重程度。第一阶段使用预训练的RT-DETR检测器进行粗略车辆定位，第二阶段使用微调的Vision Transformer（ViT-Base/16）进行六类车身类型分类。引入基于置信度的弃权机制（softmax输出低于0.60时输出“未知”标签），避免静默误分类。在密歇根州安阿伯市自行车道走廊的3805个超车事件（分布内）上，流水线准确率达0.94，各类F1分数在0.91（小型货车）到0.97（SUV）之间。在独立的外部数据集（311个事件，无再训练）上，准确率为0.89，其中三个常见类别F1仍保持在0.90以上，小型货车因弃权率从2.4%升至25.0%导致F1降至0.72，但未出现主动误分类。完整流水线（含推理脚本、训练代码、评估工具和模型权重）已开源，支持道路视频档案和骑行安全研究的复现与复用。

论文计算机视觉细粒度分类 Vision Transformer RT-DETR 交通安全

推荐理由：做交通安全分析或自动驾驶细粒度感知的团队，可以直接用这个开源流水线替代粗粒度检测，它用弃权机制解决了域迁移下的误分类问题，值得在真实道路视频上试试。

6月3日

10:44

10:44

arXiv cs.LG@Lianghuan Huang, Yihao Li, Saeed Salehi, Yingshan Chang, Ansh Soni, Konrad P. Kording

精选

该论文从信息论角度形式化了视觉中的“绑定问题”，即系统如何知道哪些特征（如颜色、形状）属于同一个物体。研究者提出了一种探测方法，用于测量深度学习模型（尤其是Vision Transformers）内部表示中的绑定信息。实验发现，ViT的不同组件（如[CLS]标记和空间标记）包含不同程度的绑定信息，且在特征共享、遮挡等挑战性场景中表现差异显著。这项工作表明，绑定信息是强视觉识别与推理的关键要素，但目前模型仍存在特征误归因的常见失败。

论文绑定问题 Vision Transformer 信息论视觉推理特征归因

推荐理由：做视觉AI的开发者会关心：你的ViT模型真的理解“蓝色圆形”是一个整体吗？这篇论文给出了量化绑定信息的方法，值得点开看看如何诊断模型的结构性盲点。

5月19日

10:04

10:04

arXiv cs.AI@Nisreen Albzour, Sarah S. Lam

精选

本研究系统优化了轻量级Vision Transformer（ViT-Tiny）用于宫颈癌细胞自动分类，在Herlev数据集上达到94.9%-95.2%的交叉验证准确率。通过对比数据增强、类别加权和超参数，发现随机水平翻转和类别权重(0.7×1.3)组合最有效。Grad-CAM分析显示模型注意力聚焦于细胞核、细胞边界和染色质纹理等临床相关形态特征。这项工作表明Vision Transformer能在保持临床性能的同时提供可解释的决策支持，满足医疗AI部署对透明度的要求。

论文 Vision Transformer 宫颈癌分类可解释AI 医疗影像 Grad-CAM

推荐理由：医疗AI团队终于有了兼顾准确率和可解释性的宫颈癌筛查方案——ViT-Tiny在轻量级下达到95%准确率，且注意力热图与病理标准对齐，做细胞学自动分析的开发者可以直接参考其优化策略。