全部 AI 动态 · AI 热点

AITOP

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月20日

12:21

pandaily@contact@pandaily.com (Pandaily)

精选72°

清华大学与阿里巴巴联合发表论文，提出ViT³（Vision Test-Time Training）架构，这是一种纯Transformer模型，在视觉任务中实现了线性计算复杂度。该架构使得在边缘设备上进行高分辨率图像理解成为可能，解决了传统Transformer在视觉应用中计算量过大的问题。该论文已被CVPR 2026接收为Oral论文，标志着视觉Transformer在效率上取得重要突破。

论文视觉Transformer 线性复杂度边缘计算高分辨率图像清华/阿里

推荐理由：视觉Transformer终于突破了计算瓶颈，做边缘计算或高分辨率图像处理的开发者可以直接关注，这可能是部署到手机等设备的关键技术。

原文

5月13日

19:12

arXiv cs.LG@Alan Z. Song, Yinjie Chen, Mu Nan, Rui Zhang, Jiahang Cao, Weijian Mai, Muquan Yu, Hossein Adeli, Deva Ramanan, Michael J. Tarr, Andrew F. Luo

精选

VECA（Visual Elastic Core Attention）提出了一种新的视觉Transformer架构，用核心-外围结构替代传统的全对全自注意力。通过一组可学习的核心token作为通信接口，图像patch只与核心交互，计算复杂度从O(N²)降为O(N)。该模型在分类和密集预测任务上性能与最新视觉基础模型相当，同时大幅降低计算成本。VECA还支持在推理时弹性调整计算量与精度，为高分辨率视觉任务提供了可扩展的替代方案。

论文视觉Transformer 高效注意力核心-外围结构线性复杂度 VECA

推荐理由：ViT在高分辨率场景下计算量爆炸的问题终于有了优雅解法——VECA用线性复杂度实现竞争性能，做视觉模型部署或高分辨率图像处理的团队值得关注。

原文