AITOP6月11日 15:28
精选
过去 24 小时,从 654 条中筛出 45 条
6月11日
15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
15:07
AITOP6月11日 15:07
6月9日
11:48
11:48
arXiv cs.AI@Hongcheng Gao, Hailong Qu, Jingyi Tang, Jiahao Wang, Zihao Huang, Hengkang Qiao, Shihong Huang, Junming Yang, Yi Li, Hongyixuan Yuan, Wenjie Li, Bohan Zeng, Wenbo Li, Bo Wang, Jianhui Liu, Olive Huang, Haoyang Huang, Wentao Zhang, Guoqing Huang, Nan Duan, Yinpeng Dong
精选
推荐理由:做多模态智能体或空间推理研究的团队,这个基准直接暴露了当前模型在真实交互任务上的短板——GPT-5都只有17.4%成功率,值得用来检验自家模型。
6月2日
11:58
11:58
arXiv cs.AI@Haowen Hou, Zhen Huang, Zheming Liang, Qingyi Si, Chenglin Li, Shuai Dong, Kele Shao, Ruilin Li, Dianyi Wang, Nan Duan, Jiaqi Wang
精选
推荐理由:做视频理解或多模态模型优化的团队,终于有了一个能大幅降低计算开销而不牺牲性能的方案——AdaCodec用预测式编码直击视频冗余痛点,建议做视频MLLM的开发者直接看论文复现。
11:58
11:58
arXiv cs.AI@Seojeong Park, Jiho Choi, Junyong Kang, Seonho Lee, Jaeyo Shin, Hyunjung Shim
精选
推荐理由:做多模态模型评测的团队终于有了对抗感知偏见的方法——Perceptual Perturbation 框架能直接提升评估者的视觉可靠性,建议做 MLLM 评测基准的开发者点开看看实验细节。
6月1日
00:09
AITOP6月1日 00:09
5月29日
5月25日
11:17
11:17
arXiv cs.AI@Haoyuan Wang, Xiaohao Liu, Jiajie Su, Jianmao Xiao, Chaochao Chen
精选
推荐理由:做多模态大模型知识更新的研究者会关注——ASAM解决了编辑后泛化差的痛点,用对抗子空间对齐让模型对语义等价变体也生效,值得在MLLM编辑任务上试试。
10:01
10:01
arXiv cs.LG@Liupeng Li, Haoqian Kang, Zhenyu Lu, Jinpeng Wang, Bin Chen, Ke Chen, Yaowei Wang
精选
推荐理由:高分辨率图像感知是 MLLMs 落地的硬骨头,CVSearch 用零训练成本解决了覆盖率和效率的矛盾,做多模态感知或视觉问答的团队可以直接拿来用。
5月19日
14:25
14:25
arXiv cs.AI@Qianhao Yuan, Jie Lou, Xing Yu, Hongyu Lin, Le Sun, Xianpei Han, Yaojie Lu
精选
推荐理由:多模态模型开发者常头疼的“看不清细节”问题,Vision-OPD用自蒸馏给出了一个轻量解法——不用外部模型或标注,直接让模型学会“自动放大”关键区域。做细粒度视觉理解或MLLM优化的团队值得关注。
11:43
11:43
arXiv cs.AI@Xinpeng Dong, Min Zhang, Kairong Han, Xu Tan, Fei Wu, Kun Kuang
精选
推荐理由:多模态模型开发者常遇到生成内容偏离图像的问题,VIF用极简模块解决了视觉一致性衰减的痛点,想提升MLLM可靠性的团队可以直接试。
11:40
11:40
arXiv cs.AI@Junyu Pan, Yansen Wang, Enze Zhang, Baoliang Lu, Weilong Zheng, Dongsheng Li
精选
推荐理由:脑电信号理解一直受限于文本对齐的信息损失,GVG用生成图像作为桥梁,让MLLM能利用视觉先验进行更丰富的解读。做脑机接口或神经科学AI的团队,这个框架值得关注,轻量模型就能达到大模型效果。
11:33
11:33
arXiv cs.AI@Yajing Zhou, Xiangyu Kong
精选
推荐理由:这篇论文戳破了MLLM空间推理的泡沫——它们并不真正理解3D世界。做具身AI、多智能体系统或空间推理的开发者,看完会重新评估模型能力边界。
09:58
09:58
arXiv cs.AI@Yanjie Li
精选
推荐理由:催化材料研究者终于有了一个能同时做性质预测和逆向设计的统一模型,避免了传统解耦方法的数据偏移问题,做材料计算和 AI 辅助设计的团队可以直接参考其方法。
5月15日
10:12
10:12
arXiv: OpenAI@Tianwei Chen, Takuya Furusawa, Yuki Hirakawa, Ryotaro Shimizu, Mo Fan, Takashi Wada
精选
推荐理由:做多模态情感分析或评估 MLLMs 情感能力的团队,终于有了一个更可靠的多标签基准——MultiEmo-Bench 解决了现有数据集低估模型的问题,值得直接用于模型评测。
