全部 AI 动态 · AI 热点

6月15日

11:10

arXiv cs.AI@Sicheng Yang, Hangjie Yuan, Wenjun Zhang, Jinwang Wang, Yichen Qian, Weihua Chen, Fan Wang, Lei Zhu

ClinHallu是一个用于诊断医疗多模态大模型(MLLM)推理中分阶段幻觉的基准，包含7031个验证实例。每个实例的推理轨迹被分解为视觉识别、知识回忆和推理整合三个阶段。通过阶段替换干预，可测量纠正特定阶段对最终答案的影响。轨迹监督微调能有效减少阶段幻觉。该基准为诊断和缓解医疗MLLM推理错误提供了细粒度测试平台。

推荐理由：诊断医疗AI幻觉的利器

原文

6月10日

12:09

arXiv cs.LG@Paul Fergus, Philip Stephens, Russell A. Hill, Lee Oliver, Katie Appleby, Sarah Beatham, Naomi Davies Walsh, Stuart Nixon, Naomi Matthews, Chris Sutherland, Kelly Hitchcock

精选

研究人员发布了一款开源目标检测模型YOLO26x，专门用于识别英国常见的28种哺乳动物和鸟类，以及人类、校准杆和车辆等3个实用类别。该模型基于10年运营部署中收集的48,165个标注实例训练，在验证集上平均精度达到0.984（IoU 0.5），召回率0.965。模型以ONNX格式发布，支持本地桌面和实时摄像头，面向无机器学习经验的生态学家，旨在打破商业平台对相机陷阱AI的垄断。

AI模型 YOLO26x 相机陷阱野生动物监测开源模型生态学

推荐理由：生态学家和野生动物监测团队终于有了免费、高精度的AI工具，可以直接在本地运行，无需依赖付费平台。做生物多样性研究的建议试试这个模型，能大幅减少手动标注图像的时间。

原文

11:32

arXiv cs.AI@Mahmood Alzubaidi, Uzair Shah, Raden Muaz, Ines Abbes, Nader Mohammed, Abdullatif Magram, Khalid Alyafei, Mowafa Househ, Marco Agus

精选

FADA 是一个基于 Qwen3.5-VL 构建的统一视觉语言模型，能够通过单一流程完成胎儿超声图像的临床解读、分类、检测和分割，无需外部标签。它通过选择性蒸馏技术从四个领域专用基础模型中提取知识，在分割任务上达到 0.8820 平均 Dice，检测 mAP@0.50 为 0.7671，解读合规率 100%。专家验证显示，在 237 张图像上，临床指导模式下 73.5% 的解读获得满分。该系统可在单张消费级 GPU 上训练，并能在搭载骁龙 7 Gen 1 的智能手机上离线运行完整流程约 60 秒，为资源受限地区的产前超声筛查提供了可行方案。

AI模型 FADA Qwen3.5-VL 胎儿超声视觉语言模型边缘部署

推荐理由：FADA 解决了中低收入国家超声技师短缺导致的产前筛查缺口，做医疗 AI 或边缘部署的团队可以直接在手机上跑完整流程，值得关注其开源代码和模型。

原文

09:10

arXiv: DeepSeek@ Kwai Keye Team, Bin Wen, Changyi Liu, Chengru Song, Chongling Rao, Guowang Zhang, Han Li, Haonan Fan, Hengrui Ju, Jiankang Chen, Jiapeng Chen, Jiawei Yuan, Kaixuan Yang, Kaiyu Jiang, Kun Gai, Lingzhi Zhou, Na Nie, Sen Na, Tianke Zhang, Tingting Gao, Xuanyu Zheng, Yulong Chen, Fan Yang, Haixuan Gao, Lele Yang, Mingqiao Liu, Muxi Diao, Qi Zhang, Qile Su, Wei Chen, Wentao Hong, Xingyu Lu, Yancheng Long, Yankai Yang, Yingxin Li, Yiyang Fan, Yu Xia, Yuzhe Chen, Ziliang Lai, Chuan Yi, Haonan Jia, Tianming Liang, Weixin Xu, Xiaoxiao Ma, Yang Tian, Yufei Han, Feng Han, Hang Li, Jing Wang, Jinghui Jia, Junmin Chen, Junyu Shi, Ruilin Zhang

精选76°

快手发布Keye-VL-2.0-30B-A3B，一个基于MoE架构的开源多模态基础模型，专为长视频理解和智能体场景设计。该模型首次将DeepSeek Sparse Attention适配到GQA架构，实现无损256K上下文处理，能捕捉关键帧和长程时序依赖。通过跨模态多教师策略蒸馏（MOPD）和上下文/视频强化学习，解决了多任务对齐中的灾难性遗忘问题，仅激活3B参数即可在代码、工具和搜索场景中实现智能体协作与多模态自我纠正。在视频理解、时序定位、推理、STEM和智能体基准测试中，Keye-VL-2.0在相似规模模型中达到最优性能，尤其在TimeLens细粒度时序定位和Video-MME-v2长视频理解上表现突出。模型权重已开源。

AI模型开源/仓库 MoE 长视频理解智能体多模态

推荐理由：长视频理解和智能体场景的开发者终于有了一个开源且高效的MoE模型——Keye-VL-2.0仅激活3B参数就能处理256K上下文，做视频分析或智能体应用的团队可以直接下载权重试试。

原文

5月22日

10:45

arXiv: DeepSeek@Mao Zheng, Zheng Li, Tao Chen, Bo Lv, Mingrui Sun, Mingyang Song, Jinlong Song, Hong Huang, Decheng Wu, Hai Wang, Yifan Song, Yanfeng Chen, Guanwei Zhang, Guanghua Yu, Yi Su, Hong Liu, Jinxiang Ou, Keyao Wang, Weile Chen, Haozhao Kuang, Kai Wang, Nuo Chen, Zihao Zheng, Chenhao Wang, Bin Xing, Chengcheng Xu, Tinghao Yu, Binghong Wu, Long Xu, Jiacheng Shi, Yunhao Wang, Baifang Chen, Lei Zhang, Qi Yang, Zhao Wu, Jiacheng Li, Lan Jiang, Lanrui Wang, Kai Zhang, Shuaipeng Li, Zhongzhi Chen, Weixuan Sun, Jiaqi Zhu, An Wang, Wei Li, Jun Xia, Weidong Han, Wutian Yang, Litong Hui, Luoguo Jia, Jiajia Wu, Xinpeng Zhou, Tianxiang Fei

精选

Hy-MT2 是一系列面向复杂真实场景的快速多语言翻译模型，包含 1.8B、7B 和 30B-A3B（MoE）三个尺寸，支持 33 种语言间的翻译。通过 AngelSlim 1.25-bit 极端量化，1.8B 模型仅需 440MB 存储，推理速度提升 1.5 倍，适合端侧部署。在通用、商业、领域和指令跟随翻译任务中，7B 和 30B 模型在快速思考模式下超越 DeepSeek-V4-Pro 和 Kimi K2.6 等开源模型，1.8B 模型整体也优于微软和豆包等主流商业 API。该工作为多语言翻译提供了高效且强大的新选择。

AI模型多语言翻译 Hy-MT2 端侧部署量化开源模型

推荐理由：做多语言翻译或端侧部署的团队终于有了一个又快又准的选择——1.8B 量化后 440MB 就能跑，性能还超过微软豆包 API，值得直接上手试。

原文

5月21日

11:23

arXiv cs.AI@Mark Obozov, Maxime Griot, Joseph Cummings, Evan Smothers, Felipe Mello, Rafi Ayub, Philip John Bontrager, Salman Mohammadi, Ariel Kwiatkowski, Nathan Azrak, Mircea Mironenco

精选72°

torchtune 是一个 PyTorch 原生的后训练库，旨在简化大语言模型（LLM）的微调、实验和部署流程。与 Axolotl、Unsloth 等框架相比，torchtune 强调模块化、可定制性和对底层 PyTorch 组件的直接访问，而非牺牲透明度和可扩展性。论文展示了其模型构建器、训练配方和分布式训练栈的设计，并在多种后训练场景中评估了性能。结果表明，torchtune 在保持强性能和内存效率的同时，足够灵活以支持快速研究迭代。该库为可复现的 LLM 后训练研究提供了实用基础。

AI模型 torchtune PyTorch LLM 微调后训练开源/仓库

推荐理由：做 LLM 微调的研究者或工程师，如果受够了黑盒框架的调试痛苦，torchtune 的模块化设计和 PyTorch 原生体验值得一试，能让你在保持性能的同时自由定制训练流程。

原文

5月19日

11:38

arXiv cs.AI@Haoyu Zhang, Qiaohui Chu, Yisen Feng, Meng Liu, Weili Guan, Yaowei Wang, Liqiang Nie

精选

MARS 是一个多模态智能体推理系统，专为 EgoVis 2026 的 CASTLE 挑战赛设计。该挑战要求回答 185 个关于四天活动、15 个同步视角、官方转录及多种辅助模态（如个人照片、热成像、心率数据）的封闭式问题。MARS 将任务视为多模态证据选择问题，通过构建视频和转录等主要来源以及辅助来源的证据记忆，并使用 DeepSeek 压缩长视频，最后通过 GPT-5.4 决策代理选择继续推理、请求缺失模态或生成答案。该系统在最终排行榜上获得第二名，代码已开源。

AI模型多模态推理智能体视频理解开源/仓库 GPT-5.4

推荐理由：多模态推理是 AI 落地的关键瓶颈，MARS 展示了如何整合视频、转录、热成像等异构数据做智能体决策，做多模态 AI 或视频理解的团队值得参考其开源代码。

原文

5月14日

13:26

arXiv: DeepSeek@Zhongkai Yu, Yichen Lin, Chenyang Zhou, Yuwei Zhang, Kun Zhou, Junxia Cui, Haotian Ye, Zhengding Hu, Zaifeng Pan, Ruiyi Wang, Yujie Zhao, Hejia Zhang, Jingbo Shang, Jishen Zhao, Yufei Ding

精选

ChipMATE是首个自训练的多智能体RTL代码生成框架，解决了现有API系统依赖黄金测试平台、无法在气隙环境中部署、不能利用厂商私有代码库的问题。它通过Verilog智能体与Python参考模型智能体相互验证，无需黄金标准即可实现正确性。采用回溯推理工作流防止错误传播，两阶段训练先独立训练再联合协作。在VerilogEval V2上，4B和9B模型分别达到75.0%和80.1%的pass@1，超越所有自训练模型甚至1600B参数的DeepSeek V4。代码和权重已开源。

AI模型 RTL生成多智能体自训练 Verilog 芯片设计

推荐理由：芯片设计团队终于有了可私有化部署的RTL生成方案——ChipMATE不依赖闭源API、无需黄金测试平台，还能用厂商内部代码训练，做数字IC设计的开发者可以直接试。

原文