全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月25日

09:54

09:54

arXiv cs.LG@Bo Peng, Jie Lu, Guangquan Zhang, Zhen Fang

本文提出一种去偏负样本挖掘方法，用于改进基于预训练视觉语言模型（VLM）的分布外（OOD）检测。现有方法依赖启发式规则从无标签语料中挖掘负标签，但存在严重的假负样本问题。作者通过理论框架校正负标签的采样偏差，将其转化为基于 ID 标签和无标签语料的蒙特卡洛采样。实验表明，该方法在多种 OOD 检测设置下达到新的最优性能。代码已开源。

论文 OOD 检测视觉语言模型负样本挖掘蒙特卡洛采样开源/仓库

推荐理由：做 OOD 检测或 VLM 应用的开发者，这篇解决了负样本挖掘的假负问题，理论扎实且效果显著，值得直接参考代码复现。

5月20日

11:11

11:11

arXiv cs.LG@Sudheer Tubati, Amit Goyal

精选

音乐流媒体欺诈（如人为刷播放量）对平台和创作者构成威胁，但传统检测方法难以区分合法边缘案例（如超级粉丝、睡眠音乐会话）与欺诈行为。研究者提出SAGE方法，结合SimHash分层采样与模块化门控集成，从无标签数据中可靠识别负样本。该方法通过可配置统计门（马氏距离和k-NN密度）实现精度-召回率自适应权衡，并解决正-无标签学习中的表示偏差问题。在客户级和艺术家级欺诈检测任务上均表现优异，无需修改核心方法即可跨领域泛化。

论文欺诈检测负样本挖掘门控集成 SimHash 正-无标签学习

推荐理由：SAGE解决了欺诈检测中难以区分合法异常与真实欺诈的痛点，做风控或流媒体反作弊的团队可以直接参考其门控集成思路，值得一试。