全部 AI 动态 · AI 热点

6月26日

10:51

arXiv cs.AI@Chi Cui, Yixin Wu, Yang Zhang

该论文对4chan上的AI非自愿合成色情图像（SNEACI）进行了大规模研究，识别出24,105条SNEACI内容。研究发现，非名人目标占比从先前研究的4.7%飙升至55.8%，表明AI裸化已从攻击公众人物转向伤害用户社交圈内的普通人。开源模型主导生产：Stable Diffusion系列生成42.7%的图像，Wan生成66.5%的视频，依赖数千个共享微调模型和教程。最活跃的内容生产者贡献了780条，推动社区参与并降低技术门槛。

论文 Stable Diffusion Wan 4chan AI安全开源模型

推荐理由：这篇论文用硬数据告诉你，AI脱衣已经从搞名人变成搞普通人了，而且Stable Diffusion和Wan是主要生产工具，4chan社区里几百条的高产作者在推波助澜。

原文

6月25日

09:38

arXiv cs.AI@Ke Zhao, Zixiang Di, Hong Qian, Xiang Shu, Yaolin Wen, Qitao Shi, Bingdong Li, Xingyu Lu, Xiangfeng Wang, Jun Zhou, Ke Tang, Yang Yu

MiniOpt是一种强化学习框架，采用“推理-建模-求解”范式来优化问题。其OptReward奖赏函数通过分层分数结构联合评估建模与求解，避免专家演示依赖。在少于10B参数的模型中，MiniOpt系列取得最高平均求解精度(SA)。MiniOpt-3B在多种优化类型和任务领域展示强泛化能力，代码已开源。

AI模型 MiniOpt 强化学习优化开源模型 LLM

推荐理由：想用小型模型搞定各种优化问题？MiniOpt用3B参数就做到了不错的效果，而且代码开源随便玩。

原文

09:37

arXiv cs.AI@Tianyu Dong, Yangyang Liu, Jiang Zhou, Xinwei Wu, Xiaohu Zhao, Hao Wang, Heng Liu, Linlong Xu, Longyue Wang, Weihua Luo, Shaolin Zhu, Deyi Xiong

稀疏MoE（Mixture-of-Experts）模型在多语言场景下，低资源语言因数据稀缺导致路由与高资源语言不一致，限制跨语言知识共享。为此提出SARA（Semantically Anchored Routing Alignment）框架，利用对称JS散度对齐路由分布。在Qwen3-30B-A3B和Phi-3.5-MoE-instruct两个模型上，针对5种低资源语言和3个基准测试，SARA在Global-MMLU上分别提升0.8%和1.2%。该方法不依赖输出logits蒸馏，直接对齐内部路由机制，有效缓解低资源语言瓶颈。

论文 SARA MoE Qwen3 多语言模型开源模型

推荐理由：论文提出SARA方法，用语义锚对齐MoE路由，让低资源语言也能用好专家能力，Global-MMLU提升0.8%-1.2%。

原文

6月24日

12:13

arXiv cs.AI@Negin Raoof, Richard Zhuang, Marianna Nezhurina, Etash Guha, Atula Tejaswi, Ryan Marten, Charlie F. Ruan, Tyler Griggs, Alexander Glenn Shaw, Hritik Bansal, E. Kelly Buchanan, Artem Gazizov, Reinhard Heckel, Chinmay Hegde, Sankalp Jajee, Daanish Khazi, Emmanouil Koukoumidis, Xiangyi Li, Hange Liu, Shlok Natarajan, Harsh Raj, Nicholas Roberts, Ethan Shen, Nishad Singhi, Michael Siu, Ashima Suvarna, Hanwen Xing, Patrick Yubeaton, Robert Zhang, Leon Liangyu Chen, Xiaokun Chen, Steven Dillmann, Saadia Gabriel, Xunyi Jiang, Anurag Kashyap, Boxuan Li, Yein Park, Minh Pham, Sujay Sanghavi, Lin Shi, Ke Sun, Yixin Wang, Zhiwei Xu, Erica Zhang, Siyan Zhao, Wanjia Zhao, Jenia Jitsev, Alex Dimakis, Benjamin Feuer, Ludwig Schmidt

OpenThoughts-Agent项目提出一个完全开源的数据整理流程，用于训练通用智能体模型。研究团队进行超过100次对照实验，系统分析了数据来源和多样性的重要性。基于该流程构建了10万样本的训练集，微调Qwen3-32B模型后，在7个智能体基准上平均准确率达44.8%，比最强开源模型Nemotron-Terminal-32B（40.9%）提升3.9个百分点。该训练集在计算量可控的对比中表现出强扩展性，所有数据、管道和模型已在openthoughts.ai开源。

论文 OpenThoughts-Agent Qwen3-32B Nemotron-Terminal 智能体开源模型

推荐理由：想自己训练智能体模型？这里有开源的数据配方和100次实验的经验，帮你少走弯路。

原文

09:46

arXiv: DeepSeek@Haichao Chen, Songchi Zhou, Zhengyun Zhao, Shikai Hu, Xianghong Jin, Hongwei Ji, Li He, Shuli Li, Yiming Qin, Xin Tan, Runfeng Shi, Yih Chung Tham, Jiaye Zhu, Ye Li, Ye Jin, Longhao Cao, Dawei Li, Honghan Wu, Hongqiu Gu, Guanqiao Li, Tudor Groza, Chunying Li, Dian Zeng, Weihong Yu, Gareth Baynam, Saumya Shekhar Jamuar, Min Shen, Shuyang Zhang, Bin Sheng, Sheng Yu, Tien Yin Wong

71°

RaDaR是一个32B参数的开源推理大模型，专为罕见病诊断设计。它在公开基准和四个外部验证中心中优于包括671B DeepSeek-R1在内的开源模型。在回顾性队列中，RaDaR在61.06%的病例中比临床怀疑更早给出最终诊断，提前时间1.87个月。在随机医生辅助试验中，RaDaR帮助医生诊断准确率提高21.44个百分点。合成数据消融实验表明表型锚定叙事对长尾罕见病提供有用训练信号。

AI模型 RaDaR DeepSeek-R1 开源模型罕见病诊断推理模型

推荐理由：RaDaR发布了一个32B开源推理模型，罕见病诊断比DeepSeek-R1还强，医生用它准确率提升21%。

原文

6月19日

11:04

arXiv cs.LG@Haw-Shiuan Chang, Jeffrey Gomez, Mehul Patwari, Aryan Sajith, Hamed Zamani

这篇论文提出利用用户与LLM交互时的鼠标轨迹和眼动数据作为隐式反馈来替代昂贵的显式偏好标注。他们构建了IFLLM数据集，包含59名用户的1336个多轮问答，并记录了鼠标和眼动数据。基于这些隐式反馈训练的奖励模型将文本奖励模型的准确率从55%提升到64%。对8个LLM应用DPO后，响应质量相对提升近3倍，证明了隐式反馈在真实场景中的价值。数据集和代码已开源。

论文 IFLLM LLM 隐式反馈 DPO 开源模型

推荐理由：别光看用户点了什么赞，鼠标和眼睛动的方向才是真心话。这篇论文用59人的眼动和鼠标轨迹数据训练奖励模型，准确率从55%飙到64，还开源了数据集。

原文

6月17日

11:35

arXiv cs.LG@Ahmed Ryan, Saad Sakib Noor, Md Erfan, Shaswata Mitra, Sudip Mittal, Md Rayhanur Rahman

该研究构建了包含2076条人工标注句子的数据集（1281条正样本、795条负样本），来自83份复杂的非结构化CTI报告，映射到114种ATT&CK技术。评估了7个开源LLM（参数规模8B至236B），最高micro-F1得分为0.22。参数大小与F1得分呈显著正相关，提示策略和温度设置无显著影响。结果表明当前开源LLM尚无法用于生产级ATT&CK分类。

论文 ATT&CK CTI MITRE 开源模型多标签分类

推荐理由：这篇论文造了2076条人工标注的CTI数据，测了7个开源大模型，结果最好的F1才0.22，说明开源模型在安全情报分析上还不够用。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

11:21

arXiv cs.AI@Dongbin Na, Chanwoo Kim, Soonbin Rho, Giyun Choi, Gangbok Lee, Dooyoung Hong

BinTrack是一种全开源的空间定位智能体，利用机器人轨迹的时间顺序进行二进制搜索。在SpaceLocQA基准的全局类别上，BinTrack将准确率提升22.8%，甚至匹配了GPT-4o的闭源模型结果。其推理策略带来超过1.5倍的加速。论文还发布了GangnamLoop，一个在真实街道上用四足机器人采集的多行程室外基准数据集。

论文 BinTrack 空间问答导航 SpaceLocQA GangnamLoop 开源模型

推荐理由：想让你家机器人找到干洗店？BinTrack用开源VLM做空间问答，性能追平GPT-4o还更快，代码数据全公开。

原文

6月12日