AITOP6月11日 15:28
精选
过去 24 小时,从 661 条中筛出 45 条
6月11日
15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
15:07
AITOP6月11日 15:07
12:37
12:37
arXiv cs.AI@Gleb Gerasimov, Timofei Rusalev, Nikita Balagansky, Daniil Laptev, Vadim Kurochkin, Daniil Gavrilov
精选
推荐理由:做神经网络可解释性研究的团队会关心——SAE特征不稳定不是噪声,而是低维结构的基选择问题,看完能帮你更合理设计实验和解读结果。
12:21
12:21
rohanpaul_ai@rohanpaul_ai
精选
推荐理由:这篇论文为LLM控制领域拨乱反正——做模型可解释性、安全对齐或行为调控的团队,值得重新审视稀疏自编码器的潜力,建议点开看看如何用标签修正提升控制效果。
11:58
11:58
arXiv cs.LG@Leon Bergen, Usha Bhalla, Sidharth Baskaran, Max Loeffler, Raphael Sarfati, Dhruvil Gala, Ryan Panwar, Santiago Aranguri, Thomas Fel, Atticus Geiger, Matthew Kowal, Siddharth Boppana, Daniel Balsam, Owen Lewis, Jack Merullo, Thomas McGrath, Ekdeep Singh Lubana
精选
推荐理由:做模型对齐和偏好优化的团队终于有了数据层面的诊断工具——不用再盲目调奖励权重,直接看数据教了模型什么。做安全对齐或模型人格定制的开发者建议点开,能省下大量试错时间。
10:04
10:04
arXiv cs.LG@Pietro Barbiero, Giovanni De Felice, Mateo Espinosa Zarlenga, Francesco Giannini, Filippo Bonchi, Mateja Jamnik, Giuseppe Marra, Ruggero Noris
精选
推荐理由:做可解释性研究的团队终于有了一个统一的理论框架,能系统设计方法而非拼凑碎片,建议关注论文中的对称性和约束推导部分。
6月10日
09:28
09:28
arXiv cs.LG@Vojtěch Staněk, Veronika Jirmusová, Anton Firc, Kamil Malinka, Jakub Reš, Martin Perešíni
精选
推荐理由:做语音安全或深度伪造检测的开发者,这篇论文能帮你理解不同模型的实际决策逻辑,避免盲目调参——看完你会知道该关注环境音还是音素质感。
09:18
09:18
arXiv cs.LG@Thodoris Lymperopoulos, Ioannis Kakogeorgiou, Denia Kanellopoulou
精选
推荐理由:XtrAIn 解决了传统遮挡归因方法中基线选择和归因偏移的痛点,做可解释 AI 研究的开发者可以直接用,生成更干净的归因图,值得关注。
09:11
09:11
arXiv: DeepSeek@Leonard Engmann, Christian Medeiros Adriano, Holger Giese
精选
推荐理由:MoE 模型剪枝的常用假设被实验证伪了——做模型压缩或可解释性研究的团队,建议重新审视你的专家选择策略,别再依赖路由统计指标。
6月9日
11:36
11:36
arXiv cs.LG@Grégoire Dhimoïla, Victor Boutin, Agustin Martin Picard, Thomas Fel, Thomas Serre
精选
推荐理由:做表征对齐、多模态学习或可解释性研究的团队,这篇论文把概念对齐的混乱局面理清了——CoSAE 用极少量配对数据就能实现强对齐,值得直接复现试试。
11:06
11:06
arXiv cs.LG@Mikele Milia, Louis Fabrice Tshimanga, Henning Mueller, Manfredo Atzori, Barbara Di Camillo
精选
推荐理由:做单细胞转录组分析的团队终于有了一个能同时提升性能和可解释性的Transformer方案——scTransformer把基因调控先验直接嵌入注意力机制,比黑盒模型更可信,建议做生物信息学基础模型的研究者点开看看。
10:39
10:39
arXiv cs.AI@Yongzhong Xu
精选
推荐理由:做模型可解释性研究的团队会感兴趣——这篇论文把共激活聚类和因果消融结合起来,给出了一个验证注意力头电路的实用方法,建议做电路分析的开发者试试这个闭环流程。
09:37
09:37
arXiv cs.AI@Minyoung Hwang, Seokhyun Lee, Changhee Lee
精选
推荐理由:做NLP模型可解释性研究的团队,终于有了一个兼顾效率、黑盒兼容和语言直觉的方案——无需模型内部信息,直接输出可理解的单词子集解释,值得一试。
6月5日
12:57
12:57
arXiv: DeepSeek@Jinu Lee, Shivam Agarwal, Amruta Parulekar, Siddarth Madala, Dilek Hakkani-Tur, Julia Hockenmaier
精选72°
推荐理由:ReasoningFlow 解决了LRM推理轨迹难以评估和监控的痛点,做模型可解释性、推理质量分析的团队可以直接用开源工具和数据集来深入分析模型行为。
6月1日
00:09
AITOP6月1日 00:09
5月29日
5月28日
11:30
11:30
arXiv cs.AI@Bushi Xiao, Sarvesh Soni, Daisy Zhe Wang
精选
推荐理由:临床AI部署中,模型能否准确表达不确定性直接关系到患者安全——Reverse Probing让token级不确定性量化首次在临床摘要场景落地,做医疗NLP或AI安全的研究者值得关注。
5月27日
10:30
10:30
arXiv cs.AI@Yi Jing, Zao Dai, Jinwu Hu, Zijun Yao, Lei Hou, Juanzi Li, Xiaozhi Wang
精选
推荐理由:做LLM后训练数据工程的团队终于有了从模型内部获取信号的方法——SAERL用SAE直接指导数据排序和过滤,比依赖外部信号更高效,做RL训练优化的开发者值得一试。
5月26日
16:09
16:09
Yangyi@Yangyixxxx
精选
推荐理由:AI内部状态研究正在揭示与人类情感相似的结构,做AI安全或可解释性研究的团队值得关注——这可能会改变我们对AI意识的理解方式。
12:38
12:38
arXiv: DeepSeek@Spandan Pratyush
精选
推荐理由:做NLP模型压缩或可解释性研究的开发者,可以关注这种用语法知识替代暴力稀疏化的思路——既省算力又不掉点,值得在长文本任务上试试。
12:37
12:37
arXiv: DeepSeek@Pingfan Su, Kai Ye, Shijin Gong, Erhan Xu, Jin Zhu, Giulia Livieri, Chengchun Shi
精选
推荐理由:AI文本检测的可解释性和鲁棒性一直是痛点,READER用1.5B参数就超越了千倍大模型,做内容安全或反作弊的团队值得关注这个新思路。
11:47
11:47
arXiv cs.AI@Waleed Razzaq, Yun-Bo Zhao
精选
推荐理由:这篇论文为需要可靠不确定性估计的连续时间序列建模场景提供了新思路,做概率机器学习或自动驾驶感知的团队可以关注其神经元级可解释性带来的调试优势。
5月25日
10:00
10:00
arXiv cs.LG@Ping Xiong, Thomas Schnake, Michael Gastegger, Grégoire Montavon, Klaus-Robert Müller, Shinichi Nakajima
精选
推荐理由:做GNN可解释性研究的团队终于有了高效工具——多项式时间算法让GNN-LRP从理论走向大规模应用,做图分析或模型调试的开发者可以直接用开源代码试试。
5月23日
18:38
18:38
marktechpost@Asif Razzaq
精选72°
推荐理由:CNA 让 AI 研究者无需训练 SAE 或修改权重就能精准操控模型行为,做模型对齐和可解释性的团队可以大幅降低实验成本,值得一试。
5月22日
11:15
11:15
arXiv cs.AI@Santo M. A. R. Thies, Hubert Baniecki, R. Teal Witter, Eyke Hüllermeier, Maximilian Muschalik, Fabian Fumagalli
精选
推荐理由:做模型可解释性研究的团队终于有了兼顾速度和精度的交互指数估计器——ProxySHAP 在数千特征场景下仍保持低误差,值得直接替换现有方法。
5月21日
12:17
12:17
arXiv cs.LG@Calvin Isley, Johann D. Gaebler, Sharad Goel
精选
推荐理由:做公平性AI或高利害决策系统的团队,这篇给出了一个可落地的方案——用专家评分嵌入替代黑盒特征,既减少偏见又提升质量,值得细读。
11:27
11:27
arXiv cs.AI@Shreyas Vinaya Sathyanarayana, Raja Sekhar Pappala, Deepak Warrier
精选
推荐理由:做有机合成路线规划的化学家终于有了一个既能给出准确条件推荐、又能展示具体先例的系统——HiRes 让你不再盲目信任黑箱模型,建议点开看看它是如何平衡精度与可解释性的。
09:46
09:46
arXiv cs.AI@Paul Lintilhac, Sair Shaikh
精选
推荐理由:理论研究者终于有了一个更精确的工具来刻画Transformer泛化——傅里叶谱视角比Rademacher复杂度更贴近实际训练行为,做深度学习理论或可解释性的同学值得细读。
5月19日
10:54
10:54
arXiv cs.LG@David Chanin
精选72°
推荐理由:做可解释性研究的团队会发现,你依赖的 SAE 评估指标可能不可靠——TPP 和 SCR 已被证伪,建议改用 sae-probes 并关注新基准的进展。
10:08
10:08
arXiv cs.AI@Xinchen Jin, Aditya Chatterjee, Pranav Kumar, Rohan Paleja
精选
推荐理由:做机器人VLA策略可解释性的研究者终于有了一个行为锚定的分析框架——事件锚定SAE直接关联动作与行为事件,比纯文本分析更贴近闭环控制,建议做机器人学习或可解释AI的团队点开看看。
5月18日
23:14
23:14
AlphaSignal@AlphaSignalAI
精选72°
推荐理由:VPD 解决了神经网络可解释性长期以来的痛点——权重不可读,做模型调试、安全对齐或研究 AI 内部机制的团队可以直接用这个工具来追踪和编辑模型行为。
11:45
11:45
Suhail@Suhail
精选
推荐理由:对 AI 可解释性和安全研究感兴趣的开发者,这篇论文值得一读,能帮你理解模型内部机制。
10:33
10:33
arXiv cs.LG@Nathan Roll, Jill Kries, Laura Gwilliams, Cory Shain
精选
推荐理由:这项研究为理解语言模型内部功能组织提供了全新视角,做AI可解释性或认知科学交叉研究的团队值得关注——它把临床神经心理学方法搬到了模型分析中,看完会重新思考“模型损伤”的意义。
5月17日
11:51
11:51
elvis@omarsar0
精选
推荐理由:做工具调用智能体开发的团队,如果遇到模型明明知道该用工具却就是不调用的怪现象,这篇论文直接点出了后层几何结构的根本原因,值得一读。
