全部 AI 动态 · AI 热点

6月25日

09:37

arXiv cs.AI@Tianyu Dong, Yangyang Liu, Jiang Zhou, Xinwei Wu, Xiaohu Zhao, Hao Wang, Heng Liu, Linlong Xu, Longyue Wang, Weihua Luo, Shaolin Zhu, Deyi Xiong

稀疏MoE（Mixture-of-Experts）模型在多语言场景下，低资源语言因数据稀缺导致路由与高资源语言不一致，限制跨语言知识共享。为此提出SARA（Semantically Anchored Routing Alignment）框架，利用对称JS散度对齐路由分布。在Qwen3-30B-A3B和Phi-3.5-MoE-instruct两个模型上，针对5种低资源语言和3个基准测试，SARA在Global-MMLU上分别提升0.8%和1.2%。该方法不依赖输出logits蒸馏，直接对齐内部路由机制，有效缓解低资源语言瓶颈。

论文 SARA MoE Qwen3 多语言模型开源模型

推荐理由：论文提出SARA方法，用语义锚对齐MoE路由，让低资源语言也能用好专家能力，Global-MMLU提升0.8%-1.2%。

原文

6月23日

12:03

arXiv: DeepSeek@Xiang-Jun Ou, Shuang Liang, Xin-Yu Hu, Rong-Hao Huang, Jing Wang, Shao-Qun Zhang

该研究提出一种粒度不确定性分类法，将LLM不确定性归因于输入级、参数级、词元级和解码过程四个源头。研究者将现有21种不确定性量化方法分为贝叶斯、集成、共识和单次推理四类，并在Qwen3、Llama 3.2和DeepSeek-V3三个模型家族上，使用TriviaQA、GSM8K和HumanEval基准进行实验。结果显示，共识方法（Deg和EigV）一致优于其他方法，且更大模型规模与更低不确定性估计相关。该工作为量化LLM不确定性提供了系统诊断工具。

论文 LLM 不确定性量化 Qwen3 Llama 3.2 DeepSeek-V3 模型评估

推荐理由：这篇论文把LLM不确定性拆成四个层面，测了21种方法在多个基准上的效果，结论是共识方法最稳，模型越大越不模糊。

原文

6月18日

10:57

arXiv cs.AI@Chenyu Zhou, Qiliang Jiang, Shuning Wu, Xu Zhou

论文提出MAST方法，在Qwen2.5-Math-1.5B和Qwen3-1.7B-Base上选择性遗忘RLVR诱导的推理，相比全参数更新附带损害更小。MAST通过token级delta-log-probability分析发现SFT-to-RLVR增量与SFT更新差异显著，全参数梯度上升会损害MATH和GSM8K保留性能。MAST基于离主成分能量、更新幅度和遗忘梯度耦合幅度排序注意力投影张量，仅更新前k个子集。在Qwen2.5-Math-1.5B上，MAST使MATH遗忘从45/150降至37/150（McNemar p=0.0078），且GSM8K提升0.8个百分点，MATH保留仅下降0.5个百分点。在Qwen3上，MAST保持GSM8K，而全参数遗忘使其崩溃。

论文 MAST Qwen2.5 Qwen3 推理模型选择性遗忘

推荐理由：这篇论文提出了MAST，一种更精准的模型遗忘方法，在Qwen2.5和Qwen3上只遗忘你想忘的，保留数学能力不掉。适合研究模型编辑或推理安全的同学。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

11:57

arXiv: DeepSeek@Tai Tran Tan, An Dinh Thien

该论文描述了SemEval-2026 Task 6的系统，针对美国总统采访中的政治回避策略分类。比较了两种范式：使用QLoRA对Qwen3（4B-32B）进行参数高效微调，以及使用结构化CoT提示推理模型DeepSeek-V3.2和Grok-4-Fast。Grok-4-Fast在子任务2（9类回避）上取得Macro F1 0.5147，子任务1（3类清晰度）上0.7979，分别排名第8和第13。消融实验表明层次化标签和少样本示例提升了效果，但最强提示变体间Macro F1无显著差异。

论文 Grok-4-Fast DeepSeek-V3.2 Qwen3 推理模型政治回避检测

推荐理由：想知道怎么用CoT提示检测政治回避？这篇论文拿Grok-4-Fast跑出了0.51的F1，比微调Qwen3强，还分析了怎么设计提示最有效。

原文

11:04

arXiv cs.LG@Kaiyue Wen, Xingyu Dang, Kaifeng Lyu, Tengyu Ma, Percy Liang

论文提出Hyperball，一种简单优化器包装器，固定权重矩阵及其更新量的Frobenius范数，解决Muon等优化器在大模型（如1.2B参数Qwen3模型）上相比AdamW加速效果衰减的问题。实验表明，Muon+Hyperball实现20-30% token等效加速，并改善学习率在宽度和深度上的迁移。该方法受理论启发：权重衰减导致平衡权重范数仅依赖于超参数，进而决定角度学习率。

论文 Hyperball Muon Qwen3 优化器预训练

推荐理由：Muon在大模型上加速效果缩水？Hyperball通过固定矩阵范数，让Muon在1.2B Qwen3上又快了20-30%，还更好调参。

原文

10:54

arXiv cs.LG@Martin Jaggi

混合专家架构通过每个token激活少量专家来高效扩展大语言模型，但训练和推理时仍需加载全部专家参数。本研究提出Expert Tying方法，在保持独立层路由和注意力的前提下，将相邻Transformer层的专家参数共享。在OLMoE、Qwen3和DeepSeek-style MoE上的预训练实验显示，该方法可将内存占用减少近2倍，且困惑度和下游任务质量几乎不受影响。该方法利用了MoE路径中固有的参数冗余，实现了计算与内存的高效权衡。

论文 Expert Tying MoE OLMoE Qwen3 模型压缩

推荐理由：这个工作很实在：跨层共享专家参数让MoE模型内存减半，性能不掉，适合做模型压缩和高效训练的朋友看看。

原文

09:42

arXiv: DeepSeek@Jiakai Li, Ke Qin, Rongzheng Wang, Yizhuo Ma, Qizhi Chen, Muquan Li, Shuang Liang

大推理模型（LRM）常因过度思考生成冗余token，降低准确率。ASAG方法通过分析注意力分布推断推理状态，自适应调整生成策略。该方法无需训练，可即插即用，在DeepSeek-R1-Distill和Qwen3系列等主流模型上测试。在Qwen3-8B上，ASAG平均准确率提升3.2%，生成token减少约40%。

论文 ASAG DeepSeek-R1 Qwen3 推理模型注意力机制

推荐理由：想减少推理模型输出废话？ASAG免费即插即用，在Qwen3-8B上准确率升3.2%还省近40%token，实打实的效果。

原文

6月15日

11:11

arXiv cs.LG@Carlo Di Cicco

该论文使用Qwen3-4B-Instruct模型在444个LiveCodeBench任务上研究代码正确性信号。首次尝试的代码正确性可从提示最终隐藏状态线性解码，无泄漏AUC为0.931±0.008。去除提示长度线性效应后AUC仍为0.911±0.010，高于基线0.754±0.014。在236个修复案例中，隐藏状态变化存在对比方向，但去除修复上下文协变量后不显著，表明其为修复上下文相关特征。

论文 Qwen3 代码正确性隐藏状态 LiveCodeBench LLM可解释性

推荐理由：论文揭示Qwen3隐藏状态如何预测代码正确性

原文

6月12日