全部 AI 动态 · AI 热点

6月30日

11:14

arXiv cs.LG@Aaryam Sharma

推测解码利用快速起草器生成候选 token，再由大模型验证以加速推理。现有理论主要针对随机采样，而实用系统多用贪婪解码和松弛接受规则。本文提出一类具有拒绝区域的接受准则，并给出其精确 KL 散度下界，覆盖严格贪婪、加性和乘性松弛、top-(m) 以及熵阈值等情形。对于树形解码，推导出目标贪婪 token 仍被起草器 top-(m) 覆盖的充分条件。在 Qwen3 模型上的实验表明，松弛和树形准则显著扩大了可保证接受的区域。

论文 Qwen3 speculative decoding 推理模型解码方法

推荐理由：这篇论文搞明白了推测解码里那些花式接受规则到底行不行，给出了数学保证，还在Qwen3上验证了，搞推理加速的值得一看。

原文

6月25日

09:37

arXiv cs.AI@Tianyu Dong, Yangyang Liu, Jiang Zhou, Xinwei Wu, Xiaohu Zhao, Hao Wang, Heng Liu, Linlong Xu, Longyue Wang, Weihua Luo, Shaolin Zhu, Deyi Xiong

稀疏MoE（Mixture-of-Experts）模型在多语言场景下，低资源语言因数据稀缺导致路由与高资源语言不一致，限制跨语言知识共享。为此提出SARA（Semantically Anchored Routing Alignment）框架，利用对称JS散度对齐路由分布。在Qwen3-30B-A3B和Phi-3.5-MoE-instruct两个模型上，针对5种低资源语言和3个基准测试，SARA在Global-MMLU上分别提升0.8%和1.2%。该方法不依赖输出logits蒸馏，直接对齐内部路由机制，有效缓解低资源语言瓶颈。

论文 SARA MoE Qwen3 多语言模型开源模型

推荐理由：论文提出SARA方法，用语义锚对齐MoE路由，让低资源语言也能用好专家能力，Global-MMLU提升0.8%-1.2%。

原文

6月23日

12:03

arXiv: DeepSeek@Xiang-Jun Ou, Shuang Liang, Xin-Yu Hu, Rong-Hao Huang, Jing Wang, Shao-Qun Zhang

该研究提出一种粒度不确定性分类法，将LLM不确定性归因于输入级、参数级、词元级和解码过程四个源头。研究者将现有21种不确定性量化方法分为贝叶斯、集成、共识和单次推理四类，并在Qwen3、Llama 3.2和DeepSeek-V3三个模型家族上，使用TriviaQA、GSM8K和HumanEval基准进行实验。结果显示，共识方法（Deg和EigV）一致优于其他方法，且更大模型规模与更低不确定性估计相关。该工作为量化LLM不确定性提供了系统诊断工具。

论文 LLM 不确定性量化 Qwen3 Llama 3.2 DeepSeek-V3 模型评估

推荐理由：这篇论文把LLM不确定性拆成四个层面，测了21种方法在多个基准上的效果，结论是共识方法最稳，模型越大越不模糊。

原文

6月22日

18:24

18:24IT之家（博客/媒体）

极摩客 EVO-X3 迷你主机搭载 AMD 锐龙 AI Max+ 395 处理器（16 核心 32 线程），AI 算力达 126 TOPS。官方宣称可本地运行 Qwen3 235B 模型，LM Studio 性能超过 RTX 4090。标配 128GB LPDDR5X-8000 内存，其中 96GB 可分配给显卡作为显存，存储支持双 M.2 PCIe 4.0×4 插槽，最大 16TB。起售价 21699 元（128GB+1TB 版本），配备 OCuLink 接口并兼容 AMD ROCm 生态，可外接 RTX 40/50 系显卡。

AI产品极摩客 EVO-X3 锐龙AI Max+ 395 Qwen3 迷你主机

推荐理由：极摩客发了款迷你主机，锐龙AI Max+ 395，126TOPS算力能本地跑235B模型，性能比RTX 4090还猛，21699元起。

原文

6月18日

10:57

arXiv cs.AI@Chenyu Zhou, Qiliang Jiang, Shuning Wu, Xu Zhou

论文提出MAST方法，在Qwen2.5-Math-1.5B和Qwen3-1.7B-Base上选择性遗忘RLVR诱导的推理，相比全参数更新附带损害更小。MAST通过token级delta-log-probability分析发现SFT-to-RLVR增量与SFT更新差异显著，全参数梯度上升会损害MATH和GSM8K保留性能。MAST基于离主成分能量、更新幅度和遗忘梯度耦合幅度排序注意力投影张量，仅更新前k个子集。在Qwen2.5-Math-1.5B上，MAST使MATH遗忘从45/150降至37/150（McNemar p=0.0078），且GSM8K提升0.8个百分点，MATH保留仅下降0.5个百分点。在Qwen3上，MAST保持GSM8K，而全参数遗忘使其崩溃。

论文 MAST Qwen2.5 Qwen3 推理模型选择性遗忘

推荐理由：这篇论文提出了MAST，一种更精准的模型遗忘方法，在Qwen2.5和Qwen3上只遗忘你想忘的，保留数学能力不掉。适合研究模型编辑或推理安全的同学。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

11:57

arXiv: DeepSeek@Tai Tran Tan, An Dinh Thien

该论文描述了SemEval-2026 Task 6的系统，针对美国总统采访中的政治回避策略分类。比较了两种范式：使用QLoRA对Qwen3（4B-32B）进行参数高效微调，以及使用结构化CoT提示推理模型DeepSeek-V3.2和Grok-4-Fast。Grok-4-Fast在子任务2（9类回避）上取得Macro F1 0.5147，子任务1（3类清晰度）上0.7979，分别排名第8和第13。消融实验表明层次化标签和少样本示例提升了效果，但最强提示变体间Macro F1无显著差异。

论文 Grok-4-Fast DeepSeek-V3.2 Qwen3 推理模型政治回避检测

推荐理由：想知道怎么用CoT提示检测政治回避？这篇论文拿Grok-4-Fast跑出了0.51的F1，比微调Qwen3强，还分析了怎么设计提示最有效。

原文

11:04

arXiv cs.LG@Kaiyue Wen, Xingyu Dang, Kaifeng Lyu, Tengyu Ma, Percy Liang

论文提出Hyperball，一种简单优化器包装器，固定权重矩阵及其更新量的Frobenius范数，解决Muon等优化器在大模型（如1.2B参数Qwen3模型）上相比AdamW加速效果衰减的问题。实验表明，Muon+Hyperball实现20-30% token等效加速，并改善学习率在宽度和深度上的迁移。该方法受理论启发：权重衰减导致平衡权重范数仅依赖于超参数，进而决定角度学习率。

论文 Hyperball Muon Qwen3 优化器预训练

推荐理由：Muon在大模型上加速效果缩水？Hyperball通过固定矩阵范数，让Muon在1.2B Qwen3上又快了20-30%，还更好调参。

原文

10:54

arXiv cs.LG@Martin Jaggi

混合专家架构通过每个token激活少量专家来高效扩展大语言模型，但训练和推理时仍需加载全部专家参数。本研究提出Expert Tying方法，在保持独立层路由和注意力的前提下，将相邻Transformer层的专家参数共享。在OLMoE、Qwen3和DeepSeek-style MoE上的预训练实验显示，该方法可将内存占用减少近2倍，且困惑度和下游任务质量几乎不受影响。该方法利用了MoE路径中固有的参数冗余，实现了计算与内存的高效权衡。

论文 Expert Tying MoE OLMoE Qwen3 模型压缩

推荐理由：这个工作很实在：跨层共享专家参数让MoE模型内存减半，性能不掉，适合做模型压缩和高效训练的朋友看看。

原文

09:42

arXiv: DeepSeek@Jiakai Li, Ke Qin, Rongzheng Wang, Yizhuo Ma, Qizhi Chen, Muquan Li, Shuang Liang

大推理模型（LRM）常因过度思考生成冗余token，降低准确率。ASAG方法通过分析注意力分布推断推理状态，自适应调整生成策略。该方法无需训练，可即插即用，在DeepSeek-R1-Distill和Qwen3系列等主流模型上测试。在Qwen3-8B上，ASAG平均准确率提升3.2%，生成token减少约40%。

论文 ASAG DeepSeek-R1 Qwen3 推理模型注意力机制

推荐理由：想减少推理模型输出废话？ASAG免费即插即用，在Qwen3-8B上准确率升3.2%还省近40%token，实打实的效果。

原文

6月15日

11:11

arXiv cs.LG@Carlo Di Cicco

该论文使用Qwen3-4B-Instruct模型在444个LiveCodeBench任务上研究代码正确性信号。首次尝试的代码正确性可从提示最终隐藏状态线性解码，无泄漏AUC为0.931±0.008。去除提示长度线性效应后AUC仍为0.911±0.010，高于基线0.754±0.014。在236个修复案例中，隐藏状态变化存在对比方向，但去除修复上下文协变量后不显著，表明其为修复上下文相关特征。

论文 Qwen3 代码正确性隐藏状态 LiveCodeBench LLM可解释性

推荐理由：论文揭示Qwen3隐藏状态如何预测代码正确性

原文

6月12日