11:14arXiv cs.LG@Aaryam Sharma推测解码利用快速起草器生成候选 token,再由大模型验证以加速推理。现有理论主要针对随机采样,而实用系统多用贪婪解码和松弛接受规则。本文提出一类具有拒绝区域的接受准则,并给出其精确 KL 散度下界,覆盖严格贪婪、加性和乘性松弛、top-(m) 以及熵阈值等情形。对于树形解码,推导出目标贪婪 token 仍被起草器 top-(m) 覆盖的充分条件。在 Qwen3 模型上的实验表明,松弛和树形准则显著扩大了可保证接受的区域。论文Qwen3speculative decoding推理模型解码方法推荐理由:这篇论文搞明白了推测解码里那些花式接受规则到底行不行,给出了数学保证,还在Qwen3上验证了,搞推理加速的值得一看。原文
09:37arXiv cs.AI@Tianyu Dong, Yangyang Liu, Jiang Zhou, Xinwei Wu, Xiaohu Zhao, Hao Wang, Heng Liu, Linlong Xu, Longyue Wang, Weihua Luo, Shaolin Zhu, Deyi Xiong稀疏MoE(Mixture-of-Experts)模型在多语言场景下,低资源语言因数据稀缺导致路由与高资源语言不一致,限制跨语言知识共享。为此提出SARA(Semantically Anchored Routing Alignment)框架,利用对称JS散度对齐路由分布。在Qwen3-30B-A3B和Phi-3.5-MoE-instruct两个模型上,针对5种低资源语言和3个基准测试,SARA在Global-MMLU上分别提升0.8%和1.2%。该方法不依赖输出logits蒸馏,直接对齐内部路由机制,有效缓解低资源语言瓶颈。论文SARAMoEQwen3多语言模型开源模型推荐理由:论文提出SARA方法,用语义锚对齐MoE路由,让低资源语言也能用好专家能力,Global-MMLU提升0.8%-1.2%。原文
12:03arXiv: DeepSeek@Xiang-Jun Ou, Shuang Liang, Xin-Yu Hu, Rong-Hao Huang, Jing Wang, Shao-Qun Zhang该研究提出一种粒度不确定性分类法,将LLM不确定性归因于输入级、参数级、词元级和解码过程四个源头。研究者将现有21种不确定性量化方法分为贝叶斯、集成、共识和单次推理四类,并在Qwen3、Llama 3.2和DeepSeek-V3三个模型家族上,使用TriviaQA、GSM8K和HumanEval基准进行实验。结果显示,共识方法(Deg和EigV)一致优于其他方法,且更大模型规模与更低不确定性估计相关。该工作为量化LLM不确定性提供了系统诊断工具。论文LLM不确定性量化Qwen3Llama 3.2DeepSeek-V3模型评估1 个信源在谈推荐理由:这篇论文把LLM不确定性拆成四个层面,测了21种方法在多个基准上的效果,结论是共识方法最稳,模型越大越不模糊。原文
18:24IT之家(博客/媒体)极摩客 EVO-X3 迷你主机搭载 AMD 锐龙 AI Max+ 395 处理器(16 核心 32 线程),AI 算力达 126 TOPS。官方宣称可本地运行 Qwen3 235B 模型,LM Studio 性能超过 RTX 4090。标配 128GB LPDDR5X-8000 内存,其中 96GB 可分配给显卡作为显存,存储支持双 M.2 PCIe 4.0×4 插槽,最大 16TB。起售价 21699 元(128GB+1TB 版本),配备 OCuLink 接口并兼容 AMD ROCm 生态,可外接 RTX 40/50 系显卡。AI产品极摩客EVO-X3锐龙AI Max+ 395Qwen3迷你主机推荐理由:极摩客发了款迷你主机,锐龙AI Max+ 395,126TOPS算力能本地跑235B模型,性能比RTX 4090还猛,21699元起。原文
10:57arXiv cs.AI@Chenyu Zhou, Qiliang Jiang, Shuning Wu, Xu Zhou论文提出MAST方法,在Qwen2.5-Math-1.5B和Qwen3-1.7B-Base上选择性遗忘RLVR诱导的推理,相比全参数更新附带损害更小。MAST通过token级delta-log-probability分析发现SFT-to-RLVR增量与SFT更新差异显著,全参数梯度上升会损害MATH和GSM8K保留性能。MAST基于离主成分能量、更新幅度和遗忘梯度耦合幅度排序注意力投影张量,仅更新前k个子集。在Qwen2.5-Math-1.5B上,MAST使MATH遗忘从45/150降至37/150(McNemar p=0.0078),且GSM8K提升0.8个百分点,MATH保留仅下降0.5个百分点。在Qwen3上,MAST保持GSM8K,而全参数遗忘使其崩溃。论文MASTQwen2.5Qwen3推理模型选择性遗忘推荐理由:这篇论文提出了MAST,一种更精准的模型遗忘方法,在Qwen2.5和Qwen3上只遗忘你想忘的,保留数学能力不掉。适合研究模型编辑或推理安全的同学。原文
11:57arXiv: DeepSeek@Tai Tran Tan, An Dinh Thien该论文描述了SemEval-2026 Task 6的系统,针对美国总统采访中的政治回避策略分类。比较了两种范式:使用QLoRA对Qwen3(4B-32B)进行参数高效微调,以及使用结构化CoT提示推理模型DeepSeek-V3.2和Grok-4-Fast。Grok-4-Fast在子任务2(9类回避)上取得Macro F1 0.5147,子任务1(3类清晰度)上0.7979,分别排名第8和第13。消融实验表明层次化标签和少样本示例提升了效果,但最强提示变体间Macro F1无显著差异。论文Grok-4-FastDeepSeek-V3.2Qwen3推理模型政治回避检测1 个信源在谈推荐理由:想知道怎么用CoT提示检测政治回避?这篇论文拿Grok-4-Fast跑出了0.51的F1,比微调Qwen3强,还分析了怎么设计提示最有效。原文
11:04arXiv cs.LG@Kaiyue Wen, Xingyu Dang, Kaifeng Lyu, Tengyu Ma, Percy Liang论文提出Hyperball,一种简单优化器包装器,固定权重矩阵及其更新量的Frobenius范数,解决Muon等优化器在大模型(如1.2B参数Qwen3模型)上相比AdamW加速效果衰减的问题。实验表明,Muon+Hyperball实现20-30% token等效加速,并改善学习率在宽度和深度上的迁移。该方法受理论启发:权重衰减导致平衡权重范数仅依赖于超参数,进而决定角度学习率。论文HyperballMuonQwen3优化器预训练推荐理由:Muon在大模型上加速效果缩水?Hyperball通过固定矩阵范数,让Muon在1.2B Qwen3上又快了20-30%,还更好调参。原文
10:54arXiv cs.LG@Martin Jaggi混合专家架构通过每个token激活少量专家来高效扩展大语言模型,但训练和推理时仍需加载全部专家参数。本研究提出Expert Tying方法,在保持独立层路由和注意力的前提下,将相邻Transformer层的专家参数共享。在OLMoE、Qwen3和DeepSeek-style MoE上的预训练实验显示,该方法可将内存占用减少近2倍,且困惑度和下游任务质量几乎不受影响。该方法利用了MoE路径中固有的参数冗余,实现了计算与内存的高效权衡。论文Expert TyingMoEOLMoEQwen3模型压缩推荐理由:这个工作很实在:跨层共享专家参数让MoE模型内存减半,性能不掉,适合做模型压缩和高效训练的朋友看看。原文
09:42arXiv: DeepSeek@Jiakai Li, Ke Qin, Rongzheng Wang, Yizhuo Ma, Qizhi Chen, Muquan Li, Shuang Liang大推理模型(LRM)常因过度思考生成冗余token,降低准确率。ASAG方法通过分析注意力分布推断推理状态,自适应调整生成策略。该方法无需训练,可即插即用,在DeepSeek-R1-Distill和Qwen3系列等主流模型上测试。在Qwen3-8B上,ASAG平均准确率提升3.2%,生成token减少约40%。论文ASAGDeepSeek-R1Qwen3推理模型注意力机制推荐理由:想减少推理模型输出废话?ASAG免费即插即用,在Qwen3-8B上准确率升3.2%还省近40%token,实打实的效果。原文
11:11arXiv cs.LG@Carlo Di Cicco该论文使用Qwen3-4B-Instruct模型在444个LiveCodeBench任务上研究代码正确性信号。首次尝试的代码正确性可从提示最终隐藏状态线性解码,无泄漏AUC为0.931±0.008。去除提示长度线性效应后AUC仍为0.911±0.010,高于基线0.754±0.014。在236个修复案例中,隐藏状态变化存在对比方向,但去除修复上下文协变量后不显著,表明其为修复上下文相关特征。论文Qwen3代码正确性隐藏状态LiveCodeBenchLLM可解释性推荐理由:论文揭示Qwen3隐藏状态如何预测代码正确性原文
14:06IT之家(博客/媒体)精选72°苹果在 WWDC 上推出 CoreAI 引擎,接替服役 9 年的 CoreML,主打端侧大模型推理。首批基准测试显示,在 M4 Mac 上运行 Qwen3 0.6B 小模型时,CoreAI 解码速度是 MLX 的 2.47 倍,iPhone 17 Pro 上为 1.6 倍。但在 80 亿参数模型上,CoreAI 仅比 MLX 快 5%,优势随模型规模增大而收窄。持续负载测试中,CoreML 配合神经引擎在温控降频场景下性能保持率反超 GPU 路线。横向对比,谷歌 LiteRT-LM 运行 Gemma 时内存占用仅为苹果 MLX 的 1/4.5,显示针对特定模型优化的重要性。AI产品苹果CoreAI端侧推理MLXQwen3推荐理由:苹果端侧 AI 架构迎来重大更新,CoreAI 在小模型推理上显著提速,做本地 AI 应用或模型部署的开发者值得关注,尤其是 M4 Mac 用户可以直接感受到更快的响应。原文
10:38arXiv cs.LG@Ting-Yun Chang, Harvey Yiyun Fu, Deqing Fu, Chenghao Yang, Jesse Thomason, Robin Jia精选推理模型通过长思维链提升准确性,但长输出导致内存和计算瓶颈。现有KV缓存淘汰方法在压缩缓存时会丢失关键信息,导致模型陷入重复推理循环。研究发现,少量值状态具有异常大的幅度,淘汰它们会引发灾难性失败;引入随机性可提高缓存多样性。基于此,研究者提出VaSE方法,无需训练即可保护大幅度值状态并促进多样化淘汰决策。在6个推理任务上,Qwen3模型使用VaSE实现4倍KV缓存压缩,准确率超过最强淘汰方法4%以上,弥合了效率与准确性之间的差距。论文KV缓存推理模型内存优化随机淘汰Qwen3推荐理由:推理模型的长输出让内存和计算成本飙升,VaSE用随机淘汰策略在4倍压缩下保持高准确率,做推理模型优化的开发者可以直接参考论文实现。原文
11:10arXiv cs.AI@Ekaterina Alimaskina, Darya Rudas, Denis Shveykin, Gleb Molodtsov, Pavel Vasiliev, Aleksandr Beznosikov精选72°该研究揭示了大型推理模型在极端低比特(2-bit)量化推理时,并非单纯降低答案准确率,而是产生更长的推理轨迹,包括重复循环、预算耗尽、延迟决策和未闭合推理段,导致端到端速度不升反降。作者针对 Qwen3-8B 和 Qwen3-32B 模型,提出了两种轻量级控制方法:FP16 规划(为 2-bit 模型提供短的高精度大纲)和循环救援(检测重复轨迹并回退或提前提交答案)。在 MATH-500 上,循环救援将 Qwen3-8B 准确率从 17.2% 提升至 74.2%,规划加循环救援将 Qwen3-32B 从 65.0% 提升至 87.2%。研究表明,将低比特推理失败视为可控生成病理,通过轻量检测和选择性 FP16 支持,2-bit 推理可以恢复准确率并保持真实端到端加速。代码已开源。论文推理模型量化/低比特Qwen3失败模式开源/仓库推荐理由:做推理模型量化和部署的团队终于有了针对 2-bit 失败模式的系统解法——不是简单降精度,而是用 FP16 规划和循环救援来修复生成过程,Qwen3 用户可以直接复现并提升准确率。原文
11:56arXiv: DeepSeek@Junhyuck Kim, Jihun Yun, Haechan Kim, Gyeongman Kim, Joonghyun Bae, Jaewoong Cho精选72°该研究提出了首个系统化框架,将混合专家模型(MoE)转换为标准全稠密架构。通过专家评分、选择、分组并拼接成稠密前馈网络,再通过知识蒸馏从MoE教师模型精炼。在Qwen3-30B-A3B上评估了7种评分、5种分组和2种幅度缩放方法,共350种配置。发现评分方法影响最大,其提出的多样性感知评分在多个模型上优于先前方法。在参数匹配控制下,MoE转稠密比稠密到稠密剪枝平均下游准确率提升6.3个百分点,训练速度快1.6倍。论文模型压缩知识蒸馏混合专家模型稠密模型Qwen3推荐理由:这个框架解决了MoE模型在内存受限设备上部署的痛点,做模型压缩和边缘部署的团队可以直接参考其方法,比传统剪枝效果更好且训练更快。原文
07:14marktechpost@Sana Hassan本文教程介绍了如何使用 ZeroEntropy 的 Zerank-2 重排序器(基于 Qwen3 的 4B 交叉编码器)来提升检索质量。教程从设置运行环境、加载模型开始,逐步讲解如何对查询-文档对进行评分。接着,从简单的成对评分过渡到实用的两阶段检索-重排序管道:先用快速的双编码器检索候选文档,再用 Zerank-2 进行精排。该方案能显著提高检索精度,适合需要高准确率的信息检索场景。AI模型检索增强生成重排序交叉编码器Qwen3ZeroEntropy推荐理由:做 RAG 或搜索系统的开发者,这个教程直接教你用 Zerank-2 搭建两阶段管道,从环境配置到实战代码都有,值得跟着跑一遍。原文
02:52rohanpaul_ai@rohanpaul_ai精选72°研究发现,大型混合专家(MoE)模型在处理许多简单token时,浪费了约一半的专家计算资源。新提出的ZEDA(零专家自蒸馏适应)框架,通过为路由器添加“零专家”选项,让模型在token不需要复杂处理时直接跳过专家计算。该方法无需重新训练,而是将原MoE模型作为冻结教师,通过自蒸馏学习何时安全跳过计算。在Qwen3-30B-A3B和GLM-4.7-Flash上测试,去除了约50%的专家计算,精度损失极小,实际推理速度提升约20%。这表明计算消耗并不简单跟随任务难度,而是与不确定性相关,为部署MoE模型提供了更经济的方案。论文MoE模型优化推理加速自蒸馏Qwen3GLM推荐理由:部署MoE模型的团队终于可以省下一半专家计算——ZEDA让Qwen3和GLM等模型自动跳过简单token,推理速度提升20%且几乎不掉精度,做模型推理优化的开发者可以直接参考论文方法。原文
14:46arXiv cs.LG@Minrui Xu, Zilin Wang, Mengyi DENG, Zhiwei Li, Zhicheng Yang, Xiao Zhu, Yinhong Liu, Boyu Zhu, Baiyu Huang, Chao Chen, Heyuan Deng, Fei Mi, Lifeng Shang, Xingshan Zeng, Zhijiang Guo精选72°EnvFactory是一个全自动框架,解决了Agentic RL中可扩展执行环境缺失和真实训练数据稀缺两大瓶颈。它从真实资源中自主探索并验证有状态、可执行的工具环境,通过拓扑感知采样和校准精炼合成自然的多轮轨迹,生成带有隐式意图的查询。仅用85个已验证环境(远少于此前工作的5倍以上),EnvFactory就生成了2575条SFT和RL轨迹,并在BFCLv3、MCP-Atlas等基准上提升Qwen3系列模型最高15%。该框架完全自动化环境构建和轨迹合成,为Agentic RL提供了可扩展、可扩展且鲁棒的基础。论文Agentic RL工具使用环境合成Qwen3自动化框架推荐理由:做Agentic RL的团队终于有了自动化环境构建方案——EnvFactory只用85个环境就碾压了此前5倍数据量的方法,想省掉手动造环境成本的开发者可以直接用。原文
19:12arXiv cs.AI@Yuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang, Alborz Geramifard精选75°该论文提出了一种新的语言模型后训练原则:将稀缺的标注验证数据优先用于最强模型(教师)进行稀疏奖励强化学习(如GRPO),然后通过稠密奖励蒸馏(如OPD)将行为迁移到小模型(学生)。实验表明,在固定学生模型大小(Qwen3-1.7B)下,先对8B教师进行RL再蒸馏,效果优于直接在学生上运行GRPO。该原则强调避免在未准备好的策略上使用稀缺数据,而是通过“稀疏奖励发现→稠密迁移→学生侧稀疏奖励”的流程优化资源分配。论文后训练强化学习知识蒸馏奖励设计Qwen3推荐理由:这篇论文为资源受限的团队提供了明确的训练策略——用最强模型做探索、用小模型做部署,做模型压缩或后训练的开发者可以直接参考这个稀疏到稠密的分配原则来提升效率。原文
15:51Perplexity@perplexity_ai精选Perplexity AI 发布了关于在 NVIDIA GB200 NVL72 Blackwell 机架上部署后训练 Qwen3 235B 模型的新研究。研究表明,GB200 不仅是训练平台,更是大型 MoE 模型高吞吐推理的重大升级,性能显著优于 Hopper 架构。该工作展示了如何利用 Blackwell 的硬件特性优化推理效率,为大规模 AI 服务提供新思路。AI模型推理模型PerplexityQwen3NVIDIA GB200MoE推荐理由:做大规模模型推理部署的团队值得关注——GB200 在 MoE 模型上的推理效率提升显著,Perplexity 的实践给出了可直接参考的优化路径。原文
19:03arXiv: DeepSeek(学术论文)70°该研究揭示了共享输出Token预算时,长思维链会挤占答案空间,导致准确率下降的“耦合税”现象。在GSM8K、MATH-500等任务中,非思维链模式在≤2048 Token下表现更优,且Qwen3模型呈逆缩放规律。作者提出截断-浪费分解模型预测关键点,并通过拆分预算生成方法(如IRIS)将MATH-500准确率提升至83.6%。结果表明测试时推理应被视为预算分配问题。论文思维链Token预算推理模型Qwen3DeepSeek-R1推荐理由:该工作对当前LLM推理优化具有实际指导意义,提醒研究者在固定输出长度场景中平衡推理链与答案空间,避免盲目延长思维链。原文