10:06arXiv: DeepSeek@Yanglin Yan, Zicheng Xie, Tianchen Gao, Rui Pan, Hansheng Wang本文提出一种基于LLM的语义对齐框架,将期刊推荐转化为稿件内容与期刊范围描述的语义匹配问题。该框架无需任务特定训练,可直接利用LLM从标题、摘要、关键词和候选期刊信息中推断适合性。实验使用DeepSeek-V3在49个统计及相关领域期刊的23,609篇文章上进行,Top-3、Top-5和Top-10准确率分别为40.23%、53.67%和70.05%。加入参考文献信息普遍提升推荐性能,重复运行的平均Top-5 Jaccard相似度达84%,且框架能生成可解释的推理输出。论文DeepSeek-V3语义对齐期刊推荐学术信息推荐理由:这篇论文用DeepSeek-V3搞期刊推荐,不用训练直接匹配,23,609篇文章上Top-5超53%,比传统方法更灵活还带解释。原文
12:03arXiv: DeepSeek@Xiang-Jun Ou, Shuang Liang, Xin-Yu Hu, Rong-Hao Huang, Jing Wang, Shao-Qun Zhang该研究提出一种粒度不确定性分类法,将LLM不确定性归因于输入级、参数级、词元级和解码过程四个源头。研究者将现有21种不确定性量化方法分为贝叶斯、集成、共识和单次推理四类,并在Qwen3、Llama 3.2和DeepSeek-V3三个模型家族上,使用TriviaQA、GSM8K和HumanEval基准进行实验。结果显示,共识方法(Deg和EigV)一致优于其他方法,且更大模型规模与更低不确定性估计相关。该工作为量化LLM不确定性提供了系统诊断工具。论文LLM不确定性量化Qwen3Llama 3.2DeepSeek-V3模型评估1 个信源在谈推荐理由:这篇论文把LLM不确定性拆成四个层面,测了21种方法在多个基准上的效果,结论是共识方法最稳,模型越大越不模糊。原文
12:00arXiv: DeepSeek@Yuhan jiang, Peng Luo, Liqiu Meng精选新基准Lost in Aggregation将迷宫导航分解为Fine(局部通行)、Meso(交叉口拓扑)和Macro(全局方向)三个认知层级。在1050个拓扑标注迷宫(3x3至30x30共7种尺寸、3个难度级别)上评估GPT-4o、DeepSeek-V3和Llama-3.3-70B。结果发现:端到端导航在10x10以上几乎完全失败,但单独测试各层级时模型在30-75%水平。首错分析定位59%失败在Meso层级、39%在Fine层级,全局方向仅1%。层次化规划(仅在交叉口查询LLM、配合显式单元格提示)将GPT-4o在中等尺寸上的成功率提升最多92个百分点,但30x30时又遇到扩展瓶颈。基准代码和迷宫已开源。AI模型Lost in AggregationGPT-4oDeepSeek-V3Llama-3.3-70B空间推理推荐理由:想知道LLM为什么在导航任务中迷路吗?这个基准把问题拆成三个层级,告诉你59%的锅在交叉口选择,39%在局部感知,方向判断几乎不犯错。对做空间推理的开发者非常有用。原文
09:24arXiv: DeepSeek@Serena A. Hoffstedde, Machiko Hirota, Akshara Nadayanur Sathis Kanna, Rihito Kotani, Ujwal Kumar, Gabriele Trovato, Phan Xuan Tan该研究使用60份日本履歴書格式简历、12个基于语言性别信号的名字对,以及Claude Sonnet 4.6、GPT-4o、DeepSeek-V3、Gemini 2.5 Flash、Llama 3.3 70B五个SOTA模型,进行了43200次API调用。交叉随机效应线性混合模型确认所有五个模型均存在显著亲女性偏见。提示级性别中立指令未能有效减少偏见。移除名字几乎完全消除了女性效应,表明名字是主要性别通道。隐私过滤器与GPT-4o安全过滤器的不兼容导致42%的请求被拒绝。论文GPT-4oDeepSeek-V3Claude Sonnet 4.6性别偏见招聘推荐理由:这篇论文用43200次测试发现,五个主流LLM在日文简历上全有亲女性偏见,改提示没用,删名字才行,看清AI招聘的坑。原文
07:25IT之家(博客/媒体)83°英伟达在MLPerf Training 6.0七项基准测试中全部夺魁,Blackwell平台成为唯一全覆盖的提交系统。全新GB300 NVL72相比GB200 NVL72同等规模带来1.6倍训练速度提升。CoreWeave使用基于Spectrum-X以太网的GB300 NVL72系统,在8192块GPU规模下将DeepSeek-V3 671B训练耗时缩短至2.02分钟。本次测试首次引入DeepSeek-V3 671B和GPT-OSS-20B两个MoE工作负载,刷新了大规模训练效率纪录。AI模型NVIDIABlackwellDeepSeek-V3MLPerf训练基准9 个信源在谈推荐理由:英伟达Blackwell平台在MLPerf上把DeepSeek-V3 671B训练时间压到2分钟,比上代快60%,性能真狠。原文
09:42arXiv: DeepSeek@Yixuan Wang, Yiyang Zhou, Yiming Liang, Congyu Zhang, Fuxiao Liu, Jiawei Zhou, Huaxiu Yao精选72°论文提出ASSAY框架,通过随机遮蔽测量技能库中每个技能的因果贡献,发现个体技能对某些任务类型有帮助但对其他任务有害,全局筛选效果欠佳。ASSAY在AppWorld和tau-bench两个基准上,对DeepSeek-V3、GPT-4.1等7个基础模型进行测试。在AppWorld最难分岔上,DeepSeek-V3达到69.3%任务目标完成率,相对提升47.4%,超越所有已发表方法包括权重微调方法。在tau-bench零售环境中,GPT-4.1相对提升8.7%,超越o4-mini、o1和GPT-4.5。消融实验表明主要增益来自推理时按任务遮蔽技能,而非全局移除坏技能。论文ASSAYDeepSeek-V3GPT-4.1智能体技能库推荐理由:一篇教你如何让AI智能体更聪明的研究:不用改权重,光靠整理技能库就能让DeepSeek-V3和GPT-4.1冲上榜单第一,方法还开源了。原文
09:46arXiv: DeepSeek@Xu-Jing Ye, Yuan-Gen Wang, Ruping WangL-VARC是一种新框架,通过语言引导的LUPI分支增强视觉推理,解决ARC任务中纯语言模型参数大、纯视觉模型过拟合的问题。它利用DeepSeek-V3压缩语义,用CLIP对齐视觉与语义特征,训练后丢弃语言分支,仅保留18M参数的轻量模型。实验表明,L-VARC在ARC任务上超越现有最佳方法,代码已开源。论文视觉推理ARCLUPIDeepSeek-V3轻量模型推荐理由:ARC是AGI的关键测试,L-VARC用语言引导视觉推理,18M参数就能超越SOTA,做视觉推理或小模型研究的开发者值得一试。原文
10:11arXiv: DeepSeek@Megan Frisella, Shubham Tiwari, Andy Ruan, Yi Pan, Parker Gustafson, Mat Jacob, Gilbert Bernstein, Stephanie Wang精选Piper 是一种用户可控的分布式训练系统,通过将训练策略与运行时实现解耦,解决了现有系统难以适应新策略或集成先进策略的问题。用户只需通过少量模型注释和调度指令声明训练策略,系统自动编译为设备执行计划。Piper 使用统一中间表示(IR)表示所有计算和通信,支持数据、流水线、专家并行及 ZeRO 等优化。实验表明,Piper 在常见策略上保持性能,同时通过联合调度计算和通信(如 DeepSeek-V3 的 DualPipe)实现额外性能与内存效率提升。论文分布式训练并行策略中间表示ZeRODeepSeek-V3推荐理由:Piper 解决了分布式训练中策略与实现绑定的痛点,做大规模模型训练或并行策略研究的开发者可以直接用这套框架灵活组合新策略,省去手动调优的麻烦。原文
12:38arXiv: DeepSeek@Ali Şenol, Garima Agrawal, Huan Liu精选当前LLM评估主要依赖最终答案正确率,忽略了推理过程的质量。本研究提出一个多维度行为框架,从正确性、一致性、鲁棒性、逻辑连贯性、效率和稳定性六个维度衡量推理质量。实验发现,逻辑连贯性与正确性正交(r=-0.172),即正确答案可能来自不连贯推理。该框架还暴露了排名反转:DeepSeek-V3在准确率优先下排名第二,但在法律/合规权重下排名第五。该框架为模型部署决策提供了更全面的信号,特别适用于需要审计推理过程的场景。论文推理模型评估框架逻辑连贯性模型审计DeepSeek-V3推荐理由:这个框架解决了「只看答案正确率」的评估盲区,做模型选型或合规审计的团队会发现,原来高分模型可能推理过程一团糟——建议点开看看你的模型在哪个维度翻车。原文