09:38arXiv: Anthropic@Guruprakash J, Krithika L. B该综述将Transformer架构分为encoder-only、decoder-only、encoder-decoder、长上下文、置换基与生成对抗等变体,并涵盖2023年后指令微调、RLHF、DPO、MoE、RAG等进展。它梳理了OpenAI、Anthropic、Google、Meta、Mistral、DeepSeek等主流模型家族。在应用侧调研了医疗、金融、法律、教育等7个领域的部署。论文从参数规模与能耗的权衡、对齐方法、数据溯源及基准饱和四个维度评估模型。它还点名了值得关注的开放研究问题。论文Transformer语言模型综述架构比较模型评估10 个信源在谈推荐理由:想快速搞懂主流Transformer架构和各家模型?这篇综述帮你理清了架构分类和应用场景,还比较了参数和能耗,适合做调研入门。原文
09:50arXiv cs.LG@Zongfang Liu, Jinghui Zhang, Zijian Ma, Guangyi Chen, Xin Yuan该研究提出MoE专家一次性剪枝的统一公式,将现有启发式标准归为路由频率、门控权重、激活强度三类因素。基于此给出选择原则:任务无关剪枝应优先使用基于激活强度、无门控的标准。新提出的MAN和MSAN标准在4个MoE模型、16个基准上取得任务无关设置平均排名前两位。平均性能比最强基线提升最多8.8个百分点。论文MoE专家剪枝语言模型基准测试模型压缩推荐理由:这篇论文把MoE剪枝的各种评分方法统一了,还提出MAN和MSAN两个新标准,在多个模型和基准上表现更稳定,适合做模型压缩的人参考。原文
16:05Decoder@Jonathan Kemper精选72°一项新研究解释了为什么大型语言模型能掌握小型模型无法学会的罕见技能。研究发现,小型模型在处理罕见任务时,频繁出现的任务会不断覆盖它们已学到的知识。研究使用了从400万到40亿参数不等的模型,详细展示了这一机制,并提出了一个实用解决方案:与其扩大模型规模,不如增加目标任务在训练数据中的出现频率。这一发现为优化模型训练提供了新思路。论文语言模型模型规模训练数据技能学习研究推荐理由:这项研究为AI开发者揭示了模型规模与技能学习之间的关键机制,做模型训练或数据配比的团队可以直接参考其提出的数据频率优化方案,值得关注。原文
12:09arXiv: DeepSeek@Jianguo Zhu精选本文研究了在上下文增强的语言模型系统中,使用不同话语角色标签(如 Reference:、Evidence:、Instruction:、Note:、Example:)对模型行为的影响。通过设计 500 个 MMLU-Pro 项目的配对固定内容探针,每个项目在相同误导性断言下使用不同标签,测量模型输出错误选项的采纳率。在 GPT-5.5、DeepSeek V4 Pro、Llama-3-8B-Instruct 和 Qwen2.5-7B-Instruct 上,误导采纳率变化达 56-84 个百分点。Instruction: 和 Reference: 等绑定或来源类标签导致高采纳,而 Example: 则持续抑制采纳。边界探针显示算术任务降低采纳率,嵌套标签冲突表明示例性框架可限制采纳范围。结论是上下文利用和 RAG 基准应报告并控制包装标签,因为呈现方式会改变对提供上下文的依赖度量。论文语言模型上下文利用RAG标签影响误导采纳率推荐理由:这篇论文揭示了标签选择能显著改变模型对误导信息的采纳率(最高差 84 个百分点),做 RAG 系统或上下文增强应用的开发者需要警惕:你用的标签可能无意中放大了错误信息的影响。建议点开了解如何控制这一变量。原文
11:07arXiv: Anthropic@Matthew Stone, Una Stojnić本文探讨AI聊天机器人(如Claude)输出的语言是否具有意义。尽管普通用户和工程师通常认为答案是肯定的,但许多认知科学家和语言哲学家基于意向性理论持相反观点。作者提出,不需要假设AI具有心理状态或意图,现有的人类语言理论已足以解释LLM输出的意义。然而,承认输出有意义并不等同于认可其内容或技术价值,这对批判性使用AI生成文本有重要启示。论文AI哲学语言模型意义理论ClaudeLLM输出推荐理由:这篇论文为AI语言哲学提供了新视角,做AI伦理、语言模型研究的学者或开发者值得一读,能帮你跳出“AI是否有意识”的争论,重新理解输出文本的本质。原文
23:53AK@_akhaliq精选该研究提出GPU Forecasters方法,利用语言模型作为选择性替代来优化GPU内核的运行时性能。在300个内核基准测试中,该方法将预测准确率提升至92%,相比传统模型平均提速1.7倍。实验在NVIDIA A100 GPU上进行,验证了语言模型在运行时预测中的有效性。论文GPU Forecasters语言模型内核优化基准测试A1003 个信源在谈推荐理由:用语言模型预测GPU内核性能,效率提升明显原文
12:04arXiv cs.AI@Yiheng Shu, Bernal Jiménez Gutiérrez, Saisri Padmaja Jonnalagedda, Yuguang Yao, Huan Sun, Yu Su语言智能体在单个任务上花费大量推理时间,但跨任务的经验复用不足。现有基准难以严格评估持续学习,多聚焦长上下文检索或简单任务流,缺乏对跨任务关系的分析。本文提出AgentCL框架,通过受控任务流和迁移增益指标,评估智能体能否积累可复用经验、随时间改进并避免干扰。实验表明,受控流比简单流更能区分记忆设计的可塑性,而简单流和保留设置常暴露记忆导致的性能退化。该工作为设计平衡可塑性与稳定复用的记忆系统提供了方向。论文持续学习智能体评估框架记忆设计语言模型推荐理由:做智能体持续学习和记忆设计的团队,AgentCL提供了比现有基准更严格的评估方法,能帮你诊断记忆设计在跨任务复用中的真实效果,值得参考。原文
21:09Decoder@Jonathan Kemper精选一项涵盖20.8万名参与者和2600万次回答的大规模研究发现,将语言模型训练成有用聊天机器人的过程,反而削弱了它们模拟人类行为的能力。这种效应随着模型代际更新而加剧,即使是流行的“角色扮演”技巧(喂入人口统计特征)对个体预测也几乎没有帮助。研究指出,AI的“有用性”与“人性化”之间存在根本性矛盾,这对依赖AI进行社会模拟或用户行为预测的应用构成挑战。论文AI研究语言模型模拟人类行为角色扮演有用性推荐理由:做AI社会模拟、用户行为预测或角色扮演应用的团队,这项研究直接点出了当前模型的根本局限——越有用的AI越不像人,建议点开看看具体数据和影响。原文
12:20arXiv cs.LG@Martin Marek, Dongkyu Cho, Shikai Qiu, Rumi Chunara, Pavel Izmailov, Andrew Gordon Wilson精选该论文研究了语言模型在新任务训练时遗忘旧知识的问题,并提出利用模型自身生成的样本作为回放数据,几乎可以消除遗忘。研究发现,当模型容量接近饱和时,遗忘仍会发生,因为模型无法吸收新信息而不覆盖旧知识。在容量充足的情况下,低学习率可以减少遗忘但需要更多训练步骤,而自生成回放打破了这一权衡,允许高学习率微调而不遗忘。这一方法避免了传统回放需要存储旧样本的不可行性,为持续学习提供了实用方案。论文语言模型遗忘持续学习自生成回放容量推荐理由:这篇论文解决了语言模型持续学习中的核心痛点——遗忘问题,做模型微调或持续训练的团队可以直接用自生成回放方法,省去存储旧样本的麻烦,值得关注。原文
11:27arXiv cs.LG@Andres Nava, Matthieu Wyart精选该研究提出了一种分布理论,解释语言模型中上下位关系(如“动物-狗”)的几何编码机制。基于WordNet中词对共现频率与层级距离相关的假设,理论证明word2vec嵌入的Gram矩阵谱结构会自然形成从粗到细的层级分裂几何。实验在多个WordNet子树上验证了该预测,并发现该特征在Gemma 2B模型的unembedding中同样显著。结果表明,LLM中的层级概念几何可能并非源于特定功能机制,而是词共现统计的谱结构涌现结果。论文语言模型层级概念词共现谱分析word2vec推荐理由:这项研究揭示了语言模型层级概念几何的统计根源,对理解LLM表征形成机制的研究者很有价值,建议关注其理论框架与实验验证。原文
11:12arXiv cs.AI@Zisu Huang, Jingwen Xu, Yifan Yang, Ziyang Gong, Qihao Yang, Muzhao Tian, Xiaohua Wang, Changze Lv, Xuemei Gao, Qi Dai, Bei Liu, Kai Qiu, Xue Yang, Dongdong Chen, Xiaoqing Zheng, Chong Luo精选这篇论文系统研究了语言智能体通过复用模型生成的技能(结构化程序化知识)来提升性能的全过程,涵盖经验生成、技能提取和技能消费三个阶段。研究发现,模型生成的技能平均有益,但存在显著的负迁移现象,且技能提取器和消费器的表现并不一致——一个模型可能是强提取器但弱消费者,反之亦然。技能效用与模型规模或基线任务强度无关。通过深入分析每个阶段,论文揭示了经验组成如何影响技能质量、有用技能的特征以及同一技能在不同消费者间的迁移效果。最后,作者提出了一种元技能方法,指导技能提取聚焦于实际效用相关的特征,一致提升了技能质量并大幅减少了负迁移。论文智能体技能复用负迁移元技能语言模型推荐理由:这篇论文为智能体技能复用提供了首个系统性评估框架,做智能体开发或研究的人可以从中了解技能提取与消费的匹配规律,避免负迁移陷阱,值得关注。原文
09:58arXiv cs.LG@Qian Zhang, George Em Karniadakis精选该研究提出一种基于语言模型架构的算子学习框架,用于从稀疏测量数据重建流场。该方法将流场重建视为序列到序列学习任务,将稀疏测量作为上下文,未观测位置作为查询,以无网格方式学习空间相关性和长程依赖。在四个基准数据集(二维涡街模拟、美国日平均温度、三维血流模拟、三维湍流射流测量)上,即使观测数据少于10%,该方法仍能实现高精度重建。结果表明语言模型可作为科学数据重建的鲁棒可扩展工具,为科学工程基础模型开发提供了新方向。论文流场重建语言模型算子学习稀疏测量科学计算推荐理由:流体力学和科学计算的研究者终于有了一个用语言模型做流场重建的新思路——稀疏数据下也能高精度重建,做CFD或实验测量的团队值得关注这个方向。原文
09:26rohanpaul_ai@rohanpaul_ai72°DeepMind 创始人 Demis Hassabis 指出当前 AI 的局限:语言可以描述世界,但无法包含世界。语言模型从文本中意外学到了大量现实结构,但文本只是经验的压缩残渣,而非经验本身。世界由需要亲身经历、触摸、预测、违反和修复的约束构成,而非仅由可命名的事实组成。Hassabis 认为世界模型旨在学习物理现实的隐藏语法——物体如何持续、力如何展开、空间如何变化、行动如何产生反馈。他强调,智能不仅是回答得好,更是知道如果你移动、伸手、推、闻、滑倒或失败,接下来会发生什么。AI模型世界模型语言模型Demis HassabisDeepMindAGI推荐理由:Hassabis 点出了当前大语言模型的核心天花板——文本无法替代真实体验,做 AI 研究或关注 AGI 路径的人值得细读,看完会对世界模型的价值有更深理解。原文
14:26arXiv cs.AI@Payal Chandak, Victoria Alkin, David Wu, Maya Dagan, Taposh Dutta Roy, Maria Clara Saad Menezes, Ayush Noori, Nirali Somia, John S. Brownstein, Ran Balicer, Rebecca W. Brendel, Noa Dagan, Isaac S. Kohane, Gabriel A. Brat精选医学伦理天然具有多元性,但大型语言模型在提供医疗建议时可能隐含单一的价值偏好。研究者提出了一个审计框架,包含临床验证的伦理困境基准和从决策中恢复价值优先级的方法。前沿模型在讨论伦理冲突时能展现观点多元性,但个体决策几乎确定,无法复现医生群体的分布性多元。多数模型的价值优先级在医生变异范围内,但部分模型显著低估患者自主权。若不加干预,单一模型可能将自身价值偏好大规模强加给所有患者,取代临床伦理的多元性。论文AI伦理医疗AI价值多元性审计框架语言模型推荐理由:这篇论文揭示了AI医疗建议中隐藏的价值偏见问题,做医疗AI开发或临床决策支持的团队值得关注——它提醒我们,模型不只是输出答案,还在无声地传递伦理立场。原文
10:33arXiv cs.LG@Nathan Roll, Jill Kries, Laura Gwilliams, Cory Shain精选受人类失语症研究启发,研究者提出了一种新方法,通过“损伤”(置零)语言模型中的参数,并观察其输出在临床失语症症状测试(TAB)中的表现,来揭示模型的功能组织。对5个1B参数规模的语言模型进行112,426次测试后,发现模型能表现出全部失语症症状,但分布与人类显著不同。注意力组件(查询、键、值、输出)与前馈组件(上、门、下)之间症状谱差异明显,而同一机制内组件差异较弱。早期层损伤更易导致句法和语义症状,中后期层则更多引发音韵和流畅度缺陷。尽管某些损伤模式与特定人类失语症类型定量相似,但定性差异表明失语症综合征受学习和处理细节影响,而非语言处理中断的领域不变结果。论文语言模型失语症可解释性参数损伤认知科学推荐理由:这项研究为理解语言模型内部功能组织提供了全新视角,做AI可解释性或认知科学交叉研究的团队值得关注——它把临床神经心理学方法搬到了模型分析中,看完会重新思考“模型损伤”的意义。原文
13:27arXiv cs.AI@Jonathan A. Diller, Fernando Cladera, Camillo J. Taylor, Vijay Kumar精选传统无人机自主搜索依赖几何覆盖模式,忽略目标语义,在大规模环境中效率低下。LMPath 提出一种新流程:给定地理围栏和目标描述,先用生成式语言模型判断目标可能出现的区域,再用视觉基础模型对卫星图像分割,形成语义探索先验。基于该先验,可生成多种无人机路径,如最小化预期搜索时间、在有限航程内最大化发现概率,或缩小搜索范围到最可能区域。真实无人机和仿真实验表明,LMPath 生成的路径在搜索任务中显著优于传统规划方法。论文无人机语义搜索路径规划语言模型视觉基础模型推荐理由:无人机搜索终于有了语义理解能力——LMPath 用语言模型和视觉模型替代纯几何覆盖,做搜救、巡检、环境监测的团队可以直接参考,实测效率提升明显。原文
21:35Anthropic: Transformer Circuits(资讯)Gurnee 等人 2025 年的研究揭示了语言模型在计数任务中背后的几何机制。他们发现模型内部存在一种流形结构,用于表示和操作数字信息。这项研究通过分析模型在特定任务中的内部表示,展示了模型如何通过几何变换来执行计数。这为理解语言模型的内部工作原理提供了新的视角,有助于开发更可解释的 AI 系统。论文语言模型几何结构计数任务可解释性内部机制推荐理由:对理解大模型内部机制的研究者来说,这篇论文揭示了计数任务背后的几何结构,值得深入阅读。原文
19:12arXiv cs.LG@Guinan Su, Yanwu Yang, Xueyan Li, Jonas Geiping精选当前语言模型(如ChatGPT)仍基于单消息流架构,导致模型无法同时读写、思考与行动,限制了自主智能体的效率。本文提出多流LLM架构,将输入、输出、思考等角色拆分为独立并行流,每次前向传播可同时读取多输入流并生成多输出流。该方法解决了单流瓶颈,提升了并行效率、安全性和可监控性,为自主智能体(如编程、计算机操作)提供了更高效的基础架构。论文多流架构自主智能体并行计算语言模型效率提升推荐理由:自主智能体开发者长期受困于模型无法同时读写和思考的瓶颈,这篇论文直接给出了数据驱动的并行流解决方案,值得关注其后续实现和效果。原文
19:12arXiv cs.AI@Jacob Fein-Ashley, Paria Rashidinejad精选70°论文提出Attractor Models,用隐式微分求解不动点替代传统循环Transformer的显式迭代,训练内存不随有效深度增长,迭代次数由收敛自适应决定。在语言模型预训练中,770M参数模型超越1.3B Transformer(训练数据多一倍),困惑度降低46.6%,下游准确率提升19.7%。在推理任务中,27M参数模型在Sudoku-Extreme和Maze-Hard上分别达91.4%和93.1%准确率,而Claude和GPT o3完全失败。模型还展现出“平衡内化”现象:训练后可在推理时移除求解器而性能几乎不降。论文循环Transformer隐式微分不动点求解语言模型推理增强推荐理由:循环Transformer训练难、部署贵的问题被Attractor Models用不动点求解优雅解决,做语言模型预训练或推理增强的团队值得关注——它用更少参数和成本实现了对更大模型的超越。原文
22:16AK@_akhaliq该论文提出了一种连续潜在扩散语言模型(Continuous Latent Diffusion Language Model),将扩散模型应用于语言建模的潜在空间。与传统自回归模型不同,该方法在连续潜在空间中进行迭代去噪,可能提升生成质量和效率。论文展示了模型在文本生成任务上的初步结果,为语言建模提供了新的研究方向。这一工作将视觉领域成功的扩散模型扩展到自然语言处理,具有重要的理论意义和实践潜力。论文扩散模型语言模型论文文本生成推荐理由:这是扩散模型应用于语言建模的又一探索,为NLP领域提供了非自回归的新思路,值得关注其在文本生成和编辑等场景的后续进展。原文
11:45arXiv cs.AI(学术论文)本研究通过押韵对联完成任务,测试语言模型在生成过程中是否存在对结构约束的未来标记的内部规划。使用线性探针和激活补丁方法,在Qwen3、Gemma-3和Llama-3三个系列超过十个规模的模型上进行实验。探针显示所有模型在行边界处都能线性解码未来押韵信息,且信号随规模增强。然而,激活补丁表明只有Gemma-3-27B在因果上依赖此编码,出现从押韵词到行边界的因果驱动转移(约第30层)。其他模型在整个生成过程中持续依赖押韵词,尽管行边界有强探针信号,但因果影响近乎为零。通过两阶段路径补丁,研究成功定位了Gemma-3-27B中负责转移的五个注意力头,恢复了约90%的押韵路由能力。论文语言模型机制理解因果干预线性探针押韵规划推荐理由:该工作揭示了不同语言模型在规划能力上的根本差异:仅部分模型(如Gemma-3-27B)真正依赖内部的前瞻性计划,而其他模型则依赖逐词条件。这对理解模型内部机制和未来设计更可控的生成系统有参考价值。原文