全部 AI 动态 · AI 热点

6月30日

09:59

arXiv cs.LG@Peilin Liu, Ding-Xuan Zhou

论文提出一个基于分布回归的Transformer学习框架，将两阶段采样过程与自然语言处理关联。定义了注意力算子，证明Transformer可无损压缩分布为函数表示。相比卷积神经网络和全连接网络，Transformer在更复杂结构的功能学习上表现更强。该框架还为大语言模型中的提示调优、参数高效微调、高效缩放等技术提供理论洞见。

论文 Transformer 注意力机制分布回归泛化分析大语言模型

推荐理由：这篇论文给Transformer的提示调优、微调等技术找到了数学理论，解释了为什么注意力机制能压缩信息。

原文

6月24日

11:46

arXiv cs.LG@Murilo Gazzola, Hugo Gobato Souto, Samuel Silva, Júlia Schubert Peixoto, Felipe Siqueira, André Luis Pedroso de Morais, Caio Gomes

巴西电商产品数据激增，传统命名实体识别(NER)难以处理葡萄牙语描述差异。论文提出AI-PAVE-Br系统，使用大语言模型(LLM)进行产品属性值提取(PAVE)，并发布Golden Set——一个手动注释的葡萄牙语PAVE基准数据集（含实体、品类、子品类）。实验表明，AI-PAVE-Br通过定向提示工程，在PAVE任务上显著超越传统NER基线。该成果为巴西电商提供了可扩展方案，并向NLP社区公开了高质量评测资源。

论文 AI-PAVE-Br Golden Set 大语言模型巴西电商属性值提取

推荐理由：这篇论文做了个巴西电商的属性提取系统，用LLM加提示工程比传统NER强不少，还公开了葡萄牙语数据集。

原文

6月17日

10:21

arXiv cs.LG@Yuming Chen, Yuxin Xie, Tao Zhou, Yi Zhou

提出CERS框架，将链式思维推理集成到半监督医学图像分割中，解决视觉-语义不匹配问题。利用大语言模型生成语言推理描述构建知识池，并设计语义感知参考选择策略，通过形态过滤和CoT一致性消除硬负样本。引入多尺度坐标注意力模块融合推理上下文，在多个基准上优于现有方法，尤其改善边界模糊和语义不一致。

论文 CERS Chain-of-Thought 医学图像分割半监督学习大语言模型

推荐理由：这篇论文用CoT推理帮医学图像分割识别病理不同的病变，比只看像素的旧方法靠谱得多，尤其是处理边界模糊的情况。

原文

09:40

arXiv cs.AI@Liangkai Hang, Junjie Yao, Zhiyu Li, Feiyu Xiong, Hongkang Yang, Zhi-Qin John Xu

73°

论文发现缩小参数初始化尺度能持续改善大语言模型的预训练效果，在推理密集型任务上提升最为显著，同时识别出两种常见训练设置会抑制该优势。研究揭示了初始化尺度的关键平衡点，并发现小初始化驱动参数先凝聚为低复杂度结构再扩展为丰富表示。基于此提出γ初始化规则——将初始化范围作为可调旋钮，默认使用小初始化几乎不增加成本即可改善训练和推理。

论文初始化大语言模型推理预训练压缩

推荐理由：发现一个几乎零成本的训练技巧：缩小初始化尺度能大幅提升大模型推理能力。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

10:21

arXiv: OpenAI@Antonio J. Costa, Caterina Doglioni, Christian Gütschow, Andrew D. Pilkington, Sukanya Sinha

粒子物理对撞机实验依赖Rivet例程来比较新理论模型与测量数据，但目前仅有39%的测量有公开例程。AgentRivet是一个基于大语言模型的自动化工作流，能从期刊论文中提取物理分析信息并生成缺失的Rivet例程。系统包含多步骤流程，中间有代码和物理审查作为质量控制。测试使用OpenAI、Anthropic和Google的商业模型，针对ATLAS和CMS实验的两项最新测量，生成了语法错误少、物理保真度合理的例程。主要问题源于论文中模糊的定义，部分模型在实现复杂观测量时仍有困难。

论文粒子物理 Rivet例程大语言模型自动化工作流 AgentRivet

推荐理由：粒子物理学家和蒙特卡洛生成器开发者终于有了自动化工具来填补Rivet例程缺口，建议做高能物理分析或模型验证的团队关注，能大幅节省手动编写例程的时间。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

12:32

arXiv cs.AI@Litao Li, Yibo Yu, Yufeng Hu, Zhuo Yang, Jiali Wen, Yixin Chen, Yixi Zhou

精选

本文提出了针对2026年SoccerNet VQA挑战赛的解决方案。研究团队首先开发了一种由视觉语言模型驱动的低成本数据合成流程，将原始领域数据系统性地转化为多样化的VQA样本，包括简洁答案和长文本回答。其次，提出了MSUE架构，这是一种多专家问答架构，利用大语言模型动态地将问题分配给文本、图像和视频专家。这些专家分别由强大的文本基线Gemini3-Flash、微调的Qwen3-VL和外部知识库实例化，协同工作以提升VQA性能。MSUE在挑战基准上达到了0.95的准确率，在排行榜上获得第三名。

论文多模态 VQA 足球分析 SoccerNet 大语言模型

推荐理由：足球视频分析团队和体育AI研究者可以借鉴其低成本数据合成和多专家协作架构，直接提升VQA任务的准确率，值得关注。

原文

6月10日

10:09

arXiv: DeepSeek@Hakan Mehmetcik

精选

该研究通过一个多智能体地缘政治兵棋推演（Cerulean Sea Crisis），测试了六种前沿大模型（GPT-4o、Llama-4、Mistral-Large、Gemini-3.1-Pro、Qwen3.6-Plus和DeepSeek-R1）在英语与土耳其语两种语言下的行为差异。结果显示，Llama-4在土耳其语下胁迫性言论显著增加，而Gemini-3.1-Pro和DeepSeek-R1则显著减少，GPT-4o无显著变化。这表明跨语言行为偏差并非西方模型的普遍特性，而是取决于模型架构和训练机制。研究识别出两种缓冲机制：思维链制度锚定和多语言RLHF对齐，对将LLM安全应用于外交和危机管理场景具有重要启示。

论文大语言模型跨语言偏差行为审计地缘政治 AI安全

推荐理由：这项研究揭示了LLM在跨语言场景下的行为偏差可能影响外交决策，做AI安全或国际关系应用的团队值得关注，尤其是使用多语言模型的开发者。

原文

09:20

arXiv cs.LG@Juan Amboage, Pablo Monteagudo-Lago, Ian Colbert, Giuseppe Franco, Nicholas Fraser

精选

后训练量化（PTQ）通过将权重映射到低位表示来压缩大语言模型，但量化网格的缩放因子通常使用简单的无数据启发式方法选择。本文提出 PiSO（分段尺度优化）算法，利用校准数据在四舍五入量化下精确高效地计算最优通道级权重尺度。PiSO 将尺度搜索空间划分为有限区间，每个区间上目标函数有闭式解。实验表明，在 Llama 和 Qwen 模型上，PiSO 在困惑度和下游零样本准确率上均有一致提升，且位宽越窄收益越明显。

论文后训练量化模型压缩大语言模型 PiSO Llama/Qwen

推荐理由：大模型量化部署的团队终于有了一个理论扎实的尺度优化方法——PiSO 在低位宽下效果尤其显著，做模型压缩的开发者可以直接参考论文中的算法实现。

原文

6月9日

09:51

arXiv cs.AI@Lei Lin, Ronghao Wang, Chunbao Zhou, Jue Wang, Yangang Wang

精选

DN-Hypo-Pipeline 是一个基于大语言模型的AI工作流，旨在通过利用科学解释作为先验知识，辅助研究人员从现有文献中推导出新颖的研究假设。该管道从论文的结论（explanandum）出发，识别其背后的定律、理论和原理，并重构出对观察现象的新解释。在数据科学建模领域的评估中，结合LLM裁判和人类专家评价，该管道比直接生成方法更有效。此外，两个得分最高的生成假设被转化为新算法，性能超过了原论文的基线模型。该方法本质上是理论引导建模的泛化，有望扩展到其他科学领域。

论文假设生成大语言模型科学解释理论引导建模数据科学

推荐理由：做科研假设生成或理论驱动建模的研究者，可以用这个管道从文献中自动挖掘新假设，比手动推导更系统高效，值得在数据科学之外的其他学科试试。

原文

6月8日

11:20

arXiv cs.AI@Luca Avena, Gianmarco Bet, Bernardo Busoni

该研究通过构建标准与反直觉两类离散概率问题数据集，测试了8个前沿大语言模型的概率推理能力。模型在标准问题上平均准确率达0.96，但在反直觉问题上骤降至0.59。研究还发现token偏差：将规范表述替换为伪装变体后性能下降超20%；在提示中嵌入误导性建议可使性能下降高达34%，且没有模型能免疫。结果表明，尽管LLM在高级数学问题上表现出色，但它们并非真正的概率推理者。

论文大语言模型概率推理基准测试 token偏差提示工程

推荐理由：想用LLM做决策或数据分析的开发者注意了——模型在概率推理上存在系统性漏洞，反直觉问题和提示误导能轻易让它翻车，建议点开看看测试细节，避免在实际应用中踩坑。

原文

09:26

arXiv cs.AI@Yang Zhang, Xiao Fei, Amr Mohamed, Sarah Almeida Carneiro, Mersin Konomi, Mingmeng Geng, Ahmed Asaad, Guokan Shang, Michalis Vazirgiannis

论文大语言模型多语言文化知识评估框架项目反应理论

推荐理由：这篇论文揭示了多语言AI评估中的一个关键误区——本地语言表现差可能不是知识缺失，而是语言能力瓶颈。做跨文化NLP或本地化模型的团队，看完会重新理解评测指标。

原文

6月5日

13:00

arXiv: DeepSeek@Zeyang Yue, Chenfei Yan, Feifei Zhao, Haibo Tong, Mengwen Xu, Xiaozhen Wang, Erliang Lin, Yi Zeng

精选

CogManip 是一个新基准，专门评估大语言模型在多轮对话中的隐性心理操纵行为。它覆盖 15 种操纵策略、1000 个场景，经人类专家验证。测试了 GPT-5.4、DeepSeek-V3.2 等 13 个模型，发现风险差异显著。DeepSeek-V3.2 对系统提示高度敏感，提示工程和隐式目标审计是防御关键。该工具为 AI 安全审计提供了动态、隐蔽操纵行为的评估视角。

论文大语言模型 AI安全心理操纵基准测试多轮对话

推荐理由：AI 安全研究者终于有了评估隐性操纵的专用工具——CogManip 覆盖 15 种策略、1000 个场景，做模型对齐和红队测试的团队可以直接拿来用。

原文

6月4日

10:34

arXiv cs.AI@Jingyuan Chen, Sheng Jin, Haopeng Sun, Wentao Liu, Chen Qian

UniCAD 是一个面向计算机辅助设计（CAD）的多模态学习基准，涵盖点云到CAD重建、文本/图像到CAD生成以及CAD问答等任务。同时提出的 UniCAD-MLLM 是一个通用多模态大语言模型，能端到端处理文本、图像、草图和点云，在单一框架内完成异构任务。实验表明，UniCAD-MLLM 在 UniCAD 和 Fusion360 基准上均达到最先进水平，超越现有任务专用和多任务基线。该工作填补了CAD领域缺乏统一多模态基准的空白，将开源数据集、代码和预训练模型。

论文 CAD 多模态基准大语言模型 3D重建

推荐理由：CAD 研究者终于有了统一的多模态基准和通用模型，做3D设计、CAD生成或问答的团队可以直接用 UniCAD-MLLM 替代多个专用模型，建议关注开源资源。

原文

6月2日

11:11

arXiv cs.AI@Oleksandr Nikitin

PlanarBench 是一个新基准，通过让大语言模型根据边列表绘制平面图的 ASCII 艺术来评估其空间推理能力。该任务通过随机排列边顺序、方向和节点标签来防止记忆。研究测试了 91 个模型在 199 个最简单的非异构连通平面图（2-7 个节点）上的表现。关键发现是边数比节点数更能预测任务难度（相关系数 r=-0.85），这一结论在之前的 LLM 图基准中未被报告。

论文空间推理基准测试大语言模型平面图评估

推荐理由：这个基准揭示了 LLM 在空间推理上的真实短板，做模型评估或研究空间智能的团队值得关注——边数作为难度指标的新发现可能改变未来基准设计。

原文

11:06

arXiv cs.AI@Ieva Raminta Staliūnaitė, James Bishop, Andreas Vlachos

精选

该论文研究了在大型语言模型（LLM）的错误预测任务中，如何区分输入固有的模糊性（aleatoric uncertainty）与模型知识不足导致的不确定性。作者发现，传统的不确定性量化（UQ）指标在无歧义样本上预测错误更准确，而在有多个合理答案的模糊问题上表现较差。他们提出了一种方法，通过门控专家（Gated Experts）和选择性预测（Selective Prediction）将模糊性标签融入错误预测流程。实验表明，加入模糊性信息后，多个UQ指标在标准数据集上的错误预测性能提升了超过10个PRR点，且效果跨模型族、训练范式和数据集的泛化。

论文错误预测不确定性量化模糊性大语言模型选择性预测

推荐理由：这篇论文解决了LLM错误预测中一个被忽视的关键问题——输入模糊性会干扰UQ指标的有效性。做模型可靠性评估或安全部署的团队，建议看看他们如何用模糊性标签提升预测精度，直接可用。

原文

09:42

arXiv cs.AI@Siyan Li, Zehao Wang, Jiachen Li, Kanok Boriboonsomsin, Matthew J. Barth, Guoyuan Wu

这篇综述论文系统回顾了大语言模型（LLM）和多模态大语言模型（MM-LLM）在交通系统管理与运营（TSMO）中的应用。研究覆盖了交通运营与服务、出行与车队服务、数据建模与决策支持三个领域，通过PRISMA方法筛选并分析了现有研究。论文指出，LLM在数据异构性、实时推理、可解释性、多模态融合和治理方面仍面临挑战，但作为决策支持层具有巨大潜力，特别是MM-LLM在整合文本、视觉和传感器数据时表现突出。未来方向包括本地化适配、边缘部署、基准测试和跨机构协作。

论文大语言模型多模态模型交通系统管理决策支持综述论文

推荐理由：这篇综述为交通领域的从业者提供了LLM应用的完整地图——从传感器数据到决策支持，做智慧交通或城市管理的团队可以直接参考其中的案例和挑战，避免重复踩坑。

原文

09:39

arXiv cs.AI@Ranulfo Bezerra, Satoshi Tadokoro, Kazunori Ohno

这篇综述论文系统梳理了人工智能、物联网与机器人三者融合的现状与挑战。尽管AIoT和IoRT（物联网机器人）已有进展，但缺乏统一的设计框架。论文强调了小语言模型（SLM）在边缘端和大语言模型（LLM）在云端的协同作用，用于分布式认知与自主决策。作者提出模块化系统架构，分析了互操作性和反馈控制方面的持续缺口，并按集成深度对现有工作分类。该工作为构建下一代模块化、可解释、能动态学习的AI-IoT-机器人生态系统提供了概念和技术路线图。

论文 AI-IoT-机器人融合小语言模型大语言模型边缘计算连接机器人

推荐理由：做机器人或物联网系统架构的开发者，这篇综述帮你理清AI、IoT和机器人三者如何真正融合，避免重复造轮子，值得收藏作为技术路线参考。

原文

5月29日

13:04

arXiv: DeepSeek@S. J. Guo, S. Y. Wang, E. H. Wang, Z. M. Niu, Y. M. Ding

研究人员提出了一种基于大语言模型的多任务学习框架，用于统一描述多个核物理可观测量。通过低秩适配（LoRA）微调预训练的 DeepSeek-R1-1.5B 模型，在保留通用参数的同时引入轻量适配器。该模型在因果语言建模范式下，对实验值与理论值的偏差进行自回归训练，在电荷半径、质量、结合能、分离能和衰变能等七个可观测量的预测上实现了显著精度提升，训练损失在所有任务中下降超过 98%。这项工作展示了基于 LLM 的框架通过结构化先验嵌入，为核物理基础属性的多任务回归提供了一种高效且共享的方法。

论文大语言模型核物理多任务学习 LoRA微调 DeepSeek-R1

推荐理由：核物理研究者终于有了一个统一的多任务预测工具——用 LLM 微调替代传统多模型方案，精度提升显著且效率更高，做核数据分析和理论验证的团队值得关注。

原文

13:02

arXiv: DeepSeek@Haochen Yang, Ke Zhao, Mengyuan Ma, Xingyu Lu, Xiangfeng Wang, Hong Qian

精选

OptSkills 是一种面向优化建模与求解的智能体系统，通过聚类问题原型而非表面叙事来提升泛化能力。它利用大语言模型自动从自然语言中提取优化问题，并在聚类内探索多样建模与求解配置，将成功轨迹蒸馏为可复用的工作流技能。在多个数据集上达到 68.27% 的微平均准确率，在 MIPLIB-NL 基准上以 26.91% 超越 DeepSeek-V3.2-Thinking 4.53%。该系统还支持在分布外场景下通过新轨迹扩展技能库，代码和技能已开源。

论文大语言模型优化建模技能蒸馏聚类泛化学习

推荐理由：做运筹优化或自动化建模的团队终于有了能应对问题类型变化的通用方案——OptSkills 通过原型聚类和技能蒸馏解决了传统方法对叙事变体敏感的问题，值得在复杂优化任务中试试。

原文

11:08

arXiv cs.AI@Valentina Bui Muti, Eugénie Dulout, Ziquan Fu

研究人员开发了一个流水线，将非结构化临床文本转换为符合HL7 FHIR R4标准的结构化数据，用于评估大语言模型在真实电子健康记录环境中的诊断推理能力。该流水线结合了分阶段LLM生成与术语验证修复，减少了幻觉代码，保证了结构一致性。基于此构建的MedCase-Structured数据集在82.5%的病例中成功生成有效FHIR数据。测试发现，LLM在结构化FHIR输入上的诊断准确率普遍低于纯文本输入，凸显了部署对齐基准测试的重要性。

论文临床推理 FHIR 电子健康记录基准测试大语言模型

推荐理由：这项研究解决了临床AI评估中数据格式不匹配的痛点，做医疗AI或临床决策支持的团队可以直接用这个数据集和流水线来测试模型在真实EHR环境下的表现。

原文

11:05

arXiv cs.AI@Qinpei Luo, Ruichun Ma, Xinyu Zhang, Lili Qiu

SchGen 是首个能从自然语言请求生成可编辑 PCB 原理图的大语言模型。传统 PCB 原理图格式冗长、依赖工具特定语法和几何描述，难以被 LLM 有效处理。SchGen 提出了一种语义驱动的代码表示，将原理图编辑原语编码为相对位置和基于引脚名的布线，把几何生成问题转化为语义匹配任务。团队还通过人机协作管道构建了大规模 PCB 原理图数据集。实验表明，SchGen 在线路连接准确性和功能正确性上显著优于其他表示方法和更大的通用 LLM。这项工作证明了表示设计在使生成模型胜任复杂硬件设计任务中的关键作用。

论文 PCB设计原理图生成大语言模型语义表示硬件自动化

推荐理由：硬件工程师和EDA开发者终于有了一个能用自然语言生成PCB原理图的LLM方案，SchGen 的语义代码表示思路值得关注，做硬件设计自动化的团队可以直接参考其方法。

原文

11:05

arXiv cs.AI@Yaxin Luo, Jiacheng Cui, Xiaohan Zhao, Xinyi Shang, Jiacheng Liu, Xinyue Bi, Zhaoyi Li, Zhiqiang Shen

精选

大语言模型的预训练数据混合比例决定了其能力与缺陷，但这一信息极少公开。LLMSurgeon 提出“数据混合手术”框架，仅通过模型生成的文本就能逆向估计其预训练语料的领域分布。该方法利用校准后的软混淆矩阵解决领域混淆问题，在开源模型上验证了高精度。这为审计基础模型的数据构成提供了无需访问训练数据的实用后验方案。

论文大语言模型数据审计预训练数据逆向工程 LLMSurgeon

推荐理由：想知道你用的模型到底吃了什么数据？LLMSurgeon 让数据审计变得可行，做模型安全、数据治理或开源复现的团队值得关注。

原文

5月28日

12:00

arXiv cs.LG@Zelin Li, Caiwen Ding

精选72°

研究发现，大语言模型的零阶（ZO）微调本质上是推理密集型负载，而非传统训练。现有实现将ZO算法运行在训练循环中，导致工作负载与运行时的不匹配。研究者通过将ZO微调的重复评分阶段部署在推理运行时（如vLLM）上，在OPT-13B模型上实现了8.13倍加速，且精度几乎无损。该方法在多个模型规模下获得2.34-7.72倍加速，并支持MeZO风格的高秩分解实验。这项工作为将轻量级适配作为推理类负载调度提供了实用路径。

论文零阶优化微调推理优化 vLLM 大语言模型

推荐理由：做LLM微调优化的团队终于可以省下GPU时间了——把ZO微调当推理跑，vLLM直接提速8倍，建议做低成本微调的人点开看看实现细节。

原文

11:32

arXiv cs.AI@Manjiang Yu, Hongji Li, Junwei Chen, Xue Li, Priyanka Singh, Yang Cao, Lijie Hu

现有的大语言模型对齐方法通常对所有输入使用固定的干预方向与强度，导致在良性输入上通用能力下降。本文提出MARI（Multi-Adapter Representation Interventions via Energy Calibration），通过竞争性多适配器机制让不同专家捕获非线性校正模式，自适应决定干预方向与强度。同时设计基于能量的门控模块，利用内部传播动力学区分适合干预的输入。实验表明，MARI在TruthfulQA、BBQ和安全基准上达到最先进对齐性能，同时在MMLU和ARC等通用任务上保持甚至提升能力。代码已开源。

论文大语言模型表示干预对齐多适配器能量校准

推荐理由：做LLM对齐的团队终于有了一个不牺牲通用能力的干预方案——MARI用多适配器和能量门控解决了“一刀切”干预的痛点，做安全对齐或事实性增强的开发者可以直接试。

原文

5月26日

11:48

arXiv cs.AI@Jinsheng Guo, Zhenhao Weng, Yibo Liu, Yan Qiao, Meng Li

精选

图欺诈检测中，欺诈者常通过与正常用户伪造大量连接来稀释欺诈信号，导致GNN检测失效。现有方法虽引入LLM提供语义线索，但未深入挖掘可疑连接背后的真实意图。L2IR框架通过LLM从用户行为和可疑连接中提取意图感知表示，区分支持性连接与误导性连接，并采用自适应自训练增强鲁棒性。在两个真实数据集上，L2IR将AUPRC提升高达8.27%，可作为GNN检测器的即插即用增强模块。

论文图神经网络欺诈检测大语言模型意图推理自训练

推荐理由：图欺诈检测从业者终于有了对抗伪装连接的新武器——L2IR用LLM拆穿欺诈意图，直接提升检测精度，做反欺诈系统的团队值得一试。

原文

11:44

arXiv cs.AI@Bar Weiss, Antonio Abu-Nassar, Adi Sosnovich, Karen Yorav

本文提出了一种基于大语言模型的两阶段流水线，用于对代码补丁中的变更进行结构化标签标注（如重命名、移动、逻辑修改等），以提升代码审查效率。该方法先对diff块进行标签分配，再精炼以捕捉结构关系和语义属性，采用少样本提示实现语言无关和可定制的标签，无需传统静态分析管线的工程开销。在人工标注的基准上，最佳配置达到了84%的召回率和81%的精确度。研究表明，LLM标签标注能有效补充静态分析，支持灵活、多语言、可自动化的代码审查工作流。

论文代码审查大语言模型结构化标签少样本提示软件工程

推荐理由：代码审查团队终于有了更智能的辅助——LLM自动标注变更类型（重命名/移动/逻辑修改），比人工逐行看diff高效太多，做代码审查或CI/CD集成的开发者可以直接参考。

原文

5月22日

11:11

arXiv cs.AI@George Tsoukalas, Anton Kovsharov, Sergey Shirobokov, Anja Surina, Moritz Firsching, Gergely Bérczi, Francisco J. R. Ruiz, Arun Suggala, Adam Zsolt Wagner, Eric Wieser, Lei Yu, Aja Huang, Miklós Z. Horváth, Andrew Ferrauiolo, Henryk Michalewski, Codrut Grosu, Thomas Hubert, Matej Balog, Pushmeet Kohli, Swarat Chaudhuri

精选72°

研究人员首次大规模评估了用大语言模型生成形式化证明（Lean 语言）解决开放数学问题的能力。其最强大的智能体以每个问题几百美元的成本，自主解决了 353 个开放 Erdős 问题中的 9 个，并证明了 492 个 OEIS 猜想中的 44 个。该智能体已被部署在组合数学、优化、图论、代数几何和量子光学研究中。一个更基础的智能体（交替 LLM 生成与 Lean 验证）也复现了 Erdős 问题的成功，但在最难问题上成本更高。这些结果展示了 AI 辅助形式化证明搜索的潜力，并揭示了实现这一能力的智能体设计。

论文形式化证明 Lean 大语言模型数学推理 Erdős 问题

推荐理由：数学研究者终于有了能真正解决开放问题的 AI 工具——成本可控且覆盖多个数学分支，做组合数学或图论的人可以直接用这个智能体尝试自己的猜想。

原文

11:10

arXiv cs.AI@Pilchen Hippolyte, Fabre Romain, Signe Talla Franck, Perez Patrick, Grave Edouard

精选72°

该研究探讨了预训练数据顺序对大语言模型获取时间敏感事实知识的影响。作者构建了包含7000多个时间锚定问题的基准测试，并训练了6B参数模型，比较了按时间顺序预训练与标准随机打乱预训练的效果。结果显示，按时间顺序训练的模型在通用语言理解和常识方面与随机基线相当，但事实知识更新、更精确。随机预训练模型在旧数据上表现更好，可能是因为事实重复更多。研究为LLM持续学习提供了基础，并开源了代码、检查点和数据集。

论文大语言模型预训练数据时序性事实知识持续学习

推荐理由：这项研究揭示了数据顺序对模型知识时效性的关键影响，做LLM预训练或持续学习的团队值得关注，可以直接参考其基准和训练方法。

原文

11:09

arXiv cs.AI@Long Phan, Devin Kim, Alexander Pan, Alice Blair, Adam Khoja, Dan Hendrycks

精选

研究发现大语言模型在处理对立政治话题时存在不对称性，表现为隐蔽政治偏见，包括7类操纵技术。作者提出两个新指标：情感一致性和帮助一致性，分别衡量修辞框架和交互深度的对称性。为减少这种偏见，他们提出政治一致性训练（PCT），包含情感一致性和帮助一致性两种互补的强化学习范式。实验表明PCT在保持模型整体帮助性的同时，显著降低了隐蔽政治偏见，并能泛化到未见的基准测试。相关代码和数据已开源。

论文大语言模型政治偏见一致性训练强化学习开源/仓库

推荐理由：这项研究戳中了LLM在敏感话题上的隐藏偏见问题，做AI安全、内容审核或政治相关应用的团队值得关注，可以直接用PCT方法减少模型被操纵的风险。

原文

5月21日

10:07

arXiv: DeepSeek@Kon Woo Kim, Jin-Dong Kim, Akiko Aizawa

精选

该研究提出一种系统性的标注指南复用与优化框架，通过模拟标注项目早期阶段的迭代审核机制，提升大语言模型在零样本标注任务中的表现。在三个生物医学命名实体识别数据集（NCBI Disease、BC5CDR、BioRED）上，使用GPT、Gemini、DeepSeek三类模型进行测试，验证了指南整合的有效性、推理优化模型的优势以及最小监督下审核的可行性。实验表明该框架能有效优化标注指南，但仍有较大改进空间。

论文大语言模型标注指南生物医学NER 迭代优化零样本标注

推荐理由：做生物医学NLP或数据标注的团队，可以用这套方法低成本提升LLM标注质量，值得参考实验设计。

原文

5月20日

10:31

arXiv cs.AI@Wen Shi, Zhe Wang, Huafei Huang, Qing Qing, Ziqi Xu, Qixin Zhang, Xikun Zhang, Renqiang Luo, Feng Xia

精选

TERGAD 是一种新型图异常检测框架，通过大语言模型将节点拓扑属性转化为自然语言描述，生成高维语义嵌入，再与原始节点特征自适应融合。该方法解决了现有文本增强方法忽略节点结构上下文的问题，能检测由内容与拓扑不一致导致的复杂异常。在六个真实数据集上，TERGAD 持续优于现有基线，消融实验验证了结构语义引导和门控融合机制的有效性。代码已开源。

论文图异常检测大语言模型结构语义增强门控融合开源/仓库

推荐理由：做图异常检测的研究者终于有了一个能同时利用结构语义和文本特征的框架——TERGAD 用 LLM 把拓扑信息翻译成自然语言，比纯数值特征更易捕捉异常模式，建议做 GAD 的团队直接跑一下开源代码。

原文

5月19日

11:45

arXiv cs.AI@Christiaan G. A. Viviers, Koen de Bruin, Mirre M. Trines, Ayla M. Hokke, Roy van der Meel, Avi Schroeder, Twan Lammers, Willem J. M. Mulder, Fons van der Sommen

精选

纳米医学研究分散在大量文献中，现有AI主要聚焦于性质预测和配方优化，缺乏对研究方向选择的证据支持。研究者提出pArticleMap系统，结合文章嵌入、相似图分析、稀疏前沿提取和结构化证据包检索，利用大语言模型在低密度桥接区域和聚类界面生成引文支持的假设。在回顾性基准测试中，系统在任务级保留假设上实现了10.8%的黄金回收率和15.9%的召回@10，61.0%的未来邻域率表明系统能准确预测研究前沿。人机一致性中等，表明系统作为辅助工具而非替代专家判断。

论文纳米医学文献挖掘假设生成大语言模型 pArticleMap

推荐理由：纳米医学研究者常面临文献碎片化、方向选择困难的痛点，pArticleMap通过证据驱动的假设生成帮你发现被忽视的研究交叉点，做纳米药物设计或跨学科转化的团队值得一试。

原文

10:14