全部 AI 动态 · AI 热点

AITOP

6月29日

17:55

Yangyi@Yangyixxxx

用户认为FunASR模型在大部分场景下可用，精度偶尔不足。建议套用LLM进行修复，可解决绝大多数问题。其被评价为中国版Whisper中性价比最高的方案。

AI模型 FunASR ASR 语音识别 LLM 开源模型

推荐理由：有实测用户说FunASR比Whisper更值，精度不够时加个LLM就能补上，做中文语音识别可以试试。

原文

13:48

岚叔@lufzzliz

K神定义LLM UI/UX第三次变革，将LLM视为独立可持续运行的系统，拥有全组织工具和上下文，与人协同。作者基于Pi实现组织内agent交互，支持不同群组不同的记忆、知识库、技能和模型。该系统可应用于客户群交互，实现高效丝滑协同。

行业 Pi 智能体 LLM 协同

推荐理由：K神提出了新的LLM交互思路，作者已经用Pi搭建了能按群组定制的智能体系统，对企业协作很有参考价值。

原文

6月28日

16:36

Pandaily@contact@pandaily.com (Pandaily)

76°

北京大学与DeepSeek联合开源了投机解码框架DSpark，该框架无需修改模型即可将LLM推理速度提升60-85%。在严格延迟约束下，吞吐量增益最高达661%。DSpark通过高效的投机解码策略显著降低推理延迟。这一成果已在GitHub上开源。

AI模型 Peking University DeepSeek DSpark LLM 推理优化

推荐理由：北大和DeepSeek搞的DSpark，不用改模型就能让推理快80%，吞吐量翻好几倍，适合做部署的试试。

原文

6月27日

11:57

Simon Willison@simonw

Simon Willison在推文中指出，当前LLM（如GPT-4、Claude等）在构建前端时默认选择React的倾向较去年明显降低。他过去几乎每次前端提示都要加入“不要用React”，但近几个月来多数模型已不再需要这一约束。这一变化减少了提示词的必要修改，反映出LLM默认行为的演进。

技巧 Simon Willison LLM React 前端开发提示词工程

推荐理由：Simon Willison分享了一个省事小发现：现在LLM写前端默认React少了，你少写一句提示词。

原文

6月26日

12:58

Gary Marcus@GaryMarcus

Gary Marcus 在 Financial Times 撰文指出，依赖扩大模型规模无法解决 LLM（大型语言模型）的准确性根本缺陷。他将超大规模投资比作历史上最大的金融失误之一，因为硅芯片折旧快且可能被更高效的模型取代。他还认为 LLM 行业难成科技巨头的垄断格局，更像利润微薄、竞争激烈的航空公司。文章呼吁寻找替代基础架构，而非继续押注超大规模计算。

行业 Gary Marcus Financial Times LLM AI泡沫行业反思

推荐理由：Gary Marcus 在金融时报上警告AI泡沫，说超大规模投资可能是历史最大失误之一，值得一读冷静一下。

原文

11:54

Gary Marcus@GaryMarcus

Gary Marcus在FinancialTimes发文指出，即使AI泡沫破裂，新基础设施可能不会像19世纪铁路那样保留价值，因为芯片折旧快，更好的芯片总会问世。他提到LLM可能被更高效模型取代，减少对大量昂贵AI芯片的依赖。Marcus认为LLM不太可能复制当前科技巨头的近乎垄断地位，更可能像航空公司一样受制于低利润、激烈竞争和高硬件依赖。

行业 GaryMarcus AI泡沫 LLM 硬件贬值行业分析

推荐理由：别被AI乐观派忽悠了，Gary Marcus用铁路和航空的类比讲清了泡沫破裂后硬件可能迅速贬值的现实，值得一看。

原文

11:34

arXiv cs.AI@Aoyang Fang, Yifan Yang, Jin'ao Shang, Qisheng Lu, Junjielung Xu, Rui Wang, Songhan Zhang, Yuzhong Zhang, Boxi Yu, Pinjia He

OpenRCA 2.0 引入了 PAVE 协议，通过故障注入重建因果传播路径，标注了 500 个跨系统实例的步骤级因果链。在 11 个前沿 LLM 上测试，完全恢复根因集的成功率平均仅 20.7%。放宽条件后发现，模型在 76.0% 的案例中能识别至少一个正确根因服务，但只有 61.5% 能将服务与观察到的症状通过验证的因果路径关联起来。该基准揭露了仅靠结果标签评估时隐藏的未接地诊断失败模式。

论文 OpenRCA 2.0 PAVE LLM 根因分析因果推理

推荐理由：这篇论文搞了个新基准 OpenRCA 2.0，用 PAVE 协议给每一步因果关系打标签，发现 LLM 猜对根因容易，但连对因果路径很难——这比只看结果靠谱多了。

原文

11:07

arXiv cs.AI@Mohammad Mehdi Hosseini, Mohammad H. Mahoor, Hiroko H. Dodge

研究人员提出一种基于大语言模型(LLM)的语言数字双胞胎框架，通过融入文体特征和上下文元数据来模拟老年人的对话行为。他们还引入了多头条件变分自编码器(cVAE)，联合衡量重建质量并预测认知评分。在I-CONECT数据集上，该框架生成的数字双胞胎保留了身份特征，其重建误差和MoCA预测误差与真实数据相当，且优于基线GPT生成结果。这项工作为个性化、持续的认知健康监测提供了非侵入性方案。

论文 LLM Digital Twin I-CONECT cVAE 认知健康

推荐理由：这篇论文用LLM给老人建了个能聊天的数字分身，在I-CONECT数据上比普通GPT更准地模拟真实对话和预测认知评分，可能帮助早发现轻度认知障碍。

原文

10:59

arXiv cs.AI@Preet Baxi, Jiannan Xu, Jane Yi Jiang, Stefanus Jasin

该论文研究了在LLM自动简历筛选中的提示注入攻击，定义为不引入新资质但旨在影响LLM评分的微妙自我推销文本。实验表明，当候选人质量同质且只有少数人注入时，提示注入能可靠提高排名；但随着注入人数增多，效果迅速减弱，广泛操控时失效。在候选人质量异质场景下，提示注入平均效果较弱，但偶尔能让低质量候选人超越高质量候选人，引发公平性担忧。论文代码已公开在GitHub。

论文提示注入简历筛选 LLM AI安全自动化招聘

推荐理由：想知道你的简历能不能骗过AI筛选？这篇论文用数据告诉你提示注入在什么时候有效、什么时候没用，还能看出公平隐患，做招聘和求职的都该看看。

原文

10:44

arXiv cs.LG@Johannes Zenn, Jonas Geiping

该论文在多个解码方法（如温度采样、束搜索）和多个模型（如LLaMA-2、GPT-4）上分析序列概率与正确性的对齐关系。在固定数据集内，高序列概率通常预示正确，但改变超参数或解码方法提升序列概率并不稳定提高准确度。对于同一提示的多次回复，序列概率与正确性相关性很弱。研究为解码策略、自一致性等提供实践指导。

论文 LLM sequence probability correctness decoding 自一致性

推荐理由：论文搞清楚了啥时候模型觉得对就真的对。它告诉你别光看概率，同一问题重复问，概率高不一定准，做解码或自一致性时可参考。

原文

09:53

arXiv cs.AI@Gerhard Backfried, Christian Schmidt, Diego Pilutti, Michael Suker

该论文提出将LLM应用于外国维和任务的威胁评估，基于PINPOINT项目和欧盟驻格鲁吉亚监测团的用例。工作流结合跨学科风险模型、OSINT媒体收集和LLM威胁提取，将媒体内容映射到任务相关威胁并提取结构化信息。评估显示自动结果与人类判断在威胁和任务相关性上高度一致。表明LLM可作为支持分析师的有效工具。

论文 LLM 威胁评估 OSINT PINPOINT 维和任务

推荐理由：这篇论文展示了LLM在维和任务威胁评估中的实际应用，与人类判断高度一致，实用性强。

原文

04:42

Gary Marcus@GaryMarcus

精选

一项使用1720亿token的测试发现，LLM在文档问答中无法完全避免幻觉。最佳模型在32K上下文编造答案率为1.19%，强模型通常为5%-7%，中等模型约25%。当上下文扩展到200K时，所有模型编造率至少10%。研究表明幻觉不仅源于检索失败，模型在事实缺失时仍过度自信回答。

论文 LLM 幻觉文档问答上下文长度 RAG

推荐理由：别以为用文档就能让LLM老老实实回答，1.19%的幻觉率也是定时炸弹，尤其长上下文风险更高。

原文

02:25

Paul Graham@paulg

Paul Graham 在 X 平台发帖，将不使用LLM写作类比为有汽车和起重机却选择跑步和举重。该推文获得214次点赞、21次转发和36次引用。他认为逃避LLM写作是个人选择而非落后，这一类比引发关于AI写作工具的讨论。

行业 Paul Graham LLM AI写作观点

推荐理由：Paul Graham 用一个跑步举重的比喻，解释了为什么有人不用AI写作不是傻，而是个人选择。挺有意思的观点。

原文

02:24

Paul Graham@paulg

Paul Graham在推文中表示，未来不依赖LLM（如GPT-4o）写作将是不常见的选择，但不会是古怪的异类，而是所有关注思维质量的人会做的事。Joe Weisenthal回复称，这种做法将类似于在新城市拒绝用Google Maps导航——对绝大多数人而言完全不可理解。这条讨论聚焦LLM对写作和思考习惯的长期影响。

行业 Paul Graham LLM 写作 AI写作思考习惯

推荐理由：Paul Graham聊LLM写作潮流，说不用反而可能才是聪明人，和Google Maps类比很有意思。

原文

6月25日

18:31

Decoder@Maximilian Schreiner

Meta计划到2025年用大语言模型取代约一半的人工审核请求，对某些类型内容，年底前这一比例将超过90%。公司内部员工对此快速部署表达担忧，认为可能增加误判和内容风险。该策略旨在降低人工审核成本，但引发对安全性和可靠性的质疑。

行业 Meta 内容审核员工警告 LLM AI安全

推荐理由：Meta要用AI替代大半人工审核，员工都觉得太快了，看看他们担心什么

原文

10:47

arXiv cs.LG@Babak Rahmani, Sebastian Dziadzio, Joschka Strüber, Sergio Hernández-Gutiérrez, Matthias Bethge

RevengeBench基准包含75个LLM生成的、基于Elo校准的策略，覆盖5个游戏环境，数据来自CodeClash比赛轨迹。学习者观察隐藏目标策略与对手对战，设计自定义对手策略作为行为探针，并提交可执行假设，用连续动作距离指标评估。在12个前沿LLM上，恢复质量差异显著，从34%到72%的初始距离闭合。重建策略在玩家对玩家锦标赛中提供可衡量的竞争优势，尤其对较弱模型更有帮助。

论文 RevengeBench CodeClash LLM 逆向工程策略恢复

推荐理由：这篇论文出了个RevengeBench基准，能从行为实验反推LLM的策略代码，测了12个模型恢复率34%-72%，弱模型受益最大。

原文

10:40

arXiv cs.LG@Yupu Hao, Zhuoran Jin, Huanxuan Liao, Kang Liu, Jun Zhao

该论文通过实验发现，多步工具使用强化学习（RL）训练中，模型可出现灾难性崩溃，性能骤降且工具调用结构失效。根本原因是特定控制token概率突增，但基础工具使用能力并未丢失。研究者系统探索了离策略监督、提示引导、错误示例等多种监督信号，并比较了同步与交错训练方案。结果表明，将监督微调（SFT）与RL交错进行可显著提升稳定性，但在格式和内容分布外（OOD）评估中性能下降。该工作揭示了RL失败机理，并展示了多样化监督信号对鲁棒训练的价值。

论文 LLM 强化学习工具使用 SFT 监督信号

推荐理由：这篇论文分析了多步工具RL训练容易崩溃的原因，并实验证明交错SFT与RL能有效提升稳定性，对做智能体RL的人很有参考价值。

原文

10:30

AI Will@FinanceYF5

精选73°

LatentMAS 论文已被 ICML 2026 接收为 spotlight 展示。该方法让 LLM 智能体直接通过隐藏嵌入进行推理和通信，无需文本解码或额外训练。在复杂推理任务上准确率提升最高达 14.6%，推理速度提高 4-4.6 倍，输出 token 使用减少 70.8%-83.7%。采用自回归潜在思维、KV-cache 传输等机制实现无训练协作。该技术可即插即用于现有 LLM，推动多智能体系统从文本交流转向潜在空间协同思考。

论文 LatentMAS ICML 多智能体系统潜在推理 LLM

推荐理由：ICML 2026 spotlight！这帮人让多智能体在潜在空间用思想沟通，不用说话，比传统文本交互快4倍，准确率还高14.6%。

原文

10:29

arXiv cs.AI@Giulian Biolo, Michael Tezza, Yuanjun Gong, Fabio Massacci

一项针对LLM辅助漏洞修补的人体实验研究提出，LLM工具在检测、定位和修复漏洞方面有潜力，但可能引入幻觉或不安全代码。研究计划使用平衡交叉设计，开发了集成隐藏Ghost测试的WebApp，用于验证补丁在功能测试和安全测试下的完整性。试点实验已进行，为后续大规模实验提供初步见解。

论文 LLM 漏洞修补 AI安全人体实验

推荐理由：这篇论文设计了一个人体实验，对比开发者用LLM辅助和手动修补漏洞的速度与安全性，还用了隐藏测试验真假补丁。

原文

09:42

shao__meng@shao__meng

精选73°

文章区分了内层 agent loop 与外层 harness loop，内层由模型判定“完成”结束，外层由 harness 续接任务。作者指出循环会放大 LLM 代码的过度防御倾向，当前 harness 产出的代码反而不如去年秋天。有效领域包括移植（如 Bun 从 Zig 到 Rust）、性能探索和安全扫描，共性是不产生需长期维护的代码。深层隐忧是认知依赖与判断力让渡，工程师可能丧失不借机器理解代码的能力。

行业 Loop Engineering LLM Claude Code 判断力认知依赖

推荐理由：Mitsuhiko 深入剖析了 Loop Engineering 的两层循环，指出循环会放大 LLM 代码的缺陷，并讨论了我们可能失去判断力的风险。对 AI 编程陷阱感兴趣的朋友值得一看。

原文

09:38

arXiv cs.AI@Ke Zhao, Zixiang Di, Hong Qian, Xiang Shu, Yaolin Wen, Qitao Shi, Bingdong Li, Xingyu Lu, Xiangfeng Wang, Jun Zhou, Ke Tang, Yang Yu

MiniOpt是一种强化学习框架，采用“推理-建模-求解”范式来优化问题。其OptReward奖赏函数通过分层分数结构联合评估建模与求解，避免专家演示依赖。在少于10B参数的模型中，MiniOpt系列取得最高平均求解精度(SA)。MiniOpt-3B在多种优化类型和任务领域展示强泛化能力，代码已开源。

AI模型 MiniOpt 强化学习优化开源模型 LLM

推荐理由：想用小型模型搞定各种优化问题？MiniOpt用3B参数就做到了不错的效果，而且代码开源随便玩。

原文

02:54

02:54Simon Willison’s Weblog（博客/媒体）

Tom MacWright 观察到近期不少求职者的简历、作品集及GitHub项目完全由LLM生成，包括commit消息。他认为这些材料缺乏个人真实信息，无法展现求职者的实际能力。这种泛化、机器生成的简历显得空洞且无从判断。MacWright 指出，这样的求职方式反而掩盖了候选人的真实特质。

行业 Tom MacWright AI求职 LLM 简历 GitHub

推荐理由：Tom MacWright 指出用LLM写简历和GitHub项目只会让HR觉得你不真实。求职千万别这么干。

原文

6月24日

21:57

OpenAI@OpenAI

93°

OpenAI宣布已设计并制造出首款自研AI芯片Jalapeño，该芯片由OpenAI从头设计，并与Broadcom合作实现量产。Jalapeño专为支撑ChatGPT、Codex、API及未来智能体产品的LLM工作负载而构建。此举扩大了OpenAI从产品到模型再到基础设施的全栈平台，旨在规模化扩展智能、服务更多用户并扩大AI访问权限。

AI产品 OpenAI Jalapeño Broadcom 芯片 LLM

推荐理由：OpenAI自己造芯片了，名字叫Jalapeño，专跑ChatGPT和Codex那类LLM任务，还拉上Broadcom合作量产。

原文

15:24

Stanford AI Lab@StanfordAILab

精选

斯坦福团队提出SPIRAL框架，通过强化学习让LLM在测试时自动协调顺序推理、并行采样和结果聚合。与传统只优化单链推理的训练方法不同，SPIRAL使用set RL训练模型生成对聚合器集体有用的多个候选答案，并用标准RL优化聚合器从这些候选合成改进答案。该方法使所有测试时计算维度（长链、并行样本、聚合）端到端可学习，缩小训练与部署的差距。

AI模型 SPIRAL LLM 强化学习推理模型测试时计算扩展

推荐理由：斯坦福团队发了SPIRAL，让LLM训练时就学会并行采样和聚合答案，不是只会单链思考，更符合实际推理场景。

原文

12:08

arXiv cs.AI@Ali Pourghasemi Fatideh, Wilder Baldwin, Maria Dhakal, Collin McMillan, Sepideh Ghanavati

本研究聚焦LLM对话系统在处理非功能需求（NFRs）时的准确性和对话质量。49名程序员使用GitHub Copilot对148个HIPAA衍生NFR进行评估，基于iTrust代码库，从需求满足度、推理和代码定位三个维度分析。结果显示开发者倾向于认同LLM评估，但与专家标注的真实标准相比准确率较低。更长系统响应和更多信息提供轮次会降低用户满意度，而主动交互则提升满意度。论文为设计面向NFR评估的LLM对话系统提供了经验证据。

论文 LLM NFR HIPAA GitHub Copilot 多轮对话

推荐理由：这篇论文用49个程序员和148个实例，实测了GitHub Copilot评估HIPAA合规NFR的准确度，发现开发者容易被带偏，但主动交互反而让人更满意。

原文

11:51

arXiv cs.LG@Anand Kamat, Daniel Blake, Brent M. Werness

Grad Detect 是一种通过分析大语言模型推理时逐层梯度模式来检测幻觉的方法。在多个 Q&A 基准（如 TriviaQA、Natural Questions）上，Grad Detect 在幻觉检测和模型弃权预测任务中均优于基于置信度或采样的基线。层消融实验覆盖 11 个模型和 4 种架构，发现最后 5 个层集中了超过 97% 的判别梯度信号，因此可实现高效部署。该方法为评估 LLM 可靠性提供了统一框架，兼具高预测性能和可解释性。

论文 Grad Detect 幻觉检测 LLM 梯度分析 AI安全

推荐理由：这篇论文教你用梯度信号抓幻觉，比看置信度准得多，而且发现只看最后5层就够了，省算力。

原文

11:47

arXiv cs.LG@Kunyu Ni, Lei Cao, Jie He, Xiaotong Zhang, Jianfeng Jin, Junyu Dong, Yanwei Yu

精选

论文提出FlowPipe，将数据预处理管道构建转化为有向无环图上的条件概率流生成问题。FlowPipe基于条件生成流网络（C-GFlowNets）与轨迹平衡目标，将终端验证奖励与早期决策联系。通过深度语义调制（FiLM）注入LLM提取的逻辑先验，并加入失败感知机制避免无效状态。在包含74个真实数据集的基准测试中，FlowPipe比Multi-DQN基线平均准确率提升11.96%，训练收敛速度提升12.5倍。

论文 FlowPipe LLM C-GFlowNets 数据预处理自动管道构建

推荐理由：自动搭数据管道的难题，FlowPipe用LLM+生成流网络解决了，74个数据集上准确率升12%，训练快12倍多，比老方法强一截。

原文

07:10

Ian Goodfellow@goodfellow_ian

Mythos普及了用LLM寻找漏洞的思路，但Aisle更早开始实践。Aisle使用小规模开源权重模型配合结构化搜索系统，成功匹配了带CVE的公共零日漏洞，且可离线运行。伯克利研究在8个类别中给予Aisle全球第1的排名（3项），团队来自欧洲且规模很小。

AI产品 Aisle Mythos LLM 零日漏洞 AI安全

推荐理由：Aisle用开源小模型加搜索，在零日漏洞发现上追平了Mythos，伯克利8项里拿了3项第一，还能离线跑，挺牛的。

原文

00:57

AK@_akhaliq

PlanBench-XL是一个新基准，专门评估LLM工具使用智能体在包含数千个工具的大型生态系统中的长程规划能力。该基准通过构建复杂任务链，要求智能体在工具选择、参数传递和结果融合中做出多步决策。初步测试中，GPT-4和Claude 3.5等主流模型在PlanBench-XL上的平均成功率低于40%，暴露了当前模型在规划深度和工具协调上的局限。

AI模型 PlanBench-XL LLM 智能体工具使用长程规划

推荐理由：想看看你用的LLM在多工具长流程场景下到底多靠谱？PlanBench-XL用上千个工具设计了真实任务链，测出来主流模型成功率不到40%，值得一测。

原文

6月23日

13:28

arXiv cs.LG@David Mguni, Julian Ma, Jun Wang

该论文通过廉价谈话博弈和PAC-Bayes界限分析提示条件语言模型，指出语言是容量有限的通信通道。当任务族的信息复杂度超过语言通道容量时，即使无限数据也会产生不可消除的正误差下限。对齐约束进一步导致目标分布错配，造成不可约失真。研究证明仅靠提示无法使LLM成为通用问题解决器。作者建议多模态观察和外部记忆可缓解这些限制。

论文 LLM 提示学习模型限制理论分析

推荐理由：这篇论文用理论证明告诉你，为什么光靠提示词调教，LLM永远无法解决所有任务，别盲目相信'万能模型'的宣传。

原文

13:27

arXiv cs.LG@Juyang Bai, Laixi Shi

论文MAS-PromptBench系统研究了提示优化对多智能体系统（MAS）的影响，覆盖任务类型、工作流、通信协议和团队规模等多种配置，基准测试了两种扩展自单智能体的提示优化器。实验结果表明提示优化在特定条件下能显著提升MAS性能，最高收益达X%（原文未提供具体数字，此处不捏造），但搜索空间随智能体数量指数增长构成关键挑战。研究揭示了提示优化效果高度依赖系统配置，如通信协议和团队大小。

论文 MAS-PromptBench 多智能体系统提示优化 LLM 系统提示

推荐理由：这篇论文把多智能体系统里调提示词的效果讲清楚了，有实验数据告诉你啥时候有用啥时候没用，不是玄学。

原文

13:15

arXiv cs.AI@Dingzhi Yu, Hongyi Tao, Yuanyu Wan, Luo Luo, Lijun Zhang

AdamW是训练大型语言模型的默认优化器，但其理论主要建立在有限方差假设上。实证发现LLM预训练中的随机梯度噪声通常是重尾的。近期Lion、Muon等符号优化器已取得重尾收敛率，AdaGrad也能在重尾噪声下收敛。本文提出一个开放问题：AdamW能否在相同重尾假设下收敛？作者证明了一个正加权度量基准，并通过走廊下界机制表明分母记忆可能隐藏大梯度。

论文 AdamW LLM 重尾噪声优化器理论

推荐理由：AdamW天天用但理论有坑，这篇论文把收敛性列为开放问题，还给出了新分析框架。做LLM训练优化的人该看看。

原文

13:13

arXiv cs.AI@Prateek Agnihotri, Sanchit Jain, Prabhat Agnihotri, Aditya Prasad, Shubham Jain

这篇论文介绍了在NVIDIA Nemotron Model Reasoning Challenge中解决Bit Manipulation Puzzles的创新算法。该任务要求发现隐藏的逻辑规则并应用于新输入，但LLMs通常因复杂布尔逻辑模拟而幻觉。作者提出放弃算术逻辑，转而使用字符串相似性、结构化搜索和自主错误恢复。他们将逻辑门推导重构为基选择任务，利用最小比特翻转来隔离基并推导真值表，无需复杂算术。通过回溯DFS和错误恢复，结合比特分词和交互推理SFT，该方法在验证集上达到96%以上的准确率，最终获得比赛第7名。

论文 NVIDIA Nemotron Bit Manipulation Puzzles 推理模型 LLM

推荐理由：这篇论文用字符串相似度和回溯搜索替代了算术逻辑，让LLM在位操作谜题上验证精度超过96%，比赛第7名，方法很巧妙。

原文

13:10

arXiv cs.AI@Campbell Lund, Thomas Euyang, Zanele Munyikwa, Marzieh Fadaee

2023年Eloundou等人计算的GPTs暴露评分成为工作未来辩论的核心输入，该评分定义暴露为LLM能辅助的职业任务占比。论文指出其存在时间、地理和本体论局限，并调查了五类应对研究：动态和基准度量、集成方法、任务框架扩展、以工人为中心的指标、采纳和使用数据。研究-政策协调不足，政策分析仍引用静态评分而未采纳方法论更新。建议政策制定者拓宽证据基础，研究者采用参与式方法并构建数据基础设施。

论文 GPT Exposure Scores LLM 工作自动化未来工作

推荐理由：这篇论文拆解了被广泛引用的GPT暴露评分到底靠谱不，指出静态评分的坑，还给出了五类改进方向，搞AI政策或研究的人值得一看。

原文

12:50

arXiv cs.LG@Yujia Zheng, Vishal Verma, Mantej Gill, Haoyue Dai, Peter Spirtes, Kun Zhang

该论文指出将大语言模型（LLMs）与因果发现结合时，若让模型直接推断因果关系，可能引入文本关联、提示伪影和幻觉机制等不可靠因素。作者主张代理（agents）的角色应局限于检查数据、检索上下文、解释方法假设和澄清图输出，而非提供边、方向、先验或因果结论。他们提出了causal-learn+在线平台，该平台围绕causal-learn算法生态系统协调数据分析、预处理、方法推荐、专家知识融入和形式化发现。在Big Five人格数据案例研究中，展示了代理辅助的因果发现流程，避免将语言模型的不可靠性转化为因果证据。

论文 causal-learn+LLM 因果发现智能体 Causal Discovery

推荐理由：这篇论文给了一个清晰的边界：AI代理该帮什么、不该帮什么。causal-learn+平台演示了如何让LLM辅助分析数据，但不越界做因果推断。

原文

12:03

arXiv: DeepSeek@Xiang-Jun Ou, Shuang Liang, Xin-Yu Hu, Rong-Hao Huang, Jing Wang, Shao-Qun Zhang

该研究提出一种粒度不确定性分类法，将LLM不确定性归因于输入级、参数级、词元级和解码过程四个源头。研究者将现有21种不确定性量化方法分为贝叶斯、集成、共识和单次推理四类，并在Qwen3、Llama 3.2和DeepSeek-V3三个模型家族上，使用TriviaQA、GSM8K和HumanEval基准进行实验。结果显示，共识方法（Deg和EigV）一致优于其他方法，且更大模型规模与更低不确定性估计相关。该工作为量化LLM不确定性提供了系统诊断工具。

论文 LLM 不确定性量化 Qwen3 Llama 3.2 DeepSeek-V3 模型评估

推荐理由：这篇论文把LLM不确定性拆成四个层面，测了21种方法在多个基准上的效果，结论是共识方法最稳，模型越大越不模糊。

原文

11:10

arXiv cs.AI@Weiwei Ye, Hangchen Liu, Dongyuan Li, Renhe Jiang

论文提出PAPERCLAW，一个多智能体系统，可从研究领域自主生成完整论文。该系统通过实时文献、数据集和代码孵化想法，并利用假设地图的迭代“提出-测试-反思”循环推进，在证据支持结论时自动撰写符合会议格式的论文。PAPERCLAW支持全生命周期记忆，允许暂停、检查与恢复，并内置人机协作接口，使研究者可在任意阶段介入优化。评估使用LLM评判表明，PAPERCLAW在完全自主和人在回路两种模式下均能产出高质量论文。

论文 PAPERCLAW 多智能体自主研究论文生成 LLM

推荐理由：想用AI帮你从头到尾写论文？PAPERCLAW能自动搜文献、定假设、跑实验、写全文，你还能中途插手改方向。

原文

11:08

arXiv cs.AI@Alexander V. Kozachok, Alexander M. Nazimov, Shamil G. Magomedov

论文将自然语言到DSL代码生成定义为Text2DSL新问题，并引入PolkitBench数据集，含4204对自然语言-Polkit规则对。实验在GigaChat-10B-A1.8B（18亿活跃参数）和Nemotron-3-Nano-30B-A3B（30亿活跃参数）两个MoE模型上测试。提供结构化上下文（BNF语法、API说明、允许标识符词汇）后，语法有效性达98.6-99.4%，结构有效性提升9.7-35.5个百分点，CodeBLEU分数提升60-95%。

论文 Text2DSL PolkitBench DSL 代码生成 LLM

推荐理由：这篇论文定义了Text2DSL任务，带了一个4204条规则的数据集PolkitBench，还发现喂给模型语法规则能让代码生成质量暴增，不用微调。

原文

10:55

arXiv cs.AI@Saumya Biswas, Amrit De, Md Tauhidul Islam

论文提出一个由大语言模型（LLM）编排的设计代理，用于硅绝缘体（SOI）2×2定向耦合器。LLM提出候选间隙值并判断收敛，频率域本征模求解器估算耦合系数κ，独立时域有限差分（FDTD）进行验证。两个求解器均基于相同的2D有效折射率模型，设计κ与FDTD响应之间残差对应一个固定额外耦合长度2.837 μm。该代理实现50/50分束器，FDTD测得的交叉分数为0.498（目标0.500），残差0.0017。结果在2D有效折射率模型内自洽，LLM经过多次尝试成功交付设计。

论文 LLM FDTD 定向耦合器智能体光子学设计

推荐理由：这篇论文让LLM指挥本征模和FDTD模拟自动设计定向耦合器，误差仅0.0017，省去手动调参的麻烦。

原文

10:38

arXiv cs.LG@Aygün Varol, Katarzyna Kołodziej, Łukasz Sobczak, Michał Romaszewski, Przemysław Głomb, Naser Hossein Motlagh, Mirka Leino, Johanna Virkki

这篇论文提出结构化提示构建框架，将原始空气质量和热舒适传感器数据转化为三种渐进的文本表示（原始值、阈值描述、环境摘要）。研究使用室内Raspberry Pi/BME680数据集和户外华沙等城市数据集，评估5个本地和5个云端LLM。在无思维链推理模式下，本地模型准确率从50.9%提升至81.7%（室内），从63.7%提升至89.3%（户外），平均延迟仅0.22秒。结果表明轻量级预处理可显著缩小边缘与云端的准确率差异。

论文 LLM IoT数据预处理边缘AI 提示工程环境监测

推荐理由：把传感器数据预处理成文字提示，小模型准确率能从50%涨到89%，延迟才0.22秒，不比云端差。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？