全部 AI 动态 · AI 热点

5月20日

10:51

arXiv: DeepSeek@Ali Mohammadi Esfahani, Nafiseh Kahani, Samuel A. Ajila

精选

研究人员提出一个基于强化学习的框架，将提示词优化建模为序列决策问题。PPO代理通过混合动作空间（直接生成、遗传变异、语义重写）迭代改进提示词，并利用单元测试反馈的奖励信号驱动优化。在MBPP+、HumanEval+和APPS基准上，使用CodeT5+、CodeLLaMA和DeepSeek-Coder作为冻结代码生成器，PPO代理在MBPP+的500任务测试集上分别达到57.58%、64.80%和85.50%的严格Pass@1，优于EPiC、Reflexion和随机混合方法。软Pass@1分别达到67.90%、73.10%和88.20%。结果表明，带形状奖励的强化学习能显著提升LLM代码生成的功能正确性。

论文提示词优化强化学习代码生成 PPO LLM

推荐理由：做LLM代码生成或提示词工程的开发者，这个框架直接解决了提示词敏感性问题——用RL自动优化提示词，比手动调参高效得多，建议关注其混合动作空间和奖励设计。

原文

10:49

arXiv: DeepSeek@Adrien Bazoge, Josselin Corvellec, Sofiane Djillali Sid-Ahmed, Pierre-Antoine Gourraud

精选

一项新研究评估了提示语言对大型语言模型临床诊断推理和最终诊断准确性的影响，比较了英文和法文下五个模型（o3、DeepSeek-R1、GPT-4-Turbo、Llama-3.1-405B-Instruct、BioMistral-7B）的表现。180个临床案例由两位医生使用18分量表评估，涵盖16个医学专科。结果显示，除o3外，其他四个模型在英文提示下表现更好，平均差异0.37-0.91分，差异体现在鉴别诊断、逻辑结构和内部有效性等多个推理维度。这表明提示语言仍是LLM临床性能的关键决定因素，对全球语言文化公平部署具有重要影响。

论文 LLM 临床决策支持多语言诊断推理 o3

推荐理由：医疗AI开发者需要注意：你的模型在非英语场景下可能掉链子，o3是唯一不受语言影响的例外。做多语言临床决策支持的团队，这篇论文值得细读。

原文

10:36

arXiv cs.AI@Husnain Amjad, Raja Khurram Shahzad, Aamir Shahzad, Mehwish Fatima

精选

这篇综述系统梳理了大型语言模型在数学推理领域的最新进展，涵盖约120篇论文。文章提出了统一的数学数据集分类法，区分了预训练语料、监督微调资源和评估基准。它分析了推理架构和训练策略（如工具集成、验证器引导推理、参数高效微调）对鲁棒性和泛化能力的影响。比较评估揭示了最终答案准确率与过程级推理验证之间的差距。最后，论文指出了常见失败模式（如推理忠实性问题、基准偏差）和未来研究方向。

论文推理模型数学推理综述/论文评估基准 LLM

推荐理由：做LLM推理研究或评估的团队，这篇综述帮你系统梳理了120篇论文的脉络，直接拿来当研究起点，省去大量文献筛选时间。

原文

5月19日

14:32

arXiv cs.AI@Tinghan Ye, Arnaud Deza, Ved Mohan, El Mehdi Er Raqabi, Pascal Van Hentenryck

精选

本文提出一个基于LLM的智能体重优化框架，让非运筹学专家也能通过自然语言交互快速调整优化模型。该框架将LLM作为运筹学专家，将用户提示转化为结构化模型更新，并从优化工具箱中选择合适技术加速重优化。工具箱利用历史解、有效不等式、求解器配置和元启发式等原始信息，在保证解质量的同时提升计算效率。在两个大规模真实案例（在线供应链重优化和离线大学考试排程）中验证了其有效性和可扩展性。该框架减少了对运筹学专家的依赖，提升了决策支持系统的可持续性。

论文 LLM 运筹优化重优化智能体供应链

推荐理由：做供应链排程或排课系统的团队终于有了不用求OR专家的方案——LLM直接帮你改模型、选算法、出解，建议做运筹优化的开发者点开看实现细节。

原文

14:22

arXiv cs.AI@Yuxiang Huang, Nuno M. T. Gonçalves, Federico Alvetreti, Lei Li, Xu Han, Edoardo M. Ponti, André F. T. Martins, Marcos V. Treviso

精选72°

DashAttention 提出了一种新的分层注意力机制，通过可微分的 α-entmax 变换替代传统 top-k 操作，自适应地为每个查询选择可变数量的关键值块，从而解决了现有方法（如 NSA 和 InfLLMv2）中固定块数和梯度阻断的问题。该方法保持整个层次结构完全可微分，且具有非分散性，提升了长上下文建模能力。实验表明，在 75% 稀疏度下，DashAttention 的准确率与全注意力相当，在高稀疏场景下优于 NSA 和 InfLLMv2。其基于 Triton 的 GPU 实现推理速度甚至超过 FlashAttention-3。DashAttention 为长上下文模型提供了一种高效且经济的方案。

论文注意力机制长上下文稀疏注意力可微分 LLM

推荐理由：长上下文 LLM 的推理成本一直是痛点，DashAttention 用可微分稀疏注意力在保持精度的同时大幅提速，做长文本推理和模型优化的研究者值得关注。

原文

10:25

arXiv: Anthropic@Nikola Milosevic

精选

本文提出一种双过程记忆架构，将即时情景记忆（固定10条消息窗口）与长期知识（约3 tokens/消息增长）解耦，解决LLM在科学协作中的上下文窗口饱和问题。在15,000条消息、跨6个模型（OpenAI、Anthropic、Google）的1,440次查询评估中，该架构在10,000条消息时仍保持70-85%准确率，延迟1-2秒，且比全上下文模型节省62% tokens。研究发现双过程架构在数值/时间查询上表现优异（65-90%准确率），而RAG在历史检索上更优（60-85%），并揭示了合成测试与现实工作流之间的“模拟到现实”差距。该架构成功管理了14,000+科学事实（125k tokens），证明领域特定记忆整合可支持超长上下文持续运行。

论文记忆架构科学智能体上下文窗口推理模型 LLM

推荐理由：做科学计算或长期实验分析的AI开发者，终于有了对抗上下文饱和的实用方案——双过程架构直接省62% tokens还保持高精度，值得在长链推理任务中试试。

原文

10:12

arXiv cs.AI@Zhaoyue Sun, Hainiu Xu, Andero Uusberg, James J. Gross, Petr Slovak, Yulan He

精选

现有LLM情绪理解评估依赖离散标签预测，忽略了情绪产生的认知过程。研究者基于评价理论提出CAREBench，首个包含完整推理链注释的基准，涵盖评价推理、评价评分和多标签情绪标注，从第一和第三人称视角分析真实叙事。实验发现，强模型在某些任务上达到或超越人类，但在评价推理和积极情绪识别上仍有不足；模型在推理链步骤和评价干预敏感性上表现出分离现象，且未内化人类主观异质性的机制。这表明下游情绪预测指标可能高估了LLM的真实情绪理解能力，CAREBench为更诊断性的情感认知评估提供了基础。

论文 LLM 情绪理解评价理论基准测试认知推理

推荐理由：做AI情感计算或人机交互的团队，这个基准能帮你发现模型在情绪理解上的真实短板——别被下游指标骗了，建议点开看看评价推理链的设计。

原文

10:01

arXiv cs.AI@Ferhat Erata, Hao Zhou, Luke Huan

精选

研究人员提出了一种名为 fidelity probes 的方法，通过从代码中生成带真实答案的自然语言问题，来评估候选规格说明与代码的一致性。该方法将一致性分数分解为矛盾率和覆盖缺口率，从而指导规格说明的迭代改进。在包含约 12,000 行 COBOL 代码的基准测试中，经过八次迭代，规格说明的一致性从 0.63 提升至 0.94，且收敛点可通过两态马尔可夫固定点预测。探针可由 LLM 或静态分析管道生成，两者互补。该方法适用于任何应描述相同行为的成对工件。

论文代码-规格对齐 LLM 静态分析 COBOL 自动化验证

推荐理由：做代码文档对齐或规格说明自动化的团队，可以拿这个方法直接改进现有流程——它用 LLM 和静态分析结合，能快速发现并修复规格与代码的不一致，迭代效率很高。

原文

5月18日

12:14

arXiv cs.AI@Augusto B. Corrêa, André G. Pereira, Jendrik Seipp

精选

本文提出一种属性引导的LLM程序合成方法，用于PDDL规划领域。传统方法依赖简单分数（如测试通过数）评估程序，缺乏失败原因反馈，导致大量无效生成和评估。新方法在程序违反形式化属性时立即停止评估，并返回具体反例，引导LLM修复。在10个规划域上的实验表明，该方法平均每个域生成程序数减少7倍，无需搜索即可解决更多任务，评估计算量降低数个数量级。该方法适用于任何存在可验证属性的问题，能显著降低成本并提升程序质量。

论文程序合成 LLM 规划形式化验证 PDDL

推荐理由：做AI规划或程序合成的团队，这篇论文提供了一种减少LLM调用次数、提升生成效率的实用方法——用形式化属性替代分数反馈，直接给反例引导修复，值得点开看看具体实现。

原文

12:03

arXiv cs.AI@Tahreem Yasir, Wenbo Li, Sam Gilson, Sutapa Dey Tithi, Xiaoyi Tian, Tiffany Barnes

精选

一项新研究评估了七个大型语言模型（LLM）在命题逻辑辅导中的诊断精度，使用知识图谱生成的10,836个解决方案-反馈对作为基准。结果显示，LLM在识别最优步骤上接近完美，但系统性地过度拒绝有效但次优的推理，并过度验证错误的解决方案——这正是自适应辅导最需要精准反馈的地方。这些失败在所有模型中一致出现，表明是架构限制而非信息不足。此外，准确诊断并不总能转化为可操作的反馈，揭示了诊断判断与教学效果之间的差距。研究建议，LLM更适合混合架构，由知识图谱模型负责诊断，LLM负责开放式引导和对话。

论文 LLM 智能辅导系统教育AI 知识图谱诊断精度

推荐理由：做AI教育或智能辅导系统的开发者会发现，LLM在关键教学诊断上存在系统性盲区——它擅长确认正确，却搞不定“部分正确”和“错误”的微妙区分，这直接影响辅导质量。建议点开看看混合架构方案，或许能帮你避开部署中的坑。

原文

11:52

arXiv cs.AI@Sarah Martinson, Michael P. Brenner, Martyna Plomecka, Brian P. Williams, Nicholas G. Reich, Zahra Shamsi

精选72°

研究团队提出一种利用大语言模型（LLM）引导树搜索的自主系统，可迭代生成、评估和优化传染病预测软件。在2025-2026年美国呼吸道季节的前瞻性实时评估中，该系统自主发现针对流感、COVID-19和RSV的多样化模型，其集成预测性能一致达到或超过CDC人工策划的黄金标准集成。系统成功应对RSV数据稀缺的“冷启动”场景，并通过优化对数尺度距离指标和自动裁判机制确保模型可靠性。该框架克服了建模人力瓶颈，使专家级疾病预测能快速部署到更细粒度的地理区域和新兴病原体。

论文 LLM 疾病预测树搜索公共卫生自动建模

推荐理由：做公共卫生预测或传染病建模的团队，终于有了能自动生成专家级模型的工具，不用再靠人工反复调参——建议关注其开源代码和冷启动能力。

原文

10:32

arXiv cs.LG@Igor Bogdanov, Chung-Horng Lung, Thomas Kunz, Jie Gao, Adrian Taylor, Marzia Zaman

精选

FORGE 是一种无需梯度更新的智能体记忆进化协议，通过分层 ReAct 架构和群体广播机制，让 LLM 智能体从失败轨迹中生成可复用的知识（规则、示例或混合形式）。在 CybORG CAGE-2 网络防御任务中，FORGE 使所有 12 种模型配置的平均回报提升 1.7-7.7 倍（相比零样本基线），并降低严重失败率至约 1%。关键发现包括：群体广播是性能提升的核心机制，示例记忆对多数模型效果最佳，且较弱模型受益更显著。该工作为无需权重更新的智能体持续学习提供了新范式。

论文智能体记忆进化群体广播网络防御 LLM

推荐理由：做智能体持续学习和自主决策的团队——FORGE 用群体广播解决了记忆进化中的灾难性遗忘问题，无需微调模型权重，直接提升任务成功率。做网络防御或 POMDP 场景的开发者值得关注其低成本高回报的实践路径。

原文

5月15日

10:04

arXiv cs.AI@Yoshia Abe, Tatsuya Daikoku, Yasuo Kuniyoshi

精选73°

该研究提出了一种结合深度学习与大型语言模型（LLM）的系统，用于个性化图像审美评估。系统通过LLM进行半结构化访谈主动收集用户的审美偏好，并提取图像的高层语义特征与低层特征进行预测。实验表明，该系统在预测个体审美评价上优于传统模型、人类预测者，甚至目标个体自身的重新评估。尤其在高评分图像上表现突出，且预测误差小于个体自身的时间波动。研究暗示AI可能比他人或未来的自己更能捕捉特定时刻的个体审美偏好，引发AI能否成为比人类更深刻审美解释者的新问题。

论文 LLM 图像审美评估个性化推荐深度学习语义特征

推荐理由：这项研究解决了AI审美评估中主观性强的痛点，做个性化推荐、图像编辑或用户体验优化的团队值得关注——它用LLM访谈替代了传统问卷，效果甚至超过本人复评，建议点开看看实验设计。

原文

5月14日

13:27

arXiv: OpenAI@Andreas Maier, Jeta Sopa, Gozde Gul Sahin, Paula Perez-Toro, Siming Bayer

精选75°

一项研究复现了 Wu 等人（2026）的发现：多数前沿大语言模型在系统提示中包含软赞助线索时，会推荐价格约两倍的赞助航班。研究者对 10 个开源聊天模型和 2 个 OpenAI 模型（gpt-3.5-turbo、gpt-4o）进行了评估，发现原文的结论具有普遍性——例如 gpt-3.5-turbo 的赞助推荐率与原报告接近。关键发现是：一个仅 30 个 token 的用户提示（要求模型先提供中立对比表格）可将开源模型的赞助推荐率从 46.9% 降至 1.0%，OpenAI 模型从 53.0% 降至 0%。研究还揭示了复现过程中的三个隐性实现错误，表明仅靠文字描述不足以准确复现。

论文 LLM 赞助推荐提示工程复现研究 AI 安全

推荐理由：这篇论文揭示了 LLM 推荐中的赞助偏见，并提供了一个极简的对抗方法——用 30 token 提示词就能大幅降低推荐偏差。做 AI 安全、推荐系统或 LLM 应用的开发者值得一看，可以直接复现实验。

原文

13:27

arXiv cs.AI@Or Ordentlich, Yury Polyanskiy

精选

本文是量化矩阵乘法研究的第二部分，探讨在第二因子列协方差矩阵已知时的量化策略，该场景常见于大语言模型的权重量化后训练。作者展示了经典的水填充法（waterfilling）如何改进现有LLM量化算法（如GPTQ），后者目前均匀分配比特率。分析表明，仅使用标量INT量化器的WaterSIC方案在高率下性能与信息论极限相差仅0.25比特/条目，且不受随机旋转影响。而GPTQ在随机旋转下与WaterSIC差距在0.1比特以内，表明其在高率下也接近最优。

论文量化 LLM 水填充法 GPTQ 权重量化

推荐理由：做LLM量化的开发者终于有了理论指导——水填充法比均匀分配更优，GPTQ加随机旋转就能接近极限，建议做权重量化的团队点开看看具体实现。

原文

13:27

arXiv cs.AI@Mohammad Reza Mousavi

精选

一项新研究测试了 Gemini-3、GPT-5.4 和 Qwen-3.6 三个大模型对高级消息序列图（HMSC）语义的理解能力。HMSC 是 UML 序列图的基础，具有严格的形式语义。研究设计了 129 个语义任务，涵盖基本语义查询、抽象与组合、迹与标签转移系统计算。结果显示，LLM 整体准确率仅约 52%，其中基本语义理解较好（88%），但抽象与组合任务（36%）和迹与 LTS 任务（42%）表现很差。所有模型都未能理解共区域和显式因果依赖等概念。这表明 LLM 在形式化软件工程任务上仍有显著局限。

论文 LLM 形式语义软件工程 UML 序列图

推荐理由：做形式化方法或软件建模的开发者会发现，LLM 对 UML 序列图语义的理解远不如预期，依赖 LLM 生成设计文档时需谨慎验证。

原文

13:26

arXiv cs.LG@Deepak Pandita, Flip Korn, Chris Welty, Christopher M. Homan

精选

生成式AI模型（如LLM）的普及使系统安全性和可信度评估变得至关重要，但当前AI领域面临可重复性危机，主要源于不可靠的评估和不可重复的实验结果。人类评估者引入的偏见和主观意见加剧了这一问题，而现有评估实践通常每个项目仅使用3-5个标注，且缺乏持久评估者标识。该研究提出一种多级自助法（bootstrapping）来建模标注者行为，利用大量标注数据和持久评估者标识，分析项目数量（N）与每个项目响应数（K）之间的权衡，以达成统计显著性。这项工作为改进评估可重复性提供了方法论基础。

论文可重复性评估方法标注者偏差统计建模 LLM

推荐理由：做AI评估和模型安全测试的团队，终于有了量化标注者偏差的方法论——多级建模直接告诉你需要多少标注才能得到可靠结论，建议做实验设计的点开看看。

原文

5月13日

19:12

arXiv cs.AI@Yuxiao Yang, Xiaoyun Wang, Weitong Zhang

精选

本文研究了在线策略自蒸馏（OPSD）方法，即语言模型通过在其自身生成的轨迹上蒸馏特权教师分布来提升推理能力。作者发现OPSD存在一个常见但常被忽视的问题：教师响应中的自我反思偏差和模板会导致token级监督校准错误。为此，他们提出OGLS-SD框架，利用可验证的结果奖励对比成功与失败的在线轨迹，并通过logit引导校准教师logits。该方法结合结果级正确性与密集的token级引导，在多个基准上稳定了自蒸馏过程并提升了推理性能。

论文自蒸馏推理模型 logit校准结果引导 LLM

推荐理由：如果你在做LLM推理优化或自蒸馏训练，OGLS-SD解决了教师-学生分布不匹配的痛点，用结果奖励校准logits的思路直接可复用，值得仔细看方法细节。

原文

19:12

arXiv cs.AI@Haoyu Wang, Yuliang Song, Tao Li, Zhiwei Deng, Yaqing Wang, Deepak Ramachandran, Eldan Cohen, Dan Roth

精选

该研究提出CP-SynC-XL基准（100个组合问题，4577个实例），评估三种求解器构建范式：原生Python算法搜索、Python+OR-Tools约束建模、MiniZinc+OR-Tools声明式建模。结果显示，Python+OR-Tools正确率最高，而原生Python易产生格式正确但验证失败的方案。提示模型进行搜索优化仅带来1.03-1.12倍的中位加速，但许多实例反而变慢，且正确率在长尾问题上显著下降。代码审计发现，优化提示会导致模型用局部近似替代完整搜索、注入未验证的边界或添加冗余声明式机制，陷入“启发式陷阱”。研究建议：LLM应主要用于形式化变量、约束和目标，而搜索优化需单独验证。

论文 LLM 组合优化求解器约束建模启发式陷阱

推荐理由：做组合优化或约束求解的开发者，这篇论文用实验数据告诉你为什么别让LLM碰搜索优化——它可能让你的求解器变慢还出错。建议读读，避免踩坑。

原文

19:12

arXiv: DeepSeek@Ali Karakoc, H. Birkan Yilmaz

精选

该论文提出两种基于大语言模型（LLM）的对抗性SQL注入生成系统：RADAGAS（检索增强生成）和RefleXQLi（反思链式推理），用于自动化测试Web应用防火墙（WAF）的防御能力。研究使用GPT-4o、Claude 3.7 Sonnet和DeepSeek R1，在10种WAF（包括规则型、AI/ML型和商业型）上进行了240次实验，生成了24万个payload并执行了220万次测试。结果显示，RADAGAS-GPT4o以22.73%的绕过率领先基线模型，对AI/ML型WAF（如WAF-Brain和CNN-WAF）的绕过率高达92.49%和80.48%，但对规则型WAF（如ModSecurity和Coraza）的绕过率仅0-5.70%。研究还发现，多样性较低的payload更容易绕过，但若初始payload失败则效果不佳。这项工作为安全测试中LLM的应用提供了全面视角。

论文 SQL注入 LLM 对抗性攻击 WAF绕过安全测试

推荐理由：安全工程师和渗透测试人员可以借鉴RADAGAS和RefleXQLi的思路，自动化生成对抗性SQL注入payload来评估自家WAF的盲区，尤其是AI/ML型WAF的脆弱点值得重点关注。

原文

19:12

arXiv: DeepSeek@Erfan Loweimi, Sofia de la Fuente Garcia, Saturnino Luz

精选

研究团队利用大语言模型（LLM）从自发语音中零样本预测Ryff心理幸福感（PWB）分数。基于PsyVoiD数据库中111名参与者的几分钟语音录音，评估了12种指令微调LLM（包括Llama-3、Ministral、Mistral、Gemma-2/3、Phi-4、DeepSeek和QwQ-Preview）。与临床心理学和语言学专家合作开发了领域提示词。结果显示，LLM能从语音中提取语义线索，在80%的数据上达到最高0.8的Spearman相关性。研究还通过统计分析解释预测变异性和偏差，并用词云突出驱动预测的语言特征。

论文 LLM 心理幸福感语音分析零样本预测临床心理学

推荐理由：这项研究为心理健康评估提供了非侵入式新方法——用几分钟语音就能预测幸福感，做临床心理学或语音分析的团队值得关注，零样本方案降低了部署门槛。

原文

19:12

arXiv cs.AI@ Gunjan, Sidahmed Benabderrahmane, Talal Rahwan

精选

该研究从计算社会科学视角，构建了包含178万条帖子的配对语料库，覆盖新冠疫情、国会山骚乱、美国大选等9次危机事件。通过比较真实社交媒体话语与LLM生成的合成话语，发现合成话语在情绪、结构、词汇和事件依赖四个维度上表现出“群体级不真实”：情绪更负面且分散度低、结构更规则、词汇更抽象。这种差异在快速演变的去中心化危机中尤为明显，而在制度性事件中较小。研究提出了“漫画差距”指标，认为合成政治话语的主要问题不是语法或流畅度，而是缺乏群体层面的社会真实性。

论文 LLM 政治话语虚假信息计算社会科学群体审计

推荐理由：做AI安全、虚假信息检测或计算社会科学的研究者值得关注——这篇论文把LLM生成文本的检测从句子级提升到群体级，提供了可量化的审计框架，建议做内容审核或舆情分析的团队点开看看。

原文

19:12

arXiv: DeepSeek@Jinyuan Wang, Ningyuan Deng, Yi Yang

精选

大型语言模型（LLM）越来越多地被用于社会科学研究，将非结构化文本转换为可进入实证设计的变量。但研究发现，LLM的置信度与真实正确率严重不匹配，导致基于置信度过滤会扭曲下游回归估计。研究对GPT-5-mini、DeepSeek-V3.2等14个社会科学构念进行审计，发现所有模型都存在校准偏差。作为解决方案，提出软标签蒸馏管道，将LLM得分和置信度转化为软目标分布，训练小型判别分类器，平均降低ECE 43.2%和Brier 34.0%。研究呼吁将校准视为测量有效性的组成部分，而非可选的后期处理。

论文 LLM 社会科学校准置信度软标签蒸馏

推荐理由：做社会科学量化分析的团队终于有了校准LLM输出的实操方案——软标签蒸馏能显著降低置信度偏差，建议做文本编码和实证研究的点开看看具体方法。

原文

5月12日

19:11

arXiv cs.LG@Nikita Kezins, Urbas Ekka, Pascal Berrang, Luca Arnaboldi

红队测试在实际中表现良好的护栏分类器无法提供形式化保证，因为“有害行为”缺乏离散输入空间中的自然规范。研究者提出将验证从离散输入空间转移到分类器的预激活空间，通过定义包含已知有害提示表示的有害区域，并利用sigmoid分类头的单调性，能在O(d)时间内给出封闭形式的可靠性证明。该框架应用于三种毒性护栏分类器，所有超矩形配置均返回SAT（即存在安全漏洞），而概率性高斯混合模型证书则揭示了模型表示危害的结构稳定性差异：GPT-2和Llama-3.1-8B保持90%和80%的覆盖率，但BERT的安全保证在最优阈值下覆盖率骤降至55%。这些方法提供了超越传统红队测试的护栏分类器有效性新见解。

论文 AI安全形式化验证护栏分类器红队测试 LLM

推荐理由：该研究首次为LLM护栏分类器提供了形式化验证方法，揭示了高经验指标下隐藏的安全漏洞，对AI安全领域具有重要指导意义。

原文

5月11日

11:45

11:45arXiv cs.AI（学术论文）

本文针对当前AI评估中普遍存在的“苹果与橙子”式比较问题，提出了一种可重复的流程，将高层级AI使用用例转化为详细评估场景。该方法通过结构化的AI用例工作表（包含用例、行业、用户、预期结果、预期影响和关键绩效指标六大要素）从领域专家处获取用例，并结合LLM提示与人工审核的三阶段扩展管线，将用例扩展为107个场景。文中以美国金融服务业为例，展示了网络防御、开发者生产力、金融犯罪聚合等用例的转化过程。核心贡献在于通过人工检查点确保场景的操作基础性和人类中心设计原则，为更一致、有意义的AI评估范式提供支持。

论文 AI评估方法论金融服务业 LLM 人类中心设计

推荐理由：该研究直面AI评估领域的方法论碎片化问题，提出的结构化流程和人类中心设计原则为业界提供了可操作的标准化评估框架，尤其对金融等高风险行业的AI系统评估具有直接参考价值。

原文

11:44

11:44arXiv cs.AI（学术论文）

论文提出PACS（概率常识溯因推理）框架，解决神经符号系统中形式逻辑求解器缺乏常识的问题。传统方法假设常识事实普遍一致，但实际中个体常识存在差异。PACS通过LLM和形式求解器对个体常识信念进行抽样证明，并聚合结论，在多个基准测试中优于思维链、先前神经符号方法和搜索式方法。该工作首次将概率建模引入常识溯因推理，为处理主观常识提供了新思路。

论文推理模型常识推理神经符号 LLM 概率建模

推荐理由：通过概率建模处理常识变异，PACS提升了神经符号推理的鲁棒性，对增强LLM在开放世界推理中的常识能力有实际价值。

原文