全部 AI 动态 · AI 热点

6月29日

10:10

arXiv cs.AI@Daniel Russo

一篇来自arXiv的论文研究了AI编程智能体在共享仓库中合并拉取请求带来的集成摩擦问题。通过对超过93万条智能体编写的拉取请求进行测量，发现约一半的摩擦变化归因于仓库本身，而非单个贡献或智能体。智能体贡献的仓库级摩擦是人类的约两倍（组内相关系数0.30 vs 0.16），该差距在控制代码库规模、年龄、任务形态等变量后依然存在。论文提出AI原生软件的风险是生态系统属性，应通过仓库级而非单智能体方式进行评估和治理。

论文智能体 AI编程代码仓库拉取请求集成摩擦

推荐理由：这篇论文用93万条数据告诉你，AI写代码带来的隐患不在单个智能体，而在整个仓库。看完你就明白为什么只测单个AI不够用了。

原文

10:09

arXiv cs.AI@Guanbo Huang, Jingjia Mao, Fanding Huang, Fengkai Liu, Xiangyang Luo, Yaoyuan Liang, Jiasheng Lu, Xiaoe Wang, Pei Liu, Ruiliu Fu, Ruqi Huang, Shao-Lun Huang

流匹配（Flow Matching）存在暴露偏差，现有缓解方法依赖静态约束。本文提出DEFAR框架，包含抗漂移修正（ADR）和频率补偿（FC）两个组件。ADR利用推理时漂移信号学习将偏离状态拉回目标方向，FC基于偏差自反馈权重增强缺失的低频成分。在CIFAR-10、CelebA-64、ImageNet-256/512上，DEFAR优于先前基线，且具有良好的可扩展性与推理鲁棒性。

论文 Flow Matching DEFAR 暴露偏差自修正图像生成

推荐理由：这篇论文让模型靠偏差自己修正偏差，DEFAR在CIFAR和ImageNet上都能超过之前的方案，还更稳。

原文

10:09

arXiv cs.AI@Young Yoon, Jimin Kim, Soyeon Park

该论文提出一种在完全委托的AI合作组织中分配奖励的框架，人类由代理表示，这些代理在异构价值约束下贡献数据并参与模型更新。核心思想是仅对通过每个委托人价值档案筛选的更新给予信用。框架包含价值条件梯度过滤、在线边际贡献信号以及基于遍历学习（TL）的累积收入结算。与FedAvg风格的联邦学习相比，TL通过保留显式遍历和梯度路径提供了更精细的归属基础。该工作对比了数据估值、联邦贡献估计、个性化联邦学习和多元对齐等领域。

论文 value-constrained credit assignment traversal learning 联邦学习信用分配多元对齐

推荐理由：这篇论文提出了一个在AI合作组织中公平分配奖励的框架，用遍历学习替代传统联邦学习，更精细地追踪每个数据贡献者的价值。

原文

10:09

arXiv cs.AI@Jiaxin Li, Yuxiang Wu, Zhenkai Zhang, Xinrui Shi, Haoyuan Wang, Yichen Zhao, Su Linxiang, Chenyang Yu, Mingyu Zhang, Yifan Ding, Boran Wen, Li Zhang, Ruiyang Liu, Yong-Lu Li

HAT-4D是首个用于从单目视频中重建多个物体3D几何、时间动态和物理交互的智能体框架。它结合视觉语言模型（VLM）和多级人工反馈机制，解决深度模糊和遮挡问题，无需多相机设备。利用HAT-4D构建了MVOIK-4D基准，包含新的多维评估协议，侧重物理合理性和时间一致性。在大多数评估指标上达到SOTA，同时保持语义对齐。少量人工反馈即可显著改善交互重建质量。

AI模型 HAT-4D 4D重建 MVOIK-4D 单目视频 Embodied AI

推荐理由：不用多相机，单视频就能重建多个物体怎么动，还能人工纠正错误。HAT-4D这个框架开源了，做Embodied AI的数据生成很方便。

原文

10:09

arXiv cs.AI@Chenguang Wang, Ming Li, Xinyue Zeng, Zhuochun Li, Hong Jiao, Tianyi Zhou, Dawei Zhou

论文提出Epi2Diff（Episode to Difficulty）框架，将大型推理模型（LRM）的推理轨迹映射为认知片段序列，通过推理规模、努力分配和状态转换建模难度。在四个真实人类难度数据集上，Epi2Diff优于微调小语言模型、LLM上下文学习和监督LLM适应等基线。在SAT分类基准上，Epi2Diff相比监督LLM微调获得8.1%平均相对增益。分析发现更难的题目导致更费力、迭代、以实施为中心的片段动态，而非仅更长的回答。

论文 Epi2Diff LRM 推理模型教育评估难度预测

推荐理由：想用AI推理过程预测题目难度？这篇论文提出了Epi2Diff，从LRM的思考轨迹中提取片段特征，比直接微调模型效果好8%以上，而且可解释。

原文

10:09

arXiv cs.AI@Qinhong Zhou, Chuang Gan, Anoop Cherian

LLawCo框架让具身智能体通过反思失败提取行为模式，推导出“必要时说话”“等待伙伴”等高层法则，经监督微调融入思维链。在PARTNR-Dialog基准上，使用四个骨干LLM（如Llama、Mistral）平均成功率提升4.5%，在TDW-MAT基准上提升6.8%。该框架显著提升多智能体合作效率与任务成功率，优于现有开源通信框架。

AI模型 LLawCo 多智能体 PARTNR-Dialog TDW-MAT 合作

推荐理由：多智能体容易各说各话？LLawCo让它们自己学会“必要时说话”“等待伙伴”，在PARTNR-Dialog和TDW-MAT上成功率都涨了4-7个百分点，挺实在的。

原文

10:08

arXiv cs.AI@Zuoou Li, Wenlong Zhao, Kelly Yu, Weitong Zhang, Paul M. Matthews, Wenjia Bai, Bernhard Kainz, Mengyun Qiao

CPAgents是一个由三个AI智能体（Analyst、Proposer、Verifier）组成的迭代框架，用于自动构建心血管表型关联研究中的可解释复合表型（如多项式、比值、交互形式）。在72个分类器-疾病-指标组合中，CPAgents生成的复合表型在56个组合中取得最优排名（基线仅18个），涵盖全部9个临床疾病类别。该方法能自动发现超出专家手工特征选择的更强表型-疾病关联，并生成透明的证据链。

AI模型 CPAgents 智能体表型关联心脏疾病可解释AI

推荐理由：这篇论文提出了CPAgents，用三个智能体自动组合心脏影像特征，相比传统方法在56/72测试中拿第一。适合关心AI辅助医学研究的读者。

原文

10:08

arXiv cs.AI@Difan Jiao, Raghav Singhal, Robert West, Ashton Anderson

Tandem Reinforcement Learning (TRL) 将 tandem 训练范式引入带可验证奖励的强化学习（RLVR）。TRL 让一个较强的 senior 模型与一个冻结的 junior 模型随机交替协作生成推理过程，对最终结果给予奖励，并对 senior 应用标准 GRPO 损失。在 Qwen3-4B-Instruct 上使用竞赛数学训练，TRL 的 solo 推理能力与 vanilla GRPO 持平，但同时提升了 senior 与 junior 的交接鲁棒性、减少了 junior 侧分布漂移，并产出了对 junior 更易理解的思维链。该工作为多模型通信与人类兼容性提供了实际收益的路径。

AI模型 TRL Qwen3-4B GRPO 推理模型多模型协作

推荐理由：他们提出了 TRL，让强模型和弱模型组队推理，强模型学会写弱模型能看懂的推理过程。训练 Qwen3-4B 后，单打能力不降，协作能力更强。

原文

10:08

arXiv cs.AI@Yanchen Yin, Dongqi Han, Linghui Li

该研究揭示越狱攻击并非消除所有安全特征，而是选择性抑制早期层的Adversarially Compromised Heads (ACHs)，而中间层的Safety-Aligned Heads (SAHs)保持鲁棒激活。消融实验表明，抑制少量ACHs即可在正常拒绝的输入上诱发出越狱行为，而移除SAHs会显著削弱中间层的安全激活。此外，通过直接读取这些持久激活信号（无需训练）即可获得与强对抗鲁棒性相当的聚合检测性能。

论文越狱攻击注意力头 LLM安全对抗鲁棒性鲁棒有害特征

推荐理由：这篇论文用注意力头机制解释了越狱攻击无法完全消除安全特征，还提出一种无需训练的检测方法，效果不输传统对抗训练。

原文

10:08

arXiv cs.AI@Zhigang Chen, Xiawu Zheng, Rongrong Ji

CG-ICS 提出了一种概念引导的上下文分割方法，通过从参考图像中提取高层语义概念而非仅依赖低层视觉匹配来提升系统鲁棒性。该方法引入 MLLM 生成候选概念，并用 SAM3 驱动的评分函数和树搜索精炼选择可靠概念。同时并行视觉示例路径提供查询侧空间定位。在标准 ICS 基准测试上，CG-ICS 不仅达到最高精度，还将不同参考下的分割方差显著降低。

AI模型 CG-ICS 概念引导上下文分割 SAM3 MLLM

推荐理由：想让模型在不同参考图下都稳定分割？试试 CG-ICS，用概念推理代替简单视觉匹配，SAM3 和 MLLM 帮你搞定。

原文

10:08

arXiv cs.AI@Liming Liu, Chao Hu, Mingfei Lu, Yiwei Ge, Xingle Li, Heyuan Shi

ADC-GNN是一个统一框架，结合扩散引导特征增强、对比表示学习和多跳谱注意力，用于少样本图欺诈检测。论文指出真实欺诈图存在稀疏不平衡监督和表示稀释问题。在三个公共基准和约6万条记录的私有电信数据集上，以1%训练设置评估，ADC-GNN持续优于原始欺诈基线及四种近期基线。额外分析验证了其稳定性、训练比例影响和模块效果。

论文 ADC-GNN Graph Fraud Detection 图神经网络欺诈检测少样本学习

推荐理由：这篇论文提出了ADC-GNN，在少样本场景下用扩散对比学习搞定图欺诈检测，三个公开基准上比现有方法都好，做风控的朋友可以看看

原文

10:06

arXiv: DeepSeek@Aniket Deroy, Kripabandhu Ghosh, Saptarshi Ghosh

该论文提出一种受树状思维（Tree-of-Thoughts）启发的提取-抽象混合方法，用于法律判决摘要生成。实验使用DeepSeek和LLama两种LLM，对比了纯提取、纯抽象及混合式摘要。结果显示，混合式提示生成的摘要质量优于其他类型提示。

论文 DeepSeek LLama Tree-of-Thoughts 法律AI 文本摘要

推荐理由：这篇论文把思维树和提取-生成结合起来做法律摘要，用DeepSeek和Llama对比，发现混合方法效果更好。

原文

10:06

arXiv: DeepSeek@Chengxiao Dai, Zhaokun Yan, Zhanhui Lin

该论文提出信号覆盖矩阵，将自动形式化输出按Lean elaborate检验（通过/失败）和语义等价判断（等价/不等价）分为四类。在ProofNet#和MiniF2F-test上使用DeepSeek V4-Pro进行实验，发现三种精化反馈方法（Lean-Retry、Sample-Filter、SAF）相比Vanilla的TS增益+34到+36，其中约64%来自类型层恢复，语义层净变化为0。TO到TS的转换率为23/61（Wilson 95% CI [26.6%, 50.3%]），该层恢复率可预测保留方法上的ΔTS误差在2/186以内。两个判断者在精化反馈输出上的分歧达26至37个百分点（Vanilla仅7个百分点），30%至56%的符号判断假阴性源于elaborator强制重写。

论文 ProofNet MiniF2F DeepSeek V4-Pro Lean 自动形式化

推荐理由：这篇论文用信号覆盖矩阵把自动形式化的错误拆成类型和语义两类，告诉你每个方法的增益到底来自哪，而不是只看总分。

原文

10:06

arXiv: DeepSeek@Yanglin Yan, Zicheng Xie, Tianchen Gao, Rui Pan, Hansheng Wang

本文提出一种基于LLM的语义对齐框架，将期刊推荐转化为稿件内容与期刊范围描述的语义匹配问题。该框架无需任务特定训练，可直接利用LLM从标题、摘要、关键词和候选期刊信息中推断适合性。实验使用DeepSeek-V3在49个统计及相关领域期刊的23,609篇文章上进行，Top-3、Top-5和Top-10准确率分别为40.23%、53.67%和70.05%。加入参考文献信息普遍提升推荐性能，重复运行的平均Top-5 Jaccard相似度达84%，且框架能生成可解释的推理输出。

论文 DeepSeek-V3 语义对齐期刊推荐学术信息

推荐理由：这篇论文用DeepSeek-V3搞期刊推荐，不用训练直接匹配，23,609篇文章上Top-5超53%，比传统方法更灵活还带解释。

原文

10:06

arXiv: DeepSeek@Avni Mittal

研究者将狼人杀游戏扩展为三方博弈，加入Jester角色，其获胜条件是被投票出局，与狼人和村民的效用函数完全相反。在GPT-4.1、DeepSeek-V3.1和Llama-3.3-70B上进行了60局测试，Jester胜率达60-70%，狼人胜率从未超过20%。GPT-4.1控制的狼人常在第一天投票出Jester，构成严格的自毁行为。自学习机制对DeepSeek和Llama有帮助，但对GPT-4.1有害，且成本落在村民而非狼人身上。只有DeepSeek学会了看起来可疑但不故意可疑的微妙策略，在自循环中获益最大。

论文 GPT-4.1 DeepSeek-V3.1 Llama-3.3-70B Jester 多智能体

推荐理由：这篇论文让AI玩三方狼人杀，发现GPT-4.1狼人总犯傻投票出Jester，而DeepSeek学会了装可疑又不露馅。想看看AI怎么玩心眼？读它。

原文

10:06

arXiv: DeepSeek@Lei Yu, Peng Wang, Jia Xu, Jingyuan Zhang, Xin Wang, Jiajia Ma, Li Yang, Changzhi Deng, Zenghua Wang, Fengjun Zhang

BashCoder-R1提出三阶段框架：连续预训练(CPT)专业化Bash范式、长思维链监督微调(L-CoT SFT)模拟风险意识推理、鲁棒性感知分组相对策略优化(R-GRPO)优化语法与鲁棒性。在包含952个真实任务(773单行,179多行)的BashBench基准上，单行/多行任务SyntaxPass达100.00%/94.97%，RobustPass达95.99%/79.33%，FullRate达90.04%/73.18%。相比最强基线DeepSeek-V3.2(推理)在FullRate上分别提升37.82%和20.18%。

AI模型 BashCoder-R1 BashBench DeepSeek 编程助手推理模型

推荐理由：BashCoder-R1用三阶段训练让AI写bash脚本更稳更可解释，在BashBench上比DeepSeek-V3.2完整率高出一大截。

原文

6月26日

11:39

arXiv cs.AI@Sangwoo Cho, Kushal Chawla, Pengshan Cai, Zefang Liu, Chenyang Zhu, Shi-Xiong Zhang, Sambit Sahu

BINEVAL将评估标准拆解为原子化的二元问题，由LLM独立回答后聚合为多维可解释分数。在SummEval、Topical-Chat和QAGS三个基准上，BINEVAL匹配或超越UniEval和G-Eval，尤其擅长事实一致性评估（QAGS上的表现突出）。其问题级反馈可用于迭代优化评估提示和生成提示，在IFBench的自我更新和跨模型更新设置中均有效。该方法无需训练、任务无关，且避免了现有LLM评判器的天花板效应。

论文 BINEVAL LLM评估可解释性事实一致性自我改进

推荐理由：BINEVAL把LLM评估拆成一堆“是/否”问题，结果好理解、易调试，在事实一致性上比UniEval还准，还能自己优化提示词。

原文

11:38

arXiv cs.AI@Manjinder Singh, Alexander E. I. Brownlee, Mohamed Elawady

这篇论文提出GAversary，一种混合遗传算法（GA）用于生成对抗攻击，只需黑盒访问目标模型的logit输出。GAversary利用GloVe嵌入实现词替换（变异算子），提升对抗样本的语义相似性。在多个基准数据集和知名模型上测试，GAversary将目标模型准确率从76.8%降至5.8%，而对比方法BAE仅降至27.6%。代价是扰动词数约为BAE的两倍，语义相似度略低，运行时间增加约5%。

论文 GAversary GloVe 对抗攻击遗传算法 AI安全

推荐理由：这篇论文搞了个GAversary，用遗传算法和GloVe嵌入做黑盒文本攻击，能把模型准确率从76.8%打到5.8%，比BAE狠多了。

原文

11:37

arXiv cs.AI@Fabiana Fournier, Lior Limonad

论文提出进程架机制，在不替换底层工作流引擎的前提下，用策略治理的智能体层包裹确定性工作流。作者开发了任务-决策-流（TDF）模型，定义数据模式和执行语义，将LLM推理分解为三类策略治理的智能体：TaskAgent（知识密集型任务）、DecisionAgent（逐案例网关路由）和FlowAgent（运行时流适应）。在CUGA FLO中实现该设计，并通过贷款审批工作流演示三种智能体类型及挂钩驱动的监管覆盖。进程架通过确定性工作流执行强制结构合规，同时通过策略框架的智能体自主性满足规范需求。

论文 CUGA FLO TDF Agentic BPM 工作流论文

推荐理由：这篇论文提出了一个很实用的思路：在现有工作流引擎上加一个智能体层，不用重写系统就能让工作流更灵活。用贷款审批的例子讲清楚了三种智能体怎么协作，技术方案具体可落地。

原文

11:36

arXiv cs.AI@Henrik Müller, Daniel Kudenko

研究人员提出VLM-PBRS框架，利用轻量级视觉语言模型（VLM）的偏好反馈学习势函数，实现自动化基于势能的奖励塑形（PBRS）。该方法在Meta-World和Franka Kitchen环境上验证，相比无塑形的基线，样本效率提升且未导致奖励黑客。实验表明，即使使用计算开销更小的小型VLM，其偏好标签仍能有效加速强化学习策略训练。该工作是首个将VLM偏好学习应用于PBRS势函数合成的研究。

论文 VLM-PBRS 强化学习奖励塑形 Meta-World Franka Kitchen

推荐理由：这论文教你用VLM给RL智能体自动设计奖励函数，不用手动调公式，在Meta-World和Franka Kitchen上训练更快，还防奖励黑客。

原文

11:35

arXiv cs.AI@Ilia Larchenko

该解决方案在ICRA 2026的LeHome Challenge双手机器人叠衣比赛中获得线上62支队伍第一名、线下决赛第二名。核心是将视觉-语言-动作(VLA)策略与强化学习循环结合，使同一网络既预测动作又预测成功率和未来量。方法组合了AWR+RECAP用于流匹配VLA，通过HuggingFace Hub实现异步分布式训练/部署管线，并采用Thompson采样优化推理时超参数。模拟到现实的迁移使用相机对齐工具、数据增强和DAgger式人类干预数据采集。

论文 LeHome Challenge ICRA 2026 VLA 强化学习机器人叠衣

推荐理由：一个靠强化学习微调VLA在叠衣服任务上拿第一的方案，工程细节丰富，从训练到部署都有具体做法。

原文

11:34

arXiv cs.AI@Tinghao Wang, Yichen Guo, Rui Huang, Zheng Lu, Qizhe Zhang, Chenxi Li, Yuan Zhang, Jiajun Cao, Zhirong Shen, Yaosong Du, Guangyan Gan, Wenya Wang, Lin William Cong, Shanghang Zhang

论文提出TOPS方法，从第一原理出发构建Token最优保留集。该方法基于任务相关性、信息覆盖和语义多样性三个原则。在7个MLLM骨干（如LLaVA-NeXT）和14个基准上，TOPS优于此前方法。在LLaVA-NeXT上，去除77.8%视觉token后，7B模型保持100.0%性能，13B模型提升至100.6%。结果表明剪枝冗余token可减轻幻觉。

论文 TOPS LLaVA-NeXT MLLM 视觉token剪枝推理效率

推荐理由：这篇论文的TOPS方法能在剪掉近八成视觉token的同时保持甚至提升模型性能，很实用。

原文

11:34

arXiv cs.AI@Aoyang Fang, Yifan Yang, Jin'ao Shang, Qisheng Lu, Junjielung Xu, Rui Wang, Songhan Zhang, Yuzhong Zhang, Boxi Yu, Pinjia He

OpenRCA 2.0 引入了 PAVE 协议，通过故障注入重建因果传播路径，标注了 500 个跨系统实例的步骤级因果链。在 11 个前沿 LLM 上测试，完全恢复根因集的成功率平均仅 20.7%。放宽条件后发现，模型在 76.0% 的案例中能识别至少一个正确根因服务，但只有 61.5% 能将服务与观察到的症状通过验证的因果路径关联起来。该基准揭露了仅靠结果标签评估时隐藏的未接地诊断失败模式。

论文 OpenRCA 2.0 PAVE LLM 根因分析因果推理

推荐理由：这篇论文搞了个新基准 OpenRCA 2.0，用 PAVE 协议给每一步因果关系打标签，发现 LLM 猜对根因容易，但连对因果路径很难——这比只看结果靠谱多了。

原文

11:33

arXiv cs.AI@Yunqi Xue, Zhijiang Li, Philip Torr, Jindong Gu

该论文针对自回归统一多模态模型在文本到图像生成中的安全性问题，提出迭代自我改进码本方法。方法利用模型自身理解与判断能力识别不安全生成图像，无需人工标注。通过构建有害空间并更新码本消除有害映射，再在无害空间内自适应微调码本以保持生成质量。实验表明，该方法在不依赖外部反馈情况下迭代提升模型安全性。

论文自回归图像生成码本安全生成统一多模态模型 AI安全

推荐理由：这篇论文给自回归图像生成的安全问题提供了一个不需要人工标注的自我改进方案，用模型自己判断不安全图片然后修复码本，很实用。

原文

11:07

arXiv cs.AI@Mohammad Mehdi Hosseini, Mohammad H. Mahoor, Hiroko H. Dodge

研究人员提出一种基于大语言模型(LLM)的语言数字双胞胎框架，通过融入文体特征和上下文元数据来模拟老年人的对话行为。他们还引入了多头条件变分自编码器(cVAE)，联合衡量重建质量并预测认知评分。在I-CONECT数据集上，该框架生成的数字双胞胎保留了身份特征，其重建误差和MoCA预测误差与真实数据相当，且优于基线GPT生成结果。这项工作为个性化、持续的认知健康监测提供了非侵入性方案。

论文 LLM Digital Twin I-CONECT cVAE 认知健康

推荐理由：这篇论文用LLM给老人建了个能聊天的数字分身，在I-CONECT数据上比普通GPT更准地模拟真实对话和预测认知评分，可能帮助早发现轻度认知障碍。

原文

11:04

arXiv cs.AI@Muhammad Hassan, Ramazan Yener, Ece Gumusel, Masooda Bashir

该研究分析了59款AI医疗聊天机器人应用的超过15000条用户评论，识别出三大类常见故障：访问障碍与服务不可靠、用户体验与交互质量、计费与客户支持问题。隐私和安全问题与最负面的体验相关。研究将AI医疗聊天机器人视为信息基础设施，为设计师、政策制定者和信息专业人士提供改进数字健康系统的可行见解。

论文 AI医疗聊天机器人用户研究信息基础设施 arXiv

推荐理由：这篇论文分析了59款AI医疗聊天机器人的1.5万条用户评论，告诉你最常见的故障在哪里，尤其是隐私和安全问题最影响体验。做医疗AI的值得看看。

原文

10:59

arXiv cs.AI@Preet Baxi, Jiannan Xu, Jane Yi Jiang, Stefanus Jasin

该论文研究了在LLM自动简历筛选中的提示注入攻击，定义为不引入新资质但旨在影响LLM评分的微妙自我推销文本。实验表明，当候选人质量同质且只有少数人注入时，提示注入能可靠提高排名；但随着注入人数增多，效果迅速减弱，广泛操控时失效。在候选人质量异质场景下，提示注入平均效果较弱，但偶尔能让低质量候选人超越高质量候选人，引发公平性担忧。论文代码已公开在GitHub。

论文提示注入简历筛选 LLM AI安全自动化招聘

推荐理由：想知道你的简历能不能骗过AI筛选？这篇论文用数据告诉你提示注入在什么时候有效、什么时候没用，还能看出公平隐患，做招聘和求职的都该看看。

原文

10:59

arXiv cs.AI@Alina Bazarova, Johann Fredrik Jadebeck, Henrik Zunker, Carolina J. Klett-Tammen, Torben Heinsohn, Wolfgang Wiechert, Katharina Noeh, Stefan Kesselheim

该研究将基于模拟推理（SBI）的神经后验估计用于SECIR流行病学模型的贝叶斯校准，并使用2020年德国COVID-19 ICU入住数据。在31天推断窗口中，SBI恢复的后验分布与MCMC高度一致，准确再现ICU轨迹。在更具挑战的201天重构问题中，SBI保留了主要后验结构，尽管不确定性增加。SBI在单GPU上完成31天推断仅需60-70秒，而MCMC需要约1000秒；201天任务中SBI平均157秒，MCMC超过19000秒。结果表明SBI为快速近实时疫情分析提供了高效框架。

论文 SBI MCMC COVID-19 流行病学模型贝叶斯推断

推荐理由：这篇论文用COVID-19数据实测，SBI比MCMC快几十倍，精度不输，适合需要快速迭代的流行病学建模场景。

原文

10:58