全部 AI 动态 · AI 热点

6月17日

09:41

09:41

arXiv cs.AI@Marco Aruta, Vadim Malvone, Aniello Murano, Domenico Parente, Luca Rizzuti

研究人员提出一个神经符号框架，将大语言模型(LLM)集成到多智能体系统(MAS)模型检查流程中。LLM作为策略生成预言机，产生的候选策略由标准MAS模型检查器进行形式验证。该生成-认证架构利用LLM引导搜索大型组合策略空间，同时保持形式正确性。框架在NatATL逻辑中实例化，创建了首个包含4211个实例的NatATL策略合成数据集。使用开源Qwen3-32B模型时，认证管道的策略合成准确率达92%。

论文 LLM 多智能体系统策略合成神经符号方法 Qwen3-32B

推荐理由：用LLM帮MAS做策略合成，再加形式验证保证正确性，Qwen3-32B跑出92%准确率，挺实在的方法。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月14日

13:27

13:27

arXiv cs.AI@Bethel Hall, William Eiers

精选

该研究提出一种神经符号方法，结合大语言模型与SMT求解器，用于审计自然语言编写的软件需求。通过将需求翻译为形式逻辑，利用随机变化检测歧义，并通过求解器查询暴露不一致、空洞和安全违规。在医疗设备软件需求上验证的VERIMED管道显示，独立形式化之间的随机变化是歧义的信号，而具体SMT反例可将验证准确率从55.4%提升至98.5%。该方法为安全关键领域的需求审计提供了可扩展的自动化方案。

论文神经符号方法 SMT求解器需求审计安全关键系统 VERIMED

推荐理由：安全关键软件团队终于有了自动审计自然语言需求的实用工具——VERIMED用LLM+SMT组合把歧义、不一致和安全漏洞揪出来，做医疗、航空等领域的需求工程师可以直接关注。