AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:软件工程×
5月14日
13:27
arXiv cs.AI@Mohammad Reza Mousavi
精选45
一项新研究测试了 Gemini-3、GPT-5.4 和 Qwen-3.6 三个大模型对高级消息序列图(HMSC)语义的理解能力。HMSC 是 UML 序列图的基础,具有严格的形式语义。研究设计了 129 个语义任务,涵盖基本语义查询、抽象与组合、迹与标签转移系统计算。结果显示,LLM 整体准确率仅约 52%,其中基本语义理解较好(88%),但抽象与组合任务(36%)和迹与 LTS 任务(42%)表现很差。所有模型都未能理解共区域和显式因果依赖等概念。这表明 LLM 在形式化软件工程任务上仍有显著局限。
论文LLM形式语义软件工程UML序列图

推荐理由:做形式化方法或软件建模的开发者会发现,LLM 对 UML 序列图语义的理解远不如预期,依赖 LLM 生成设计文档时需谨慎验证。
5月12日
19:11
arXiv cs.AI@Roxana Geambasu, Mariana Raykova, Pierre Tholoniat, Trishita Tiwari, Lillian Tsai, Wen Zhang
55
该论文指出当前AI智能体普遍采用的“即时合成”范式(on-the-fly loop)缺乏严谨的软件工程流程,如迭代设计、严格测试、对抗性评估和分阶段部署,导致实际输出如同“临时原型”,在高风险场景下不可靠。作者提出将软件工程引入智能体循环,打造经过硬化、有确定性约束的生产级agent workflow,并通过复用分摊成本。为此,他们构想了一个“AI Workflow Store”,即存放硬化且可复用的工作流库,智能体可调用这些工作流以显著提升可靠性。论文还探讨了灵活性-鲁棒性张力下的研究挑战。
论文智能体AI安全软件工程工作流存储

推荐理由:该研究直击当前AI智能体可靠性不足的痛点,提出以工程化工作流复用替代即时合成,为构建生产级智能体系统提供了重要思路,对Agent落地高风险场景具有参考价值。