微软发布 ASSERT 开源框架：自然语言规范直接转评估流程

精选理由

做 AI 智能体或应用评测的开发者，终于有了一个能把需求文档直接变成测试用例的工具，省去手动编写评估脚本的繁琐，建议试试 ASSERT 的 travel-planning 实例。

AI 摘要

微软推出开源框架 ASSERT，能将自然语言写成的行为规范自动转换为可执行的评估流程，包括生成测试场景、数据集、评估指标和计分卡。该框架通过四个阶段工作：细化行为规范、生成分层测试用例、运行测试并记录轨迹、对照行为分类评分。验证显示，ASSERT 生成的测试集覆盖更广，能暴露更多失败模式，与人工审核一致率达 80%-90%。该框架适用于行为定义明确的场景，旨在让评估更快速、明确和易于迭代。

AI 翻译 · 中文

IT之家IT之家 6 月 3 日消息，微软今日宣布推出开源框架 ASSERT（Adaptive Spec-driven Scoring for Evaluation and Regression Testing，自适应规范驱动评分），旨在将自然语言写成的行为规范直接转换为可执行的评估流程。据介绍，ASSERT 能够从产品需求、政策文件或系统提示等文本出发，自动生成测试场景、数据集、评估指标和计分卡，并针对目标模型、应用或智能体运行测试。该框…

阅读原文