微软发布 ASSERT 开源框架:自然语言规范直接转评估流程

微软发布 ASSERT 开源框架:让开发者更高效地评测 AI 智能体和应用行为

精选理由

做 AI 智能体或应用评测的开发者,终于有了一个能把需求文档直接变成测试用例的工具,省去手动编写评估脚本的繁琐,建议试试 ASSERT 的 travel-planning 实例。

AI 摘要

微软推出开源框架 ASSERT,能将自然语言写成的行为规范自动转换为可执行的评估流程,包括生成测试场景、数据集、评估指标和计分卡。该框架通过四个阶段工作:细化行为规范、生成分层测试用例、运行测试并记录轨迹、对照行为分类评分。验证显示,ASSERT 生成的测试集覆盖更广,能暴露更多失败模式,与人工审核一致率达 80%-90%。该框架适用于行为定义明确的场景,旨在让评估更快速、明确和易于迭代。

AI 翻译 · 中文

微软推出开源框架 ASSERT,能将自然语言写成的行为规范自动转换为可执行的评估流程,包括生成测试场景、数据集、评估指标和计分卡。该框架通过四个阶段工作:细化行为规范、生成分层测试用例、运行测试并记录轨迹、对照行为分类评分。验证显示,ASSERT 生成的测试集覆盖更广,能暴露更多失败模式,与人工审核一致率达 80%-90%。该框架适用于行为定义明确的场景,旨在让评估更快速、明确和易于迭代。

IT之家IT之家 6 月 3 日消息,微软今日宣布推出开源框架 ASSERT(Adaptive Spec-driven Scoring for Evaluation and Regression Testing,自适应规范驱动评分),旨在将自然语言写成的行为规范直接转换为可执行的评估流程。 据介绍,ASSERT 能够从产品需求、政策文件或系统提示等文本出发,自动生成测试场景、数据集、评估指标和计分卡,并针对目标模型、应用或智能体运行测试。 该框