精选理由
做 AI 智能体或应用评测的开发者,终于有了一个能把需求文档直接变成测试用例的工具,省去手动编写评估脚本的繁琐,建议试试 ASSERT 的 travel-planning 实例。
微软推出开源框架 ASSERT,能将自然语言写成的行为规范自动转换为可执行的评估流程,包括生成测试场景、数据集、评估指标和计分卡。该框架通过四个阶段工作:细化行为规范、生成分层测试用例、运行测试并记录轨迹、对照行为分类评分。验证显示,ASSERT 生成的测试集覆盖更广,能暴露更多失败模式,与人工审核一致率达 80%-90%。该框架适用于行为定义明确的场景,旨在让评估更快速、明确和易于迭代。
AI 翻译 · 中文
微软推出开源框架 ASSERT,能将自然语言写成的行为规范自动转换为可执行的评估流程,包括生成测试场景、数据集、评估指标和计分卡。该框架通过四个阶段工作:细化行为规范、生成分层测试用例、运行测试并记录轨迹、对照行为分类评分。验证显示,ASSERT 生成的测试集覆盖更广,能暴露更多失败模式,与人工审核一致率达 80%-90%。该框架适用于行为定义明确的场景,旨在让评估更快速、明确和易于迭代。
IT之家 6 月 3 日消息,微软今日宣布推出开源框架 ASSERT(Adaptive Spec-driven Scoring for Evaluation and Regression Testing,自适应规范驱动评分),旨在将自然语言写成的行为规范直接转换为可执行的评估流程。 据介绍,ASSERT 能够从产品需求、政策文件或系统提示等文本出发,自动生成测试场景、数据集、评估指标和计分卡,并针对目标模型、应用或智能体运行测试。 该框…