03:14IT之家(博客/媒体)72°微软推出开源框架 ASSERT,能将自然语言写成的行为规范自动转换为可执行的评估流程,包括生成测试场景、数据集、评估指标和计分卡。该框架通过四个阶段工作:细化行为规范、生成分层测试用例、运行测试并记录轨迹、对照行为分类评分。验证显示,ASSERT 生成的测试集覆盖更广,能暴露更多失败模式,与人工审核一致率达 80%-90%。该框架适用于行为定义明确的场景,旨在让评估更快速、明确和易于迭代。AI产品开源/仓库AI 评测智能体ASSERT微软推荐理由:做 AI 智能体或应用评测的开发者,终于有了一个能把需求文档直接变成测试用例的工具,省去手动编写评估脚本的繁琐,建议试试 ASSERT 的 travel-planning 实例。原文