全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月3日

03:14

03:14IT之家（博客/媒体）

72°

微软推出开源框架 ASSERT，能将自然语言写成的行为规范自动转换为可执行的评估流程，包括生成测试场景、数据集、评估指标和计分卡。该框架通过四个阶段工作：细化行为规范、生成分层测试用例、运行测试并记录轨迹、对照行为分类评分。验证显示，ASSERT 生成的测试集覆盖更广，能暴露更多失败模式，与人工审核一致率达 80%-90%。该框架适用于行为定义明确的场景，旨在让评估更快速、明确和易于迭代。

AI产品开源/仓库 AI 评测智能体 ASSERT 微软

推荐理由：做 AI 智能体或应用评测的开发者，终于有了一个能把需求文档直接变成测试用例的工具，省去手动编写评估脚本的繁琐，建议试试 ASSERT 的 travel-planning 实例。