5月22日
5月21日
5月20日
5月19日
5月16日
08:36
08:36OpenAI Blog博客/媒体
Databricks 宣布在其企业智能体工作流中集成 OpenAI 的 GPT-5.5 模型。该模型在 OfficeQA Pro 基准测试中取得了新的最佳成绩。这一集成旨在帮助企业更高效地构建和部署基于 AI 的自动化工作流,提升办公场景下的任务处理能力。Databricks 的用户现在可以直接在平台上利用 GPT-5.5 的强大推理和生成能力。

推荐理由:企业 AI 团队终于有了一个经过基准验证的强模型来驱动智能体工作流——GPT-5.5 在 OfficeQA Pro 上的 SOTA 表现意味着办公自动化场景的准确率有望大幅提升,做企业级 AI 应用开发的团队值得关注。
5月14日
13:26
13:26arXiv cs.LG@Tara Bogavelli, Gabrielle Gauthier Melançon, Katrina Stankiewicz, Oluwanifemi Bamgbose, Fanny Riols, Hoang H. Nguyen, Raghav Mehndiratta, Lindsay Devon Brin, Joseph Marinier, Hari Subramani, Anil Madamala, Sridhar Krishna Nemala, Srinivas Sunkara
精选
EVA-Bench 是一个全新的端到端评估框架,专门用于测试语音智能体(Voice Agents)在真实对话场景中的表现。它解决了现有基准无法同时模拟动态对话和全面衡量语音特有失败模式的问题。框架包含 213 个企业级场景,并引入两个复合指标:EVA-A(准确性)和 EVA-X(体验),分别评估任务完成度、忠实度、语音保真度以及对话流畅性、简洁性和轮次时机。在 12 个系统上的测试显示,没有系统能同时在两个指标上超过 0.5,且峰值性能与可靠性能差距显著。该框架已开源,为语音智能体的标准化评估提供了新工具。
推荐理由:做语音智能体或对话系统的团队终于有了一个能同时测准确性和体验感的基准——EVA-Bench 覆盖了企业场景和噪声鲁棒性,直接帮你对比不同架构的优劣,建议点开看看具体指标设计。
5月13日