K-BrowseComp:首个韩语网页浏览智能体基准测试

K-BrowseComp: A Web Browsing Agent Benchmark Grounded in Korean Contexts

精选理由

做多语言智能体或网页浏览任务的团队会立刻意识到差距——韩语场景下最强模型准确率不到一半,说明现有评估严重偏向英语。做韩语 NLP 或本地化产品的开发者可以直接用这个基准测试自己的模型。

AI 摘要

K-BrowseComp 是一个专门针对韩语环境的网页浏览智能体基准测试,包含 400 个问题。其中 300 个问题由韩语母语者手工构建和验证,前沿模型如 GPT-5.5、DeepSeek-V4-Pro 和 GLM-5.1 在该子集上仅达到 30.00-45.67% 的准确率,远低于 BrowseComp 的表现。韩国本土大模型表现更差,仅 0.00-10.33%。研究还构建了 100 个合成问题作为压力测试,最强模型仅达 26.00%。该基准填补了韩语智能体评估的空白,揭示了当前模型在非英语环境下的显著短板。

AI 翻译 · 中文

K-BrowseComp 是一个专门针对韩语环境的网页浏览智能体基准测试,包含 400 个问题。其中 300 个问题由韩语母语者手工构建和验证,前沿模型如 GPT-5.5、DeepSeek-V4-Pro 和 GLM-5.1 在该子集上仅达到 30.00-45.67% 的准确率,远低于 BrowseComp 的表现。韩国本土大模型表现更差,仅 0.00-10.33%。研究还构建了 100 个合成问题作为压力测试,最强模型仅达 26.00%。该基准填补了韩语智能体评估的空白,揭示了当前模型在非英语环境下的显著短板。

arXiv: DeepSeekFrontier model evaluations are shifting from foundational capabilities (e.g., instruction following and reasoning) toward compositional, agentic ones, but Korean agentic benchmarks remain scarce. We introduce K-BrowseCom