Corpus

§ 01综述

近年来，大规模语料库（Corpus）的建设与应用成为人工智能领域的关键基础设施。近期进展集中在视觉生成与智能检索两个方向。

在视觉生成领域，斯坦福大学李飞飞团队发布了GPIC（General Purpose Image Corpus），这是一个包含1亿对图文数据、总计28万亿像素的开放许可图像数据集。该数据集旨在为视觉生成模型提供高质量的训练基础，其规模与许可开放性有望推动生成式AI的普及与公平性（GPIC：1亿对图文数据集的视觉生成基准发布；GPIC：28万亿像素的开放许可图像数据集，用于视觉生成）。

另一方面，在语料库检索方法上，有研究提出“直接语料库交互”（Direct Corpus Interaction）概念，指出AI Agent使用传统grep工具进行文本检索，在精确性上优于基于语义向量的检索技术。这一发现挑战了当前主流的语义搜索范式，提示在特定任务中，轻量、精确的匹配方法可能更具优势（AI Agent 用 grep 搜索比语义检索更准：Direct Corpus Interaction 论文）。

当前焦点在于：如何平衡语料库的规模与质量控制，以及在不同应用场景下选择最优的检索策略。未来值得观察的是，GPIC这类超大开放数据集是否会推动视觉生成模型的性能跃升，以及直接语料库交互方法能否被更广泛地集成到AI Agent系统中。

§ 02相关报道03 条在档

§ 03邻近话题