近年来,大规模语料库(Corpus)的建设与应用成为人工智能领域的关键基础设施。近期进展集中在视觉生成与智能检索两个方向。
在视觉生成领域,斯坦福大学李飞飞团队发布了GPIC(General Purpose Image Corpus),这是一个包含1亿对图文数据、总计28万亿像素的开放许可图像数据集。该数据集旨在为视觉生成模型提供高质量的训练基础,其规模与许可开放性有望推动生成式AI的普及与公平性(GPIC:1亿对图文数据集的视觉生成基准发布;GPIC:28万亿像素的开放许可图像数据集,用于视觉生成)。
另一方面,在语料库检索方法上,有研究提出“直接语料库交互”(Direct Corpus Interaction)概念,指出AI Agent使用传统grep工具进行文本检索,在精确性上优于基于语义向量的检索技术。这一发现挑战了当前主流的语义搜索范式,提示在特定任务中,轻量、精确的匹配方法可能更具优势(AI Agent 用 grep 搜索比语义检索更准:Direct Corpus Interaction 论文)。
当前焦点在于:如何平衡语料库的规模与质量控制,以及在不同应用场景下选择最优的检索策略。未来值得观察的是,GPIC这类超大开放数据集是否会推动视觉生成模型的性能跃升,以及直接语料库交互方法能否被更广泛地集成到AI Agent系统中。