全部 AI 动态 · AI 热点

5月20日

05:05

05:05

LangChain@LangChainAI

LangChain 指出通用智能体的评估不能仅靠单一测试集，需要区分基准评估和测试覆盖评估。基准评估包含约100个测试用例，覆盖常见场景，用于快速判断智能体是否正常工作。测试覆盖评估则包含多达500个以上用例，覆盖每个任务的多种用户提示和路径，确保全面性。由于全面评估成本高昂（每次可能数千美元），无法频繁运行，因此需要小规模基准集用于持续集成。该观点强调了通用智能体评估的复杂性，并暗示未来可能发布更详细的博客。

AI产品智能体评估/评测 LangChain 测试覆盖基准测试

推荐理由：做通用智能体开发的团队，评估策略往往被低估——LangChain 提出的两套测试集思路解决了成本与覆盖的平衡问题，建议直接参考这个框架来优化自己的评测流程。

5月19日

16:57

16:57

Hunyuan@TXhunyuan

腾讯混元团队开源了 Chronicles-OCR，这是一个专门评估视觉大语言模型（VLLM）对古代汉字视觉感知能力的基准。该数据集跨越 3000 年文字演变，涵盖从甲骨文到草书的 7 种历史字体，包含 2800 张均衡分布的图像。基准评估模型在字符定位、细粒度识别、古代文本解析和字体分类四个核心任务上的表现。该工作揭示了视觉分布偏移如何影响模型对古代文字的感知能力，为相关研究提供了重要参考。

论文视觉大语言模型 OCR 古代汉字基准测试开源

推荐理由：做 OCR 或古籍数字化的团队终于有了一个针对古代汉字的专业评估基准，可以直接用来测试自家 VLLM 的视觉感知能力，值得关注。

12:31

12:31

LlamaIndex@llama_index

LlamaIndex 推出了 ParseBench，这是首个专门为 AI 智能体设计的文档 OCR 基准测试。现有的基准测试无法满足 AI 智能体在文档解析方面的实际需求，ParseBench 填补了这一空白。该基准测试将帮助开发者评估文档解析器在生产环境中的真实表现。LlamaIndex 将通过线上研讨会详细解读其背后的原理和方法。

AI产品文档解析 OCR 基准测试 AI智能体 LlamaIndex

推荐理由：做文档解析或 AI 智能体应用的开发者终于有了针对性的评估工具，ParseBench 能帮你判断解析器是否真的 ready for production，建议关注后续研讨会细节。

11:51

11:51

Jerry Liu@jerryjliu0

精选

LlamaIndex 创始人 Jerry Liu 宣布发布 ParseBench，这是一个专门测试前沿模型理解真实企业文档能力的基准。现有基准多聚焦于编程和推理，但文档理解是下游知识工作的前提。ParseBench 涵盖密集表格、图表、复杂布局等真实场景，尤其针对金融、保险、法律等行业的文档。该基准已开放论文、排行榜和完整数据集，并计划举办线上研讨会。

AI产品文档理解基准测试 LlamaIndex 企业文档智能体

推荐理由：做文档解析或企业级 AI 智能体的团队终于有了针对性的评估工具——ParseBench 填补了现有基准只测代码不测文档的空白，做文档理解相关开发的人可以直接用它验证模型效果。

5月14日

13:37

13:37

百川智能 Baichuan@BaichuanAI

百川AI在HealthBench、Hard、Hallucination和ScanBench等多项基准测试中取得领先成绩，其中HealthBench得分65.1，Hard得分44.4，幻觉率仅3.5%低于ChatGPT，ScanBench全站排名第一。这显示了百川AI在医疗、推理和抗幻觉方面的显著进步，对AI应用开发者具有重要参考价值。

AI模型百川AI 基准测试医疗AI 抗幻觉推理模型

推荐理由：百川AI在多个关键基准上超越ChatGPT，做医疗AI或高可靠性应用的团队值得关注其低幻觉率表现。

01:10

01:10

AK@_akhaliq

EgoMemReason 是一个新的基准测试，专门用于评估 AI 在长时间自我中心视频理解中的记忆驱动推理能力。该基准要求模型在观看长视频后，基于记忆回答关于事件顺序、因果关系和细节的问题。它填补了现有视频理解基准在长期记忆和推理方面的空白，对开发更智能的视觉助手和机器人有重要意义。

论文基准测试视频理解记忆推理自我中心视频长期推理

推荐理由：做视频理解或具身智能的团队终于有了一个专门测试长期记忆推理的基准——EgoMemReason 直击当前模型在长视频中“看完就忘”的痛点，做相关研究的建议直接拿来评估自己的模型。

5月12日

17:56

17:56

AK@_akhaliq

Soohak是由数学家精心策划的基准测试，旨在评估大型语言模型（LLM）在科研级别数学问题上的能力。该基准涵盖高等数学的多个领域，包括代数、几何、分析等，要求模型不仅具备计算能力，还需展现推理和创新解题能力。这为评估LLM在专业数学研究中的应用潜力提供了更严格的测试标准。

论文推理模型 LLM 数学评测基准测试 Soohak

推荐理由：Soohak填补了现有数学评测基准在科研深度上的空白，为AI在数学领域的前沿应用提供了更精确的评估工具，有助于推动模型在数学推理和问题解决上的进步。