精选 AI 资讯 · AI 热点

6月28日

21:45

shao__meng@shao__meng

精选

LoanLens基于LandingAI构建，从6类借款人文档中结构化抽取字段，进行姓名一致性TF-IDF比对（相似度低于0.95告警）和护照篡改检测（比对核心组件位置与参考几何）。评分模型透明可解释：信用权重23%、DTI 23%、收入时效20%等，总分≥60批准，40-59复核，<40拒绝。系统附带仅限当前案件的RAG问答，支持字段溯源与人工检查。

AI产品 LandingAI LoanLens 欺诈检测 RAG 文档理解

推荐理由：这套LoanLens系统把审贷初筛自动化，用结构化字段和可解释评分替代黑盒OCR，欺诈检测能抓文档篡改，审核员能直接查每个字段的证据。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

11:10

Jerry Liu@jerryjliu0

精选

LlamaIndex 创始人 Jerry Liu 在 X 上发布了对 Claude Fable 5 的 ParseBench 基准测试结果。该模型在推理密集型任务（如 SWE-Bench Pro、FrontierCode）上表现卓越，但在文档理解任务上仅与 Gemini 3 Flash 相当，而 token 成本却高出 10-15 倍。有趣的是，模型自身似乎也意识到这一点，在被问及最不喜欢的任务时，它表示不喜欢“请求完全明确、答案完全已知”的任务，暗示其表现不佳部分源于“懒惰”和缺乏意愿。尽管在内容忠实度（90.02%）和语义格式化（72.62%）上领先，但整体仍远逊于专业 OCR 提供商。

AI模型 Claude Fable 5 文档理解 ParseBench 基准测试 LlamaIndex

推荐理由：做文档解析或 RAG 的团队注意了——Claude Fable 5 在推理上很强，但文档理解性价比不如 Gemini 3 Flash，甚至不如专业 OCR 服务。如果你在选模型做文档处理，这篇评测能帮你省下 10 倍 token 成本，值得点开对比。

原文

10:50

LlamaIndex@llama_index

精选

LlamaIndex 在 ParseBench 上测试了 Anthropic Fable 5 模型的文档理解能力。结果显示，Fable 5 在内容忠实度上达到 90.02%，领先于 Gemini 3 Flash 的 86.19% 和 GPT-5.5 的 86.81%。在语义格式化方面，Fable 5 以 72.62% 的成绩领先对手超过 12 个百分点。这两个指标是评估前沿模型文档理解能力的关键。尽管 Fable 5 表现突出，但测试也表明在解锁文档理解方面仍有提升空间。

AI模型 Anthropic Fable 5 文档理解 ParseBench 模型评测

推荐理由：做文档解析、信息提取或 RAG 应用的团队，这个测试直接告诉你哪个模型更靠谱——Fable 5 在忠实原文和保留格式上明显领先，值得在项目中优先试一下。

原文

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

5月19日

11:51

Jerry Liu@jerryjliu0

精选

LlamaIndex 创始人 Jerry Liu 宣布发布 ParseBench，这是一个专门测试前沿模型理解真实企业文档能力的基准。现有基准多聚焦于编程和推理，但文档理解是下游知识工作的前提。ParseBench 涵盖密集表格、图表、复杂布局等真实场景，尤其针对金融、保险、法律等行业的文档。该基准已开放论文、排行榜和完整数据集，并计划举办线上研讨会。

AI产品文档理解基准测试 LlamaIndex 企业文档智能体

推荐理由：做文档解析或企业级 AI 智能体的团队终于有了针对性的评估工具——ParseBench 填补了现有基准只测代码不测文档的空白，做文档理解相关开发的人可以直接用它验证模型效果。

原文

5月16日

16:08

Jerry Liu@jerryjliu0

精选

INF 发布了两个新的开放权重模型 Infinity-Parser2-Pro (35B) 和 Infinity-Parser2-Flash (2B)，在 Hugging Face 的 ParseBench 文档理解榜单上排名第一。这两个模型通过一个包含 500 万多样本的综合合成数据引擎和一种新型联合强化学习算法训练，能够同时优化文档解析、元素解析、图表解析等多个复杂任务。ParseBench 是一个专门测试真实企业文档语义理解的开放基准，涵盖表格、图表、语义格式等指标。这意味着开发者现在可以免费使用这些模型来提升文档处理能力。

AI模型文档理解开放权重模型 INF ParseBench 强化学习

推荐理由：做文档解析、企业数据提取的团队可以直接用这两个模型替代商业 API，2B 的 Flash 版本适合轻量部署，35B 的 Pro 版本适合高精度场景，建议去 ParseBench 看看具体指标。

原文