全部 AI 动态 · AI 热点

AITOP

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

10:51

arXiv cs.AI@Seokju Cho, Ryo Hachiuma, Abhishek Badki, Hang Su, Byung-Kwan Lee, Chan Hee Song, Sifei Liu, Subhashree Radhakrishnan, Seungryong Kim, Yu-Chiang Frank Wang, Min-Hung Chen

SpatialClaw 提出了一种无需训练的空间推理框架，通过将代码作为动作接口，让 VLM 智能体能够逐步执行并观察中间结果，从而灵活组合感知和几何操作。现有空间智能体要么单次执行代码（无法中途调整），要么依赖结构化工具调用（灵活性不足），限制了复杂 3D/4D 推理。SpatialClaw 维护一个状态化 Python 内核，预加载输入帧和感知原语，智能体每步写一个可执行单元，基于之前输出调整策略。在 20 个空间推理基准上，SpatialClaw 平均准确率 59.9%，比最新空间智能体高 11.2 个百分点，且跨 6 个 VLM 骨干网络表现一致。

论文空间推理 VLM/视觉语言模型代码接口智能体 3D/4D

推荐理由：做 3D 视觉或机器人空间推理的团队，终于有了一个无需微调就能显著提升 VLM 空间理解能力的框架——SpatialClaw 用代码接口解决了灵活性和中间反馈的痛点，值得在现有模型上直接试试。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月16日

15:46

Jerry Liu@jerryjliu0

精选

LlamaIndex 联合创始人 Jerry Liu 在纽约举办线下工作坊，展示如何用 AI 自动化金融文档处理流程。Logan Markewich 构建了一套完整教程，将 VLM（视觉语言模型）文档解析与模式定义、业务逻辑整合为端到端工作流。相比传统 OCR，该方法在数据提取上更准确，大幅减少人工审核需求，并能轻松对接下游智能体应用。适合投资银行、会计团队、金融 AI 初创公司及金融科技企业处理大规模消费者/监管/公共金融文书。

AI产品金融文档处理 VLM/视觉语言模型 LlamaIndex 智能体/工作流开源/仓库

推荐理由：金融团队终于有了正经的 AI 用例——VLM 解析文档比 OCR 准得多，还能直接连下游智能体，做金融自动化的建议点开教程试试。

原文