全部 AI 动态 · AI 热点

6月25日

17:27

Stanford AI Lab@StanfordAILab

精选

Stanford AI Lab发布OpenThoughts-Agent-v2和OpenThinkerAgent-32B，两者均基于Qwen-3开源数据。在计算控制比较中，该模型在全部训练规模下领先，并在7个agent基准测试上平均得分44.8%。模型在终端使用和编码任务上表现突出，且泛化能力强。

推荐理由：斯坦福开源了新agent模型，基于Qwen-3在7个基准上平均44.8%，小模型也能打，值得一试。

原文

17:26

berryxia@berryxia

Unsloth团队将GLM-5.2模型压缩至1-bit量化版本，在Mac Studio M3 Ultra（256GB RAM）上实现约21 tok/s的推理速度。该量化模型在创意输出任务（如HTML/设计生成）上，能与Claude Opus和GPT-5.5正面对比且不落下风。这显示极端量化后的大模型仍能保留较强表现，展示了开源模型通过优化缩小与闭源前沿模型在实际可用性上的差距。

AI模型 Unsloth GLM-5.2 量化开源模型本地部署

推荐理由：Unsloth把GLM-5.2压到1-bit，Mac Studio上跑21 tok/s，创意性居然不输Claude Opus，本地部署党有福了。

原文

14:45

Fireworks AI@FireworksAI_HQ

精选

Fireworks AI 与 Harvey 合作研究发现，将前沿闭源模型（如 Opus 4.8）作为顾问代理，与微调的开源工作代理结合，在三个基准测试中均取得更优结果。相比全部使用 Opus 4.8，该混合方案成本降低40-67%。该方法简单部署即可提升效果，为模型调用提供新思路。

AI模型 Fireworks AI Harvey Opus 4.8 开源模型推理模型

推荐理由：Fireworks AI 的实验证明，把闭源大模型当参谋、开源模型当打手，效果更好还省40%-67%的钱，值得关注。

原文

11:35

AI Will@FinanceYF5

91°

OpenAI 新语音模型 Bidi 1 首次曝光，支持双向语音交互：用户说话时模型同时监听，中途打断可立刻切换任务。实时翻译能力与上下文记忆均优于现有 Advanced Voice（高级语音模式）。该模型已小范围推送，ChatGPT 设置中可选，气泡变黄色即为 Bidi 1。后续将推出 Codex 版本。

AI模型 Bidi 1 OpenAI 语音模型实时翻译 ChatGPT

推荐理由：OpenAI 出了新语音模型 Bidi 1，你说它听，还能打断换话题，实时翻译也更强，快去 ChatGPT 设置里试试。

原文

11:34

AI Will@FinanceYF5

76°

据TestingCatalog爆料，OpenAI正在测试名为Bidi 1的双向语音模型。该模型支持用户在说话时同时说话并继续监听，可在句子中间来回切换任务。Bidi 1能更好地处理打断和停顿，并保持对话上下文记忆。模型有持续时间上限，但可连续计数到23不暂停。Bidi 1尚未可用，但预计很快登陆ChatGPT和Codex。

AI模型 Bidi 1 OpenAI ChatGPT Codex 语音模型

推荐理由：OpenAI的新语音模型Bidi 1能边听边插话，还能中途换任务，比现在强多了。

原文

11:33

AI Will@FinanceYF5

81°

Gemini 3.5 Flash 现在能直接看屏幕、理解内容，并跨浏览器、手机、桌面执行操作，无需额外接入其他模型。安全方面加入了 prompt injection 对抗训练，敏感操作需用户确认，检测到注入攻击时自动停止任务。企业可用它做自动化测试和跨平台知识工作。

AI模型 Gemini 3.5 Flash AI Agent 跨平台屏幕理解 AI安全

推荐理由：谷歌给 Gemini 3.5 Flash 加了个能直接操控电脑屏幕的智能体，跨平台执行任务，还自带防注入安全机制，挺实用。

原文

10:48

AI Will@FinanceYF5

精选

LatentMAS提出让多智能体在隐空间直接传递推理状态，跳过文字编解码。该方法在多个基准上准确率提升13.3%，推理速度提高4.3倍，token用量减少83.7%。LatentMAS无需额外训练，可直接插入现有LLM使用，入选ICML 2026 Spotlight论文。

AI模型 LatentMAS 智能体 ICML 推理模型多智能体

推荐理由：这个新方法让多智能体能悄悄交换推理状态，不用写文字，又快又省token，直接插进现有LLM就能用。

原文

10:09

berryxia@berryxia

PP-OCRv6已正式上架Hugging Face平台。本次更新新增transformers和ONNX Runtime两个推理后端，用户可以通过统一API在不同框架间无缝切换。相比PP-OCRv5，PP-OCRv6在字符识别精度上有进一步提升。该版本尤其适合希望在transformers生态中直接使用高性能OCR的开发者。

AI模型 PaddleOCR PP-OCRv6 Hugging Face transformers OCR

推荐理由：PaddleOCR的PP-OCRv6上HF了，支持transformers和ONNX Runtime双后端，切换框架不用改代码，超实用。

原文

09:30

Jerry Liu@jerryjliu0

精选

Unlimited OCR是百度开源的OCR模型，总参数量3B，仅500M激活。它在表格解析和阅读顺序方面表现优秀，在OmniDocBench v1.5和v1.6上达到SOTA。核心创新是Reference Sliding Window Attention（R-SWA），能保持恒定KV缓存大小，单次前向传递处理40+页文档。与PaddleOCR-VL-1.6对比显示，它在语义格式和图表方面略有不足。

AI模型 Unlimited OCR Baidu PaddleOCR-VL-1.6 OCR 开源模型

推荐理由：百度开源了Unlimited OCR，3B参数却只有500M激活，表格解析超强，能一次性读完40页文档，比PaddleOCR-VL-1.6强在表格和阅读顺序上。试试看？

原文

08:42

lmarena.ai@lmarena_ai

精选72°

Wan-2.7 I2V在视频生成竞技场中取得第5名，得分1,434。该排名来自与顶级模型的一对一对决，由全球用户在其创作任务中投票选出。它超越了Grok Imagine Video（720p）和所有Google Veo-3.1变体。该模型支持文本、图像、音频和视频的多模态控制，以及最多5个参考输入的角色自定义。阿里通义万相团队还提供了视频编辑、克隆、重风格化等全栈工具。

AI模型 Wan-2.7 Alibaba Video Arena 视频生成多模态

推荐理由：阿里通义万相出了个新视频模型Wan-2.7，在Video Arena排第5，干掉了Grok和Veo，视频创作能力挺强，可以试试。

原文

08:26

Jerry Liu@jerryjliu0

精选

Jerry Liu 发布了 Mistral OCR 在 ParseBench 上的更新结果。该模型的总体得分超过了 GPT-5.5，仅略低于 Gemini 3.1 Pro。在内容忠实度、语义格式和视觉定位方面表现优秀，在表格处理上表现一般，图表能力有限。这些结果展示了该价格区间内模型的竞争力。

AI模型 Mistral OCR GPT-5.5 Gemini 3.1 Pro ParseBench OCR

推荐理由：Mistral OCR 在 ParseBench 上打败了 GPT-5.5，离 Gemini 3.1 Pro 也不远，价格还便宜，做文档解析很值。

原文

07:59

Fireworks AI@FireworksAI_HQ

Fireworks AI 与 Cursor 合作，让用户在 Cursor 中即可切换至最新的开源前沿模型 GLM 5.2，无需更换编程工具。该模型在多项评估中获得提升，具体基准成绩见原文链接。这意味着开发者可以轻松尝试 GLM 5.2 的代码能力，而无需离开日常使用的 AI 编程助手。

AI模型 GLM 5.2 Cursor Fireworks AI 开源模型编程助手

推荐理由：Fireworks 和 Cursor 联手，让你直接在 Cursor 里换用最新的 GLM 5.2 模型，省去切换工具的麻烦。

原文

07:33

@koltregaskes@koltregaskes

72°

Gemini 3.5 Pro 发布推迟至7月，多个 Google DeepMind 关键研究人员已跳槽至 Anthropic 等竞争对手。在顶级模型排行榜上，Gemini 目前位列第三，与 Claude 和 ChatGPT/Codex 差距明显。Google 拥有远超对手的资源，但 Gemini 的表现和人才流失反映出内部问题。

AI模型 Gemini Google DeepMind Anthropic Claude 模型排行榜

推荐理由：谷歌的Gemini 3.5 Pro要拖到7月了，DeepMind的人还在往外跑，Anthropic趁机挖人。现在Gemini在排行榜上被Claude和ChatGPT甩开，看看这个局面多尴尬。

原文

07:30

ChatGPT@ChatGPTapp

88°

OpenAI 推出 GPT-5.5 Instant 模型，声称更智能、更直观、对话更有趣。模型首先面向 Pro 和 Plus 用户开放，免费用户预计明天可用。当前推文获得 141 条评论、115 次转发和 2149 个点赞。

AI模型 GPT-5.5 Instant OpenAI 智能对话推理模型

推荐理由：OpenAI 发了新的 GPT-5.5 Instant，对话更聪明更自然，Pro 和 Plus 用户现在就能用，免费用户明天也能体验到。

原文

06:28

Ate-a-Pi@svpino

精选

Tripo AI 推出 Project Eden 世界模型，与传统逐帧预测方案不同，它先构建包含几何、物体位置等真实状态的地图，再根据地图生成画面。该架构解决了传统模型遗忘问题，物体离开视线后仍存在于地图中，并支持多人/智能体共存与编辑。公司刚完成两轮近 2 亿美元融资，将在 SIGGRAPH 2026 展示。

AI模型 Tripo AI Project Eden 世界模型 3D 融资

推荐理由：Tripo AI 搞了个新世界模型 Project Eden，先建好地图再渲染，物体不会消失，还能多人同在一个世界。刚融资 2 亿美元，值得关注。

原文

05:56

Guillermo Rauch@rauchg

Vercel 通过 AI Gateway 独家推出 GLM 5.2 Fast (via Wafer) 模型。内部基准测试显示，其 token 吞吐量比其他提供商快 2 倍。该模型可通过指定 'zai/glm-5.2-fast' 调用。开发者可在 Vercel 平台上直接使用，无需额外配置。

AI模型 GLM 5.2 Fast Vercel AI Gateway Wafer 推理模型高吞吐量

推荐理由：Vercel 搞了个 GLM 5.2 Fast，速度是其他家的两倍，做推理任务可以试试。

原文

05:39

lmarena.ai@lmarena_ai

71°

GLM-5.2 (Max) 在 Code Arena: Frontend 排名第二，仅次于 Fable 5，但击败了 Claude Opus 4.8 (Thinking) 和 Opus 4.7 (Thinking)。对 Kimi-K2.6 胜率 61.0%，对 Sonnet 4.6 胜率 59.4%，对 Opus 4.7 (Thinking) 胜率 55.0%。最接近的挑战来自 GPT-5.5 (xHigh)（41.7% vs 40.0%）和 Opus 4.6（47.0% vs 42.4%）。与前任 GLM-5.1 打成平手（45.5% - 45.5%）。在 Brand & Marketing、Data & Analytics 等多项子类别中排名第一。

AI模型 GLM-5.2 Opus Kimi-K2.6 代码生成前端开发

推荐理由：GLM-5.2 在前端任务上干掉了 Claude Opus 系列，对 Kimi 和 Sonnet 胜率超 60%，开源模型里相当能打。

原文

04:24

elvis@omarsar0

谷歌推出了Gemini 3.5 Flash模型，专注于计算机使用场景的智能体循环和长任务。该模型旨在满足对更强大计算机使用模型的需求，同时保持低成本。用户表示对Gemini 3.5 Flash的效率尚不确定，但赞赏其作为替代选项的出现。

AI模型 Gemini 3.5 Flash Google 智能体工具使用

推荐理由：谷歌新出了一个Gemini 3.5 Flash，专门优化了计算机使用场景，做长任务和智能体循环可能更划算，值得试试。

原文

03:27

NVIDIA AI@NVIDIAAI

精选

NVIDIA 发布 Metropolis Blueprint for Video Search and Summarization (VSS) 3，允许用自然语言提示分析实时流和视频库。新版本包含16种智能体技能，如搜索、摘要、警报、报告和片段审查。提供统一开源仓库，附带 Docker 和 Helm 部署配置以加速部署。支持多视频报告，集成 Nemotron 3 Nano Omni 模型实现跨视频和音频的规模化洞察。3D 多摄像头追踪达到生产就绪级别，并取得 SOTA 性能。

AI模型 NVIDIA Metropolis VSS 3 视频搜索智能体

推荐理由：NVIDIA 刚发了 VSS 3，你的编程代理现在能用一句话搜索、总结视频了，新增16种技能和3D追踪，比以前好用得多。

原文

02:37

AK@_akhaliq

阿里发布Qwen-AgentWorld，一个基于Qwen的语言世界模型，专为通用智能体设计。该模型旨在帮助智能体理解环境动态并做出决策。目前尚未公开具体的基准测试结果或性能数据。

AI模型 Qwen-AgentWorld Qwen 阿里智能体世界模型

推荐理由：阿里出了AgentWorld世界模型，让智能体能更好地理解环境，做Agent开发的朋友可以关注一下。

原文

02:24

Clement Delangue@ClementDelangue

精选

Kog在HuggingFace上开源了其2B参数模型，该模型此前被用于演示，运行速度达到3000+ tokens每秒。开源模型可供开发者下载和部署，适用于快速推理场景。

AI模型 Kog HuggingFace 2B模型开源模型推理速度

推荐理由：Kog开源了一个2B模型，每秒能处理3000多个token，适合需要高速推理的任务。

原文

02:12

OpenAI@OpenAI

73°

OpenAI发布新版GPT-5.5 Instant，提升了理解问题意图和自适应回答的能力。新模型能更可靠地处理复杂约束，并让购物与本地推荐更实用连贯。该版本今天向付费用户推送，明天向免费用户开放。

AI模型 GPT-5.5 OpenAI 推理模型对话体验

推荐理由：聊天更懂你，推荐更靠谱，免费用户明天就能用上，赶紧试试。

原文

01:39

Philipp Schmid@_philschmid

83°

Google 在 Gemini 3.5 Flash 模型中内置了计算机使用功能，代理可接收屏幕和目标后自主执行操作。支持浏览器、手机（安卓/iOS）和桌面环境三种模式。内置安全防护、用户确认机制和自动停止功能，并针对提示注入进行了额外训练。开发者演示了让代理自动审计网页、运行代码片段并返回报告。

AI模型 Gemini 3.5 Flash Google 计算机使用智能体

推荐理由：Gemini 3.5 Flash 现在能直接操控你的屏幕，自动干测试网页、点按钮这些活，比普通 AI 助手更像真工具。

原文

01:18

Jerry Liu@jerryjliu0

精选

Mistral OCR 在 ParseBench 上与多个前沿和开源权重模型进行对比测试。它在语义格式化方面表现突出，能准确处理删除线、上下标、标题层级和链接。在内容忠实度（阅读顺序、幻觉、遗漏）和视觉定位（边界框）上也具有竞争力。表格处理能力一般，几乎没有图表能力。其价格明显低于 Azure Doc Intelligence 和 AWS Textract 等 OCR 服务商。

AI模型 Mistral OCR ParseBench OCR 语义格式化基准测试

推荐理由：Mistral OCR 在 ParseBench 上语义格式化很强，价格还比 Azure/AWS 便宜，适合做高质量 OCR 又不愿花大价钱的场景。

原文

00:49

berryxia@berryxia

77°

Qwen团队直接训练了一个语言世界模型Qwen-AgentWorld，核心目标是从头建模环境而非仅训练Agent行为。模型需预测终端输出、网页变化及代码执行后状态，而非单纯学习操作。利用该模型作为模拟器进行可控Sim RL，在某些任务上模拟训练的Agent性能甚至超过真实环境训练的Agent。此外，仅做环境预测的预训练能力可直接迁移到多轮Agent任务，在多个benchmark上取得显著提升，包括未见领域。Qwen开源了35B MoE版本及对应基准。

AI模型 Qwen Qwen-AgentWorld 世界模型 Agent 强化学习

推荐理由：通义千问出了个新模型，不是教Agent怎么动，而是先让模型懂环境变化。用模拟环境练出的Agent反而比真实环境练的还强，还开源了35B版，值得看看。

原文

00:24

OpenRouter@OpenRouterAI

SakanaAI 推出 Fugu Ultra，这是一个多模型协作系统，已在 OpenRouter 平台上线。该系统让多个模型协同工作，旨在超越单一模型性能。它体现了“集体智能”理念，目前可在 OpenRouter 上试用。

AI模型 SakanaAI Fugu Ultra OpenRouter 多模型集体智能

推荐理由：想试试多个模型一起干活的效果？Fugu Ultra 在 OpenRouter 上就能玩，感受集体智能。

原文

00:10

berryxia@berryxia

EverOS 是一个为 AI Agent 设计的开源记忆操作系统，在 ACL 2026 发表。其核心 HyperMem 采用超图结构组织记忆，在长期对话任务中召回率超过 93%，而传统 RAG 约 45%。加上 Skills 自进化策略后，27B 参数模型任务成功率提升 234.8%，性能追平 397B 模型。该项目在 GitHub 获得 7200 星，支持 Claude Code、Codex 等主流框架，安装只需三行命令。

AI模型 EverOS HyperMem ACL 2026 智能体记忆系统

推荐理由：EverOS 开源了，安装三行命令就能让 AI 记住所有对话，27B 小模型靠记忆打败 397B 大模型，试试看。

原文

6月24日

22:40

阿里通义 Qwen@Alibaba_Qwen

精选

Qwen发布Paradigm II，一种基于世界建模的Agent基础模型。它通过单轮环境预测直接测试于多轮工具调用任务，无需Agent强化学习或任务特定调优。在7项基准上均取得提升，域内Terminal-Bench 2.0提升6.3%、SWE-Bench提升3.4%、WideSearch提升12.8%。域外基准Claw-Eval提升11.3%、QwenClawBench提升9.7%、BFCL v4提升9.0%。世界建模将'先预测后行动'内化为可迁移的推理模式。

AI模型 Qwen Paradigm II 推理模型智能体世界模型

推荐理由：Qwen做了个新Agent模型Paradigm II，不用额外训练就在终端、编码、搜索和工具调用任务上全涨分，尤其没见过的任务也管用。

原文

22:39

阿里通义 Qwen@Alibaba_Qwen

精选73°

阿里Qwen团队开源了Qwen-AgentWorld-35B-A3B模型，采用MoE架构，总参数量35B，每次推理激活3B参数，支持256K上下文长度。同时发布了AgentWorldBench基准，用于评估智能体的世界建模能力。该模型在多个现实环境模拟任务上表现优于同等规模模型。相关论文已发布于arXiv，代码和模型权重在GitHub和Hugging Face上开放。

AI模型 Qwen AgentWorld MoE 智能体世界建模

推荐理由：阿里新开源了35B参数的MoE模型，只激活3B，256K超长上下文，配合AgentWorldBench，研究智能体世界建模的赶紧试试。

原文

22:39

阿里通义 Qwen@Alibaba_Qwen

精选71°

Qwen-AgentWorld是阿里Qwen团队发布的原生语言世界模型，在单一模型中模拟MCP、搜索、终端、SWE、Web、OS和Android共7种智能体环境。环境建模被设定为训练目标，而非后处理适配。在AgentWorldBench基准上，该模型超越Claude Opus 4.8和GPT-5.4。可控SimRL利用此世界模型作为环境进行强化学习，效果超过在真实环境中训练。仅通过预测环境的预热训练，无需智能体特定微调，预测知识即可零微调迁移至智能体任务。

AI模型 Qwen-AgentWorld 智能体世界模型模拟环境强化学习

推荐理由：阿里Qwen造了个能模拟7种环境的AgentWorld，在AgentWorldBench上干掉了Claude和GPT最新版，训练智能体不用真实环境也能更强，零微调迁移呢。

原文

22:36

小互@imxiaohu

字节跳动推出新 AI 音乐模型 SeedMusic 1.0 Preview，用户输入一句话提示词即可在 2-3 分钟内生成一首完整歌曲。该模型支持古风、流行等风格混合，效果流畅且节奏感强。测试提示词为“来一首古风歌曲，但有现代流行节奏感”，输出结果朗朗上口。

AI模型 SeedMusic 字节跳动音乐生成 AI创作

推荐理由：字节跳动新出的 SeedMusic 1.0 Preview 能一句话生成完整歌曲，2-3分钟出活，古风混流行节奏的效果挺不错。

原文

22:18

shao__meng@shao__meng

89°

OpenAI 联合 Broadcom 和 Celestica 从零设计并成功流片了首款自研 LLM 推理加速器 Jalapeño，耗时 9 个月，宣称能效显著优于当前 SOTA。该芯片专为 ChatGPT、Codex 和 API 等工作负载优化，计划从 2026 年底起以吉瓦级规模部署。此举是 OpenAI 垂直整合战略的一部分，与 Google TPU、Amazon Trainium 等路径一致，旨在通过自研芯片提升推理效率、降低成本和改善用户体验。

AI模型 Jalapeño OpenAI Broadcom 推理芯片自研硬件

推荐理由：OpenAI 和 Broadcom 联手搞了颗推理芯片 Jalapeño，9 个月就流片了，能效比现在最好的还强，计划 2026 年底大规模部署，想自己掌控底层硬件。

原文

19:54

Geek@geekbb

Deepseek V4 Flash 是一款小型模型，能完成约 80% 原本需要 Claude 或 Codex 处理的任务。每任务成本仅为 Fable 的 1/137，性价比极高。该模型展示了小模型在特定场景下的实用价值，但需要更优的编排来发挥全部潜力。

AI模型 Deepseek V4 Flash Claude Codex 小模型成本

推荐理由：小模型 Deepseek V4 Flash 能搞定八成任务，成本只有 Fable 的零头，超划算！

原文

19:12

orange.ai@oran_ge

Cola上线了Seed 2.1 Pro模型，这是一款原生多模态模型，官方声称是目前多模态最强。相比Seed 2.0版本，该模型在Coding和Agent能力上有所增强。用户可通过colaos.ai进行体验。

AI模型 Cola Seed 2.1 Pro 多模态智能体代码能力

推荐理由：Cola刚发了Seed 2.1 Pro，说是多模态最强，coding和agent比2.0强不少，想试试去colaos.ai就行。

原文

15:24

Stanford AI Lab@StanfordAILab

精选

斯坦福团队提出SPIRAL框架，通过强化学习让LLM在测试时自动协调顺序推理、并行采样和结果聚合。与传统只优化单链推理的训练方法不同，SPIRAL使用set RL训练模型生成对聚合器集体有用的多个候选答案，并用标准RL优化聚合器从这些候选合成改进答案。该方法使所有测试时计算维度（长链、并行样本、聚合）端到端可学习，缩小训练与部署的差距。

AI模型 SPIRAL LLM 强化学习推理模型测试时计算扩展

推荐理由：斯坦福团队发了SPIRAL，让LLM训练时就学会并行采样和聚合答案，不是只会单链思考，更符合实际推理场景。

原文

13:13

vLLM@vllm_project

vLLM 项目宣布支持 DFlash 投机解码，用户只需将 EAGLE-3 检查点替换为 DFlash 检查点即可启用，无需修改代码。该功能通过开源 Speculators 库将 DFlash 草案模型与目标模型的隐藏状态连接。在单块 Blackwell Ultra GPU 上运行 Gemma-4 31B 模型，Math500 基准取得 5.8 倍吞吐量提升，GSM8K 提升 5.3 倍，HumanEval 提升 5.6 倍，MBPP 提升 4.4 倍。

AI模型 DFlash vLLM Gemma-4 NVIDIA 推理优化

推荐理由：vLLM 和 NVIDIA 合作推出 DFlash 投机解码，Gemma-4 31B 推理速度提升近 6 倍，配置只需改一行 checkpoint 路径。

原文

12:40

小互@imxiaohu

精选

百度发布新 OCR 模型 UnlimitedOCR，支持单次推理解析数百页文档，同时保持高吞吐速度。在 OmniDocBench v1.5 基准上，其准确率达到 93%，比原始 DeepSeek-OCR 基线提升 6 个百分点。模型已开源，可在 Hugging Face 和 GitHub 下载。

AI模型 UnlimitedOCR Baidu OmniDocBench DeepSeek-OCR 文档解析

推荐理由：百度新出的 UnlimitedOCR 能一次处理几百页，速度还很快，直接比 DeepSeek-OCR 高了 6 个点，真正好用。

原文

12:39

小互@imxiaohu

精选

百度开源的Unlimited OCR模型采用参考滑动窗口注意力（R-SWA）技术，能在32K上下文内一次前向推理处理数十页文档，无需分页。模型仅3B参数、500M激活，显存和算力不随页数增长。传统逐页OCR需要拼接结果，而R-SWA模拟人类连续抄写，始终记忆固定大小的文本。该模型据称基于DeepSeek OCR核心贡献者开发，已在标准长度文档上测试。

AI模型 Unlimited OCR 百度 R-SWA OCR 开源模型

推荐理由：百度开源了一款OCR模型，3B参数就能一次处理几十页PDF，不用切页，比传统逐页OCR强太多。

原文

10:56

AI Will@FinanceYF5

Anthropic 在官方博客中发布了 Claude 3.5 Sonnet。该模型在 HumanEval 和 GSM8K 等基准上相比前代有提升。博客还提供了性能细节和定价信息。

AI模型 Anthropic Claude 推理模型编程助手

推荐理由：Anthropic 发了篇博客讲他们的新模型，基准测试成绩比前代好，开发者和研究者可以看看。

原文

07:34

Mistral AI@MistralAI

Mistral 推出 OCR 4，独立标注员对600多份真实文档进行盲评，涵盖12种以上语言。在所有对比系统中，OCR 4 被优先选择，平均胜率达72%。该结果基于随机排序的双盲测试，标注员无法识别系统来源。

AI模型 Mistral OCR 4 OCR 文档识别多语言

推荐理由：Mistral 的 OCR 4 盲测赢了所有对手，处理多国语言文档很稳，平均胜率72%，值得试试。

原文