全部 AI 动态 · AI 热点

5月20日

18:28

Skywork@Skywork_ai

Skywork 发布 SkyClaw-v1.0 智能体模型，专为 OpenClaw、Hermes 和 Nanobot 优化，具备更强的工具使用和多轮任务执行能力。该模型现已作为一级提供商正式集成到 nanobot 配置中，用户只需填入 API 密钥即可使用。同时推出的还有 SkyClaw-v1.0-lite，速度更快、成本更低。

AI模型智能体工具调用 SkyClaw nanobot 开源/仓库

推荐理由：智能体开发者终于有了一个专门为工具调用和多轮任务优化的模型，直接接入 nanobot 就能用，做 agent 编排的团队建议试试。

原文

15:36

arXiv cs.AI@Guangzhi Xiong, Qiao Jin, Sanchit Sinha, Zhiyong Lu, Aidong Zhang

精选

大型视觉语言模型在医疗应用中潜力巨大，但其回答缺乏视觉证据的可信归因，引发临床信任问题。现有归因方法无法验证是否真正反映模型决策依据，因为缺乏内部推理的真实标注。研究者开发了因果评估框架，通过反事实编辑验证专家标注区域是否因果影响模型预测，并测试了11种归因方法、6个开源LVLM和两种输出模式。结果发现现有方法常无法识别模型使用的视觉证据。为此提出MedFocus，基于不平衡最优传输定位临床解剖区域，并通过定向干预测量因果效应，在空间、概念和词元层面显著优于现有方法。数据和代码已开源。

论文视觉归因医学影像因果评估 LVLM 开源/仓库

推荐理由：医疗AI的信任危机终于有了可验证的归因方案——MedFocus让医生能看清模型到底看了哪里才下诊断，做医学影像AI的团队值得试试这个因果框架。

原文

15:10

AI Will@FinanceYF5

精选

Nexus 是一个基于智能体的时间序列预测框架，将大语言模型与专用预测模型结合，通过多智能体协作完成数据预处理、模型选择、参数调优和结果解释。该框架在多个公开数据集上表现优于传统方法，尤其擅长处理非平稳和缺失数据场景。Nexus 的模块化设计允许用户灵活替换预测引擎，降低了时间序列分析的门槛。论文已在 arXiv 公开，代码预计后续开源。

论文智能体时间序列预测 Nexus 大语言模型开源/仓库

推荐理由：时间序列预测是金融、能源、运维等领域的高频需求，Nexus 用智能体编排替代手动调参，做预测分析的团队可以直接参考其框架设计，省去重复造轮子的时间。

原文

14:27

rohanpaul_ai@rohanpaul_ai

76°

中国AI实验室商汤科技在HuggingFace上发布了SenseNova U1模型，采用原生多模态建模和MoT架构（38B激活3B MoE）。该模型将多模态生成视为一个统一的建模问题，而非分离的视觉、语言和图像模块链，从而减少了模块间的信息损失，提升了生成内容的一致性。SenseNova U1特别擅长生成可读、结构化、一致的图文输出，如信息图、指南、海报、漫画等。它支持ComfyUI，推理速度快（A3B），为密集视觉内容创作提供了高效工具。

AI模型 SenseNova U1 多模态模型 MoT架构 MoE 开源/仓库

推荐理由：SenseNova U1解决了多模态生成中模块切换导致的信息丢失问题，做信息图、海报、漫画等密集视觉内容的创作者可以直接用ComfyUI体验，效果惊艳。

原文

11:24

arXiv cs.LG@Emaad Khwaja, Chris Lettieri, Gerald Woo, Eden Belouadah, Marc Cenac, Guillaume Jarry, Enguerrand Paquin, Xunyi Zhao, Viktoriya Zhukov, Othmane Abou-Amal, Chenghao Liu, Ameet Talwalkar, David Asker

精选76°

Toto 2.0 是一系列开源时间序列基础模型，参数规模从 4M 到 2.5B，展示了单一训练配方即可实现预测质量的可靠提升。该模型家族在 BOOM、GIFT-Eval 和 TIME 三个基准上刷新了最先进水平。研究团队详细描述了架构、训练数据、超参数迁移管道等设计决策。所有五个基础检查点均以 Apache 2.0 许可证开源。这项工作标志着时间序列预测领域正式进入规模扩展时代。

论文时间序列预测基础模型开源/仓库规模扩展 Toto 2.0

推荐理由：时间序列预测终于有了可扩展的基础模型，做金融、能源、运维等预测任务的团队可以直接用开源权重，值得关注。

原文

10:53

arXiv: DeepSeek@Aman Desai

精选

RooAgent 是一个基于 LLM 的自然语言接口，专为高能物理领域的 Root 数据分析设计。它将物理分析函数封装为工具，让 LLM 智能体根据自然语言指令调用，支持直方图检查、事件选择、运动学分布可视化、拟合和显著性估计等任务。该工具提供两种运行模式：基于 LangGraph 的智能体（兼容 GPT-4.1 和 DeepSeek-V3），以及 MCP 服务器模式（用于 Anthropic Claude CLI）。通过 Monte Carlo 模拟和 ATLAS 开放数据测试，RooAgent 展示了在多任务信号-背景工作流中的有效性。代码已开源在 GitHub 并可通过 PyPI 安装。

AI产品 LLM智能体高能物理 Root数据分析开源/仓库 MCP/工具

推荐理由：高能物理研究者终于有了一个能用自然语言操作 Root 数据的智能体，省去手动写脚本的繁琐，做粒子物理分析的团队可以直接试试。

原文

10:44

arXiv: DeepSeek@Minxuan Lv, Tiehua Mei, Tanlong Du, Junmin Chen, Zhenpeng Su, Ziyang Chen, Ziqi Wang, Zhennan Wu, Ruotong Pan, jian Liang, Ruiming Tang, Han Li

精选

GoLongRL 是一个完全开源的长上下文强化学习训练方案，包含 23K 样本的数据集、完整构建流程和训练代码。该方案基于长上下文能力分类法，覆盖 9 种任务类型，每个任务配有自然评估指标，数据来源包括书籍、学术论文和多轮对话等真实文档。在相同 GRPO 设置下，GoLongRL 数据集优于闭源的 QwenLong-L1.5 数据集，且 Qwen3-30B-A3B 模型在长上下文任务上表现接近 DeepSeek-R1-0528 和 Qwen3-235B-A22B。此外，论文提出 TMN-Reweight 方法，通过任务级均值归一化和难度自适应加权，解决异构奖励优化问题，进一步提升平均性能并保持通用能力。

论文长上下文强化学习开源/仓库 RLVR 多任务对齐

推荐理由：长上下文 RL 训练的数据构建和奖励设计一直是个难题，GoLongRL 提供了开源数据集和优化方法，做长上下文模型训练的团队可以直接复用，省去大量数据构造工作。

原文

10:40

arXiv cs.AI@Franco Terranova, Guillermo Bernardez, Albert Cabellos-Aparicio, Nina Miolane, Abdelkader Lahmadi

精选

图组合优化（GCO）问题因NP难特性而难以精确求解，现有基于强化学习（RL）和图神经网络（GNN）的方法在泛化性和计算可扩展性上存在局限。本文提出Projection Agents，直接在连续GNN动作嵌入空间中预测潜在动作，并通过单次前向传播解码为有效离散动作，避免了传统逐步搜索的开销。该方法在多个基准上实现最高16.2倍推理加速和40%更好的泛化性能，尤其适用于超线性决策空间。同时，作者开源了LaGCO-RL库，支持自动构建潜在动作空间并兼容现有RL-GCO方案，便于复现和适配新问题。

论文图组合优化强化学习图神经网络潜在动作空间开源/仓库

推荐理由：做图组合优化或RL求解NP-hard问题的研究者，这篇论文解决了泛化差和扩展性瓶颈，16倍加速和40%泛化提升值得一试，开源库还能直接复用。

原文

10:31

arXiv cs.AI@Wen Shi, Zhe Wang, Huafei Huang, Qing Qing, Ziqi Xu, Qixin Zhang, Xikun Zhang, Renqiang Luo, Feng Xia

精选

TERGAD 是一种新型图异常检测框架，通过大语言模型将节点拓扑属性转化为自然语言描述，生成高维语义嵌入，再与原始节点特征自适应融合。该方法解决了现有文本增强方法忽略节点结构上下文的问题，能检测由内容与拓扑不一致导致的复杂异常。在六个真实数据集上，TERGAD 持续优于现有基线，消融实验验证了结构语义引导和门控融合机制的有效性。代码已开源。

论文图异常检测大语言模型结构语义增强门控融合开源/仓库

推荐理由：做图异常检测的研究者终于有了一个能同时利用结构语义和文本特征的框架——TERGAD 用 LLM 把拓扑信息翻译成自然语言，比纯数值特征更易捕捉异常模式，建议做 GAD 的团队直接跑一下开源代码。

原文

10:14

arXiv cs.AI@Jinbiao Wei, Qianran Ma, Yilun Zhao, Xiao Zhou, Kangqi Ni, Guo Gan, Arman Cohan

精选

OpenComputer 是一个基于验证器的框架，用于构建可验证的软件世界，以评估和训练计算机使用智能体。它集成了四个组件：应用状态验证器、自进化验证层、任务生成管道和评估工具。目前覆盖 33 个桌面应用和 1000 个任务，包括浏览器、办公工具、创意软件等。实验表明，硬编码验证器比 LLM 作为裁判更准确，尤其在细粒度状态依赖的任务中。前沿模型在端到端完成上仍显吃力，开源模型表现下降，暴露了计算机自动化中的持续差距。

论文计算机使用智能体验证框架桌面自动化评估基准开源/仓库

推荐理由：OpenComputer 解决了计算机使用智能体评估缺乏可靠验证的问题，做智能体开发和自动化研究的团队可以直接用它来测试和训练模型，比 LLM 裁判更靠谱。

原文

03:31

NVIDIA AI@NVIDIAAI

76°

NVIDIA 研究团队开源了 SANA-WM，一个 2.6B 参数的世界模型，能在单张 GPU 上根据一张图片、文本描述和相机轨迹生成 60 秒可控视频。该模型原生支持精确的相机控制，为视频生成和世界模拟提供了新的可能性。SANA-WM 的开源发布降低了高质量可控视频生成的门槛，对内容创作、游戏和仿真领域有重要意义。

AI模型世界模型视频生成相机控制开源/仓库 NVIDIA

推荐理由：NVIDIA 把世界模型的门槛拉到单卡可跑，做视频生成或 3D 仿真的开发者可以直接拿来用，60 秒可控视频不再是云端专属。

原文

02:26

02:26IT之家（博客/媒体）

88°

谷歌在2026 I/O大会上发布两大AI电商协议UCP和AP2，并推出Universal Cart通用购物车功能。UCP是开源协议，为智能体提供通用语言，类似HTTP对万维网的作用，已获亚马逊、Meta、微软等支持。AP2是智能体支付协议，可设置消费上限和支付验证。Universal Cart将于今夏在谷歌搜索、Gemini、YouTube、Gmail中推出，支持跨平台加购、追踪优惠、历史价格查询和补货提醒，还能智能推理用户选购，如检测CPU与主板不兼容并推荐替代品。这标志着AI电商从单点功能走向标准化生态，用户购物体验将更智能、更连贯。

AI产品智能体电商协议通用购物车谷歌开源/仓库

推荐理由：谷歌联合巨头定义AI电商标准，做电商或智能体开发的团队值得关注——UCP协议可能成为行业基础设施，通用购物车功能直接改变用户购物习惯。

原文

00:47

berryxia@berryxia

88°

NVIDIA研究员Yukang Chen开源了LongLive 2.0，这是全球首个端到端支持4-bit量化的超长视频生成基础设施，覆盖训练和推理全流程。核心技术包括FP4量化和并行加速，在5B模型上实现45.7 FPS的实时生成速度。该工具支持真实视频训练、few-step蒸馏、多shot训练/推理、序列并行、NVFP4 KV cache和异步VAE解码部署。此前长视频生成面临速度慢或长度受限的问题，LongLive 2.0将4-bit长视频实时生成能力推向开源社区。

AI产品 NVIDIA LongLive 2.0 4-bit量化视频生成开源/仓库

推荐理由：做视频生成或AI基础设施的开发者终于有了一个能跑长视频的4-bit开源方案，NVIDIA把训练到推理的整套加速打法打包好了，建议直接试代码。

原文

5月19日

23:49

Ate-a-Pi@svpino

76°

Google 发布了一个完全开源的智能体示例库，包含高度复杂的端到端智能体实现。该库提供完整的文档、源代码，并支持一键部署。视频中展示了其中一个最酷的示例。这一举措旨在降低开发者构建智能体的门槛，推动 AI 应用落地。对于研究智能体或构建自动化流程的开发者来说，这是一个可以直接参考和使用的宝贵资源。

AI产品智能体开源/仓库 Google 端到端一键部署

推荐理由：Google 把智能体开发的完整流程开源了，做智能体或自动化流程的开发者可以直接拿来用，省去从零搭建的麻烦。

原文

14:48

arXiv cs.LG@Aashna P. Shah, Michelle M. Li, Yash Lal, Seffi Cohen, Liat F. Antwarg, Morgan Sanchez, James A. Diao, Chirag J. Patel, Ben Y. Reis, Ran D. Balicer, Noa Dagan, Arjun K. Manrai

精选

血液生物标志物是临床诊断的关键，但传统参考区间基于固定人群，忽略了个体间稳定变异，可能掩盖偏离基线的异常。研究者利用北美、中东和东亚超过160万人的近20亿条纵向实验室数据发现，纯个性化参考区间会将高达68%的测量值标记为异常，且与不良临床结局无关。为此，他们提出NORMA，一个基于条件Transformer的框架，通过结合患者历史数据和人群正常变异生成参考区间。NORMA在预测死亡率、急性肾损伤和慢性疾病等结局上精度更高，优于纯个性化或纯人群方法。模型、代码和交互界面已公开，旨在推动实验室检测的个性化解释。

论文血液生物标志物个性化参考区间条件Transformer 临床诊断开源/仓库

推荐理由：NORMA解决了实验室检测中过度个性化导致的假阳性问题，做临床诊断或健康监测的医生、研究者可以直接用这个开源模型来提升异常检测的准确性。

原文

14:43

arXiv cs.LG@Miguel Farinha, Ronald Clark

精选

PIXLRelight 提出了一种前馈式单图像重光照方法，通过共享的内在条件（反照率、漫反射阴影和非漫反射残差）桥接物理渲染与学习图像合成。训练时从多光照照片分解出条件，推理时从用户指定 PBR 光源下的粗 3D 重建渲染中计算相同条件，再由基于 Transformer 的神经渲染器应用目标光照。该方法支持任意 PBR 风格的光照控制，重光照质量达到最先进水平，且每张图像处理时间不到 0.1 秒。代码和模型已开源。

论文重光照物理渲染内在条件 Transformer 开源/仓库

推荐理由：做图像编辑、3D 重建或影视后期的人终于有了一个又快又可控的重光照工具——PIXLRelight 在 0.1 秒内实现物理级光照控制，比传统方法省去大量优化时间，建议直接试玩开源代码。

原文

14:00

向阳乔木@vista8

一位开发者用GPT-Image-2生成了380多位艺术家的风格示例，并制作成网站供用户学习和借鉴。网站以“远山、近水和小树林”为统一提示词，展示不同艺术家的风格差异，帮助用户快速理解并用于AI生图。该项目已开源在GitHub上，适合对艺术风格感兴趣的AI绘画爱好者。

AI产品 GPT-Image-2 艺术家风格 AI生图开源/仓库绘画学习

推荐理由：想快速了解蒙德里安、葛饰北斋等大师画风区别的AI绘画玩家，可以直接用这个网站对照学习，还能偷师提示词技巧。

原文

13:04

Harrison Chase@hwchase17

DeepAgents 发布了 0.6 版本，带来了一系列重要更新。该版本由 Sydney Runkle 撰写了详细的介绍文章。更新内容可能包括性能优化、新功能或 bug 修复，旨在提升智能体框架的实用性和开发体验。对于使用 DeepAgents 构建 AI 智能体的开发者来说，这是一个值得关注的版本。

AI产品 DeepAgents 智能体版本更新开源/仓库开发者工具

推荐理由：DeepAgents 0.6 的更新解决了智能体开发中的多个痛点，做 AI 智能体应用的团队可以直接升级体验新特性。

原文

12:17

LangChain@LangChainAI

精选

LangChain 的 Ankush Gola 分享了构建 SmithDB 背后的技术细节，核心依赖两个开源项目：Apache DataFusion 和 Vortex。DataFusion 是一个基于 Rust 的可扩展查询引擎，团队为其定制了执行计划以适配工作负载和存储后端。Vortex 则是一个可扩展文件格式，支持为不同列自定义布局、编码和分块策略。这两个项目对于关注现代数据系统的开发者来说值得深入研究。

行业 LangChain SmithDB DataFusion Vortex 开源/仓库

推荐理由：做数据系统或 AI 基础设施的开发者，可以从 SmithDB 的架构思路中直接学到如何用 DataFusion 和 Vortex 搭建高性能查询引擎，值得点开看看具体实现。

原文

11:43

arXiv cs.AI@Xinpeng Dong, Min Zhang, Kairong Han, Xu Tan, Fei Wu, Kun Kuang

精选

多模态大语言模型（MLLMs）在融合视觉与文本信息方面取得显著进展，但现有方法存在两个关键问题：视觉信息被当作普通文本token处理，削弱了其独特贡献；随着生成长度增加，模型对视觉信息的依赖逐渐减弱，导致视觉-语言对齐恶化。为此，研究者提出Vision Inference Former（VIF），一个轻量级架构模块，在推理解码阶段持续注入视觉语义，确保生成内容与视觉语义一致。在14个基准任务上的实验表明，VIF能在不同架构上稳定提升性能，且额外开销极小。代码已开源。

论文多模态大模型视觉一致性轻量模块推理优化开源/仓库

推荐理由：多模态模型开发者常遇到生成内容偏离图像的问题，VIF用极简模块解决了视觉一致性衰减的痛点，想提升MLLM可靠性的团队可以直接试。

原文

11:38

arXiv cs.AI@Haoyu Zhang, Qiaohui Chu, Yisen Feng, Meng Liu, Weili Guan, Yaowei Wang, Liqiang Nie

精选

MARS 是一个多模态智能体推理系统，专为 EgoVis 2026 的 CASTLE 挑战赛设计。该挑战要求回答 185 个关于四天活动、15 个同步视角、官方转录及多种辅助模态（如个人照片、热成像、心率数据）的封闭式问题。MARS 将任务视为多模态证据选择问题，通过构建视频和转录等主要来源以及辅助来源的证据记忆，并使用 DeepSeek 压缩长视频，最后通过 GPT-5.4 决策代理选择继续推理、请求缺失模态或生成答案。该系统在最终排行榜上获得第二名，代码已开源。

AI模型多模态推理智能体视频理解开源/仓库 GPT-5.4

推荐理由：多模态推理是 AI 落地的关键瓶颈，MARS 展示了如何整合视频、转录、热成像等异构数据做智能体决策，做多模态 AI 或视频理解的团队值得参考其开源代码。

原文

11:11

arXiv cs.LG@Stefano Riva, Yantao Luo, Carolina Introini, Antonio Cammi

pyforce 是一个用于多物理场问题数据驱动降阶建模的 Python 包，主要面向核工程领域。它是 ROSE 项目的一部分，旨在降低多物理场模型复杂度、优化传感器位置并集成实测数据以提升系统认知。1.0.0 版本完全重写，改用 pyvista 作为后端处理网格、积分和可视化，并将函数存储为 numpy 数组以提升易用性。新版本支持任何能导出 VTK 格式的求解器，大幅扩展了适用性。

AI产品降阶模型多物理场核工程 pyvista 开源/仓库

推荐理由：核工程和计算物理领域的团队终于有了一个更易用的降阶建模工具——pyforce 1.0.0 摆脱了对特定求解器的依赖，做多物理场仿真的开发者可以直接集成到现有工作流中。

原文

10:57

arXiv cs.LG@Md Hasan, Nyvenn Castro, Daiqi Liu, Lukas Mulzer, Jana Hutter, Jonghye Woo, Moritz Zaiss, Andreas Maier, Paula A. Perez-Toro

精选

SIREM是一种新型的语音引导MRI重建框架，通过同步语音作为跨模态先验来改善实时语音MRI（rtMRI）的图像质量。该方法将每帧图像建模为音频驱动和MRI驱动成分的融合，利用语音预测发音器结构，同时从k空间数据重建互补内容。SIREM还引入了可学习的螺旋臂软加权机制，实现k空间采样与语音信息融合的差异化研究。在USC语音rtMRI基准上，SIREM在保持解剖学合理性的同时，显著优于传统方法（如网格化、小波压缩感知和全变分），实现了更高吞吐量的重建。代码已开源。

论文语音MRI 跨模态重建 k空间采样开源/仓库先验融合

推荐理由：语音MRI研究者终于有了一个利用语音信号本身来提升成像质量的新思路——SIREM把音频作为先验，解决了传统rtMRI在分辨率与速度间的权衡问题，做语音科学或临床评估的团队可以直接用开源代码试试。

原文

10:28

arXiv: Anthropic@Aman Desai

精选

RooAgent 是一个基于 LLM 的智能体，为高能物理领域的 Root 数据分析提供自然语言接口。它将物理分析功能封装为工具，LLM 根据用户自然语言指令调用这些工具。支持两种模式：基于 LangGraph 的 Agent（兼容 GPT-4.1 和 DeepSeek-V3），以及 MCP 服务器模式（兼容 Claude Sonnet 4.6）。功能包括直方图检查、事件选择、运动学分布可视化、拟合和显著性估计。已在多个模拟和 ATLAS 开放数据上验证，代码开源在 GitHub。

AI产品 RooAgent 高能物理 LLM Agent Root分析开源/仓库

推荐理由：高能物理研究者终于可以用自然语言做 Root 分析了——RooAgent 把复杂的 PyRoot 操作封装成 LLM 可调用的工具，做粒子物理数据分析的团队可以直接试，省去手写大量脚本的麻烦。

原文

10:06

arXiv cs.AI@Mingyang Rao, Kehua Feng, Zhihui Zhu, Jiangzhen Fu, Hao Yu, Keyan Ding, Huajun Chen

精选

大模型在理解化学反应图方面存在视觉缺陷和语义脱节两大瓶颈。ChemVA框架通过视觉锚点机制和语义对齐方法，将化学结构图转化为模型能理解的实体名称，显著提升理解能力。在OCRD-Bench基准测试中，ChemVA实现92%的结构识别准确率，并在9种不同大模型上平均提升约20个百分点，使开源模型在复杂化学推理任务上媲美闭源系统。

论文大模型化学推理视觉理解开源/仓库 ChemVA

推荐理由：做化学信息学或AI辅助药物研发的团队，终于有了让大模型真正看懂反应图的方法——开源框架可直接用，效果提升明显。

原文

09:52

berryxia@berryxia

88°

Cursor 发布了 Composer 2.5 模型，宣称是目前最强大的模型，具备更聪明的推理、更强的长任务持续能力和更可靠的复杂指令执行。该模型在同等能力下实现了10倍效率提升，底层基于与 Moonshot Kimi K2.5 相同的开源架构。训练规模扩大、强化学习环境更复杂，并加入了文本反馈机制，使模型能在长 rollout 中快速学习。Cursor 已与 SpaceXAI 合作，计划用10倍算力训练更大模型。下周还将翻倍模型用量。

AI产品 Cursor Composer 2.5 编程助手开源/仓库推理模型

推荐理由：Composer 2.5 解决了 AI 编程中长任务容易崩、指令执行飘的痛点，做复杂代码开发的团队可以直接体验10倍效率提升，建议点开看看具体架构和用量翻倍细节。

原文

02:19

rohanpaul_ai@rohanpaul_ai

76°

HiDream 开源了 8B 参数的图像模型 HiDream-O1-Image，声称性能与 27B 的 Qwen-Image 等更大模型持平。该模型采用像素级统一 Transformer，无需 VAE 和文本编码器，直接在原始像素上端到端处理。它支持文生图、长文本渲染、指令编辑、主体个性化及故事板生成等多种任务。内置推理驱动的提示代理，能先理解用户意图再生成，在长文本渲染基准上接近 200B+ 模型的表现。这暗示传统扩散管线可能不再是唯一的主流路径。

AI模型 HiDream HiDream-O1-Image 图像生成 Transformer 开源/仓库

推荐理由：HiDream 用 8B 参数挑战了传统扩散架构的统治地位，做图像生成或研究的开发者值得关注——它可能改变你对模型效率与架构的认知。

原文

00:30

00:30Hugging Face: Blog（博客/媒体）

精选

PaddleOCR 3.5 版本正式发布，新增对 Transformers 后端的支持，允许用户使用 Hugging Face 生态中的预训练模型进行 OCR 和文档解析任务。这一更新打破了原有框架对 PaddlePaddle 模型的依赖，提升了模型选择的灵活性和生态兼容性。新版本还优化了文档解析性能，支持更多语言和复杂版面分析。对于需要集成 OCR 能力的开发者来说，这是一个重要的升级，可以直接利用社区丰富的 Transformers 模型资源。

AI产品 OCR 文档解析 PaddleOCR Transformers 开源/仓库

推荐理由：PaddleOCR 拥抱 Transformers 生态，做文档解析和 OCR 的团队可以更灵活地选模型，不用被框架绑死，值得升级试试。

原文

5月18日

16:33

向阳乔木@vista8

ORCA 是一款新开源的 Agent IDE，支持 iOS 和移动客户端安装，可切换多个 ChatGPT 订阅等账号。它能够检测电脑中安装的各类 CLI 工具（如 Claude Code CLI、Codex CLI、Gemini CLI 等），支持目录和文件拖拽对话，内置 Markdown 预览渲染。Token 消耗和 5 小时重置显示功能方便用户管理使用情况。虽然解决了 TUI 工具的诸多痛点，但安装包较大。

AI产品 Agent IDE ORCA iOS客户端多账号切换开源/仓库

推荐理由：ORCA 解决了多账号管理和移动端使用的痛点，适合需要频繁切换 AI 订阅的开发者，以及习惯在手机或平板上编码的团队，建议试试它的 iOS 客户端。

原文

12:07

arXiv cs.AI@Arquimedes Canedo

精选

论文提出了一种名为paper.json的轻量级JSON文件约定，旨在解决LLM智能体阅读学术论文时的常见问题，如子声明无法细粒度引用、范围过度扩展、图表命令隐藏在代码库中。该约定包含五个核心约定：稳定声明ID（C1）、明确的不声明列表（C2）、精确的每图shell命令（C3）、稳定定义ID（C5），以及最低可行合规性（C4）。作者声称，为已完成的论文手动编写符合规范的JSON文件可在1小时内完成。论文本身已实现合规，并通过了验证测试。该工作开源在GitHub上，为AI驱动的论文阅读和自动化提供了标准化接口。

论文 LLM智能体论文阅读结构化数据开源/仓库学术自动化

推荐理由：做AI论文阅读工具或学术自动化智能体的开发者，这个约定能解决子声明引用和范围误判的痛点，值得直接参考或贡献。

原文

12:06

Paul Couvert@itsPaulAi

HiDream-O1-Image 作为 Nano Banana 的开源替代品正式发布，采用 MIT 许可证，支持文本到图像、图像编辑、故事板生成等功能。该模型在文本渲染方面表现突出，提供 Hugging Face 模型和在线演示。这是开源社区在图像生成领域的重要进展，为开发者和创作者提供了更自由的选择。

AI模型开源/仓库图像生成文本渲染 HiDream-O1-Image Nano Banana

推荐理由：图像生成领域终于有了 MIT 许可证的开源强模型，做创意工具或需要文本渲染的开发者可以直接上手试试。

原文

12:05

Paul Couvert@itsPaulAi

72°

HiDream AI 与 Vivago AI 联合开源了 HiDream 图像生成模型，该模型在性能上可与闭源商业模型竞争。模型权重、技术报告和在线试用空间均已发布在 Hugging Face 和 GitHub 上。开源社区对此反应热烈，认为这是开源图像模型的重要里程碑。用户可以直接下载模型或在线体验，无需等待。

AI模型 HiDream 图像生成开源/仓库 Hugging Face AI模型

推荐理由：开源图像模型终于有了能打闭源方案的选手，做图像生成或 AI 绘画的开发者可以直接下载模型或在线试用，值得立刻体验。

原文

12:01

arXiv cs.AI@Xavier Theimer-Lienhard, Mushtaha El-Amin, Fay Elhassan, Sahaj Vaidya, Victor Cartier-Negadi, David Sasu, Lars Klein, Mary-Anne Hartley

精选

Fully Open Meditron 是首个完全开放的临床大语言模型（LLM）构建管道，解决了现有“开放”模型仅开放权重、缺乏数据来源和训练流程透明性的问题。该管道包含经临床医生审核的训练语料库、可复现的数据构建和训练框架，以及对齐临床使用的评估协议。语料库整合了8个公开医学QA数据集，并扩展了三种临床医生验证的合成数据：考试式QA、基于46,469条临床实践指南的QA和临床小案例。评估采用LLM作为裁判的协议，校准了204名人类评分员。在五个全开放基座模型上应用后，所有MeditronFO变体均优于基座，其中Apertus-70B-MeditronFO在医学综合基准上提升6.6个百分点，达到53.8%，创下全开放模型的新纪录。结果表明，全开放管道可以在不牺牲可审计性和可复现性的前提下实现领域内最先进性能。

论文临床LLM 全开放管道可审计性医学QA 开源/仓库

推荐理由：做临床AI或医疗NLP的团队终于有了一个可审计、可复现的完整管道，不用再猜数据来源和训练细节——直接拿来用或参考构建自己的CDSS，值得点开看具体实现。

原文

08:33

岚叔@lufzzliz

精选72°

开发者基于 xai-org/x-algorithm 开源仓库的源码，利用 Opus-4.7 模型花费两天时间构建了一个 Wiki 页面。该 Wiki 的所有结论均直接追溯到源码，避免了常见解读中的偏差。作者指出，Wiki 内容与一些帖子的解读存在出入，因此公开分享并邀请社区共同参与共建。这一做法为理解算法实现提供了更可靠的参考。

AI产品 xai-org/x-algorithm Opus-4.7 Wiki 开源/仓库源码解读

推荐理由：对于研究 xai-org/x-algorithm 源码的开发者，这个 Wiki 提供了直接基于代码的解读，避免了二手信息的误导，建议直接查看并参与共建。

原文

02:34

rohanpaul_ai@rohanpaul_ai

78°

OpenBMB 发布 MiniCPM-o 4.5，一个 9B 参数的全双工多模态模型，能同时看、听、说。它基于 Omni-Flow 框架，将交互视为连续时间流，打破传统轮询式对话，实现实时感知与响应。该模型在语音生成质量上超越 Qwen3-Omni-30B-A3B，且支持 12GB RAM 边缘部署。这标志着 AI 交互层从“对讲机”模式迈向自然对话的关键一步。

AI模型 MiniCPM-o 4.5 全双工多模态开源/仓库实时交互

推荐理由：做多模态 AI 交互的开发者终于有了可部署的全双工开源方案——MiniCPM-o 4.5 把实时语音视频对话从概念变成 9B 模型，值得直接上手试。

原文

00:42

AlphaSignal@AlphaSignalAI

精选76°

Files SDK 是一个新开源库，通过一个统一 API 支持 18 个存储提供商，包括 S3、R2、Vercel Blob 和 Google Drive。它解决了不同云存储 SDK 接口各异的问题，提供 upload、download、head 等标准调用，无需为每个提供商重写代码。库使用 Web 标准（如 Blob、File、ReadableStream），避免提供商特定细节泄露，并支持 Node、Bun、Deno、边缘运行时和浏览器。它还提供 OpenAI、Vercel AI 和 Claude Agent SDK 的现成工具，并内置审批门控默认设置，确保智能体安全操作存储桶。

AI产品开源/仓库存储 API统一多云智能体

推荐理由：多存储后端切换的痛点被 Files SDK 解决了，做多云存储或智能体开发的团队可以直接用这个统一接口，省去适配不同 SDK 的麻烦。

原文

5月17日

21:05

AI Engineer@aiDotEngineer

Mnemon 是一个开源项目，旨在为 AI 智能体提供持久记忆和状态管理，解决传统上下文窗口的局限性。其创建者表示，新加坡官员 Vivian Balakrishnan 已将其纳入个人 AI 工作流。Mnemon 的长期目标是成为智能体的记忆驱动层，支持持久状态、进化循环和运行时连续性。该项目目前处于早期阶段，但已开放 GitHub 仓库供开发者试用。

AI产品智能体持久记忆开源/仓库 Mnemon 上下文窗口

推荐理由：做智能体开发的团队终于有了一个正经的持久记忆方案——Mnemon 解决了上下文窗口的临时性痛点，想构建自进化智能体的开发者可以直接试。

原文

07:31

berryxia@berryxia

Vercel Labs 推出专为 AI Agent 设计的编程语言 Zero，由 Chris Tate 主导开发。Zero 从语言层面解决 Agent 编程中的幻觉和调试痛点，支持能力显式声明、JSON 格式诊断和类型安全自动修复。相比 Rust、Python 等通用语言，Zero 更小、更快、更易被 Agent 编写和维护。该项目已在 GitHub 开源，供开发者实验和贡献。

AI产品 AI Agent 编程语言 Vercel 开源/仓库 Zero

推荐理由：Vercel 直接为 AI Agent 造了门新语言，解决了 Agent 写代码时幻觉多、修 bug 慢的痛点。做 Agent 开发或自动化工具的团队值得关注，可以直接上 GitHub 试试。

原文

01:29

AlphaSignal@AlphaSignalAI

Adala 是一个开源框架，利用自主智能体自动完成数据标注，取代传统的手工标注方式。用户只需提供少量标注示例作为环境，智能体通过观察、反思和迭代学习技能，自动生成高质量标注。每个技能运行在语言模型运行时中，支持不同模型切换，实现学生-教师模式以降低推理成本。框架支持严格或灵活的输出格式，并可直接集成到 Python 笔记本中处理大规模数据。

AI产品开源/仓库智能体数据标注 Python 学生-教师模型

推荐理由：数据标注团队和机器学习工程师终于能摆脱重复劳动——Adala 用自主智能体自动学习标注技能，大幅缩短项目周期，建议做数据预处理或模型训练的团队直接试试。

原文

00:54

00:54IT之家（博客/媒体）

精选73°

蚂蚁集团旗下百灵大模型正式开源 Ring-2.6-1T，这是一款面向真实复杂任务场景的万亿级旗舰思考模型。该模型引入了可调节的 Reasoning Effort 机制，支持 high 与 xhigh 两种推理强度，开发者可根据任务复杂度灵活控制模型思考深度。high 模式适合高频 Agent 工作流，具备更低 Token 开销与更快多步执行能力；xhigh 模式面向数学、科研、复杂逻辑分析等高难任务。开源链接已在 Hugging Face 和 ModelScope 上提供，方便开发者、研究者与企业进行验证、适配和二次开发。

AI模型开源/仓库推理模型智能体蚂蚁集团 Ring-2.6-1T

推荐理由：万亿级思考模型开源，可调节推理强度让开发者按需平衡效果与成本，做 Agent 工作流或复杂推理的团队可以直接上手试。

原文