全部 AI 动态 · AI 热点

6月4日

01:46

Fireworks AI@FireworksAI_HQ

Fireworks AI 在 Harvey 的法律智能体基准上测试了稀疏顾问模式：用 GLM 5.1 作为执行工人，Claude Opus 4.7 作为稀疏顾问，结果全部通过率从 Opus 单独运行的 14/100 提升至 18/100，成本仅为 Opus 单独运行的 39%。该模式通过让强大模型仅在关键步骤提供建议，显著降低了推理成本。Fireworks 已开源相关 harness 设计、顾问模式及训练结果。

AI产品智能体法律AI GLM 5.1 Claude Opus 4.7 开源/仓库

推荐理由：法律 AI 团队终于有了降本增效的实战方案——用 GLM 5.1 搭配 Claude Opus 4.7 做稀疏顾问，性能提升 28% 的同时成本砍掉 61%，做法律智能体或长链推理的开发者值得一试。

原文

01:30

SiliconFlowAI@siliconflowai

Andrej Karpathy 的 llm-wiki 项目在短时间内获得超过 5000 个 GitHub 星标。该项目旨在让 LLM 自动构建和维护一个知识库，避免每次会话都重新发现知识。用户可以通过 OpenCode、JustSisyphus OMO 和 SiliconFlow 等工具搭建自己的 llm-wiki。这解决了 AI 对话中知识无法积累的问题，让每次使用都变得更智能。

AI产品知识管理 LLM 开源/仓库 Karpathy 智能体

推荐理由：Karpathy 的 llm-wiki 解决了 AI 对话中知识碎片化的痛点，做知识管理或频繁使用 LLM 的团队可以试试，让 AI 越用越聪明。

原文

01:23

Ideogram@ideogram_ai

78°

AI模型 Ideogram 4.0 开源/仓库图像生成生成式媒体设计

推荐理由：Ideogram 4.0 开源让图像生成模型更易定制，做设计工具或内容创作的团队可以直接上手尝试，值得关注。

原文

01:14

Justine Moore@venturetwins

AI模型图像生成开源/仓库 Ideogram AI 模型发布 AI 艺术

推荐理由：图像生成模型终于有了开源权重版本，做 AI 艺术或需要定制化图像生成的开发者可以直接下载微调，值得一试。

原文

01:09

Justine Moore@venturetwins

72°

Ideogram 4.0 是一款新发布的开源图像模型，权重可下载，支持在自有硬件上运行和微调。该模型在文本渲染、高分辨率图像生成和设计方面表现优异，被官方称为“世界上最好的开源图像模型”。目前已在所有 Ideogram 计划和 API 上可用。用户可下载权重、用自己的数据微调，并在本地硬件上运行。

AI模型开源/仓库图像生成文本渲染设计 Ideogram

推荐理由：开源图像模型又添猛将，做设计、生成海报或需要高质量文本渲染的团队可以直接下载权重微调，值得一试。

原文

00:45

a16z@a16z

精选72°

Ideogram 4.0 正式发布，并宣布开源权重。该模型被官方称为“世界上最好的开源图像模型”，支持用户下载权重、在自有数据上微调，并可在本地硬件上运行。目前已在所有 Ideogram 套餐和 API 上可用。这一举措将推动图像生成领域的开源生态发展，为开发者和创作者提供更多自主权和灵活性。

AI模型开源/仓库图像生成 Ideogram 4.0 模型权重本地部署

推荐理由：图像生成领域终于有了一个真正能打的开源模型——Ideogram 4.0 权重可下载、可微调、可本地跑，做 AI 图像应用或研究的团队可以直接上手试试。

原文

00:33

Philipp Schmid@_philschmid

76°

Google 发布了 Gemma 4 12B，这是其首个支持原生音频输入的中型多模态模型。该模型采用无编码器架构，直接将视觉和音频信息融入大语言模型，仅需 16GB 内存即可运行。在基准测试中，其性能接近 26B 参数模型，且采用 Apache 2.0 开源许可。这标志着中小型模型在多模态能力上的重要突破，尤其适合资源受限的开发者。

AI模型 Gemma 4 多模态模型音频输入开源/仓库 Google

推荐理由：Gemma 4 12B 让中小团队也能用上原生音频多模态模型，16GB 内存门槛极低，做语音交互或视觉应用的开发者可以直接下载试试。

原文

00:30

lmarena.ai@lmarena_ai

Ideogram 4.0 开源模型在 Text-to-Image Arena 中排名第8，成为该榜单上最强的开源图像生成模型。该模型得分为1204，性能接近闭源模型 Nano Banana Pro。Ideogram 4.0 支持权重下载、微调和本地部署，已在所有 Ideogram 计划和 API 上线。这一发布标志着开源图像生成模型在质量上迈出了重要一步。

AI模型开源/仓库图像生成 Ideogram Text-to-Image Arena 模型评测

推荐理由：开源图像生成模型终于追上闭源水平了，做 AI 绘画应用或自建图像生成管线的开发者可以直接下载权重和微调，值得试试。

原文

6月3日

20:03

Geek@geekbb

Datawhale 推出了一套开源的世界模型课程，包含五讲和五个配套项目，覆盖从 VAE 到 Dreamer 再到评估仪表盘的完整学习路径。课程强调动手实践，帮助学习者系统理解世界模型的原理、架构和实现。对于想深入世界模型领域的研究者、学生或开发者来说，这是一份难得的免费学习资源。

AI模型世界模型开源/仓库课程 VAE Dreamer

推荐理由：想系统入门世界模型的开发者终于有了一条清晰的动手路径——五讲五项目从 VAE 到 Dreamer 全覆盖，比啃论文高效得多，建议直接跟着项目跑一遍。

原文

19:13

小互@imxiaohu

国内团队开源了 OpenSquilla，用 Python 重写了“小龙虾”项目，解决了其 Token 消耗高、不按规则执行和安全问题。它集成本地小模型，对请求进行智能路由：简单任务派给便宜模型，复杂任务才用顶级模型，类似医院分诊。官方测试显示，25 个任务混合使用 Opus 4.7、GLM 5.1 和 DS4 Flash，成本从 6.2 美元降至 0.68 美元，效果几乎一致。此外，它还能根据对话语义只注入匹配度最高的 Skill，避免将所有 Skill 描述塞入上下文，100 次对话可省 100 万 Token。

AI产品开源/仓库 Token 优化模型路由成本控制 Python

推荐理由：AI 调用成本高、Token 浪费严重的团队终于有了实用解法——OpenSquilla 智能路由能省 90% 费用，做多模型编排或 Skill 密集型应用的开发者值得立刻试试。

原文

18:11

Geek@geekbb

Harness 是一个开源工具，能让 AI Agent 直接操控 Windows 上的 WPS Office、Adobe 全家桶和 Zotero 等桌面应用。它通过模拟用户操作实现自动化，无需 API 或插件，解决了 AI 与桌面软件交互的难题。这对于需要自动化办公、设计或文献管理的用户来说，是一个实用的开源方案。项目已在 GitHub 上发布，开发者可以快速集成或扩展。

AI产品 AI Agent 桌面自动化开源/仓库 WPS Office Adobe

推荐理由：做办公自动化或 AI 工作流的开发者，终于有了一个能直接操控 WPS 和 Adobe 的开源方案，建议试试这个 Harness 项目。

原文

17:03

Geek@geekbb

QMAI 是一款专为长篇小说创作设计的记忆型 AI 写作桌面系统，旨在解决 AI 写作中常见的遗忘前文、人设崩坏和时间线混乱等问题。该系统通过内置的记忆机制，能够持续跟踪故事上下文，确保角色设定和情节逻辑的一致性。对于需要创作复杂长篇故事的作者，QMAI 提供了一种更可靠的 AI 辅助写作方案。项目已在 GitHub 开源，开发者可以自行部署或参与改进。

AI产品 AI写作长篇小说记忆系统开源/仓库 QMAI

推荐理由：长篇小说创作者终于有了能记住前文的 AI 工具——QMAI 通过记忆机制解决人设崩坏和时间线混乱，写长篇的可以直接去 GitHub 试试。

原文

16:05

Ate-a-Pi@svpino

Bigset 是一个开源工具，用户只需描述所需数据，即可自动生成结构化数据集。它通过编排智能体搜索网络，并派发子智能体并行抓取数据，最终输出可下载的 CSV/JSON 文件。例如，输入“亚马逊上所有徕卡镜头”或“京都徕卡门店及评分”，即可获得整理好的数据。该工具底层调用 TinyFish 的免费搜索与抓取 API，支持定时刷新和自托管。对于需要快速收集结构化信息的开发者、数据科学家或研究者，Bigset 提供了一条低代码、高效率的路径。

AI产品开源/仓库数据集智能体数据抓取 TinyFish

推荐理由：Bigset 解决了手动收集和整理网络数据的高成本问题，适合需要快速获取结构化数据集的开发者、数据科学家或研究者，直接输入自然语言就能拿到结果，值得一试。

原文

14:17

ollama@ollama

Nous Research 发布了 Hermes Desktop，这是 Hermes Agent 的桌面原生版本，首次在 Jensen 的 GTC 主题演讲中演示，现已公开预览。该工具允许用户通过 Ollama 使用本地或云端模型，实现智能体功能。这意味着开发者可以在自己的机器上运行 Hermes，无需依赖远程服务器，降低了使用门槛。对于希望探索本地 AI 智能体的用户来说，这是一个值得关注的新选择。

AI产品智能体 Hermes Desktop Ollama 本地模型开源/仓库

推荐理由：Hermes Desktop 让本地 AI 智能体落地更简单，做自动化或智能体开发的团队可以直接通过 Ollama 体验，无需复杂配置。

原文

11:49

Geek@geekbb

精选

Ore Code 是一款专为 DeepSeek 设计的桌面端 AI 编码工作台，支持 macOS 和 Windows。它聚焦长上下文编码、结构化工具调用、本地项目上下文理解，并集成了 MCP 协议、技能和自动化功能。该项目已在 GitHub 开源，旨在为开发者提供更高效的 AI 辅助编程体验。

AI产品 DeepSeek 桌面端 AI 编码工作台 MCP/工具开源/仓库

推荐理由：如果你在用 DeepSeek 做编码，Ore Code 把长上下文、工具调用和项目上下文整合到了桌面端，省去来回切换的麻烦，做 AI 编程的开发者可以直接下载试试。

原文

09:18

shao__meng@shao__meng

BigSet 是一个开源工具，用户只需用自然语言描述需求，即可从实时网页中生成结构化数据集，并支持定期刷新。一位研发团队负责人分享，他用 BigSet 快速整理出了 B2B SaaS 产品的免费版信息、定价链接等，替代了逐个官网查询的繁琐流程。该工具解决了企业选型时信息收集效率低下的痛点，尤其适合需要持续维护工具清单的团队。项目已在 GitHub 开源，用户可免费使用。

AI产品 BigSet 开源/仓库企业工具数据采集 SaaS选型

推荐理由：BigSet 把「找企业工具」这种重复劳动变成一句话的事，做技术选型或采购调研的团队可以直接省下大量时间，建议试试。

原文

08:17

Clement Delangue@ClementDelangue

Hugging Face CEO Clement Delangue 在 X 上发文，呼吁社区更多关注 Arcee 这家美国开源 AI 模型公司。他指出，美国优秀的开源 AI 模型公司并不多，而 Arcee 是其中之一。Arcee 在 Hugging Face 上发布了多个开源模型，其模型在特定任务上表现优异，且完全开源可商用。这一呼吁引发了社区对 Arcee 及其模型的重新关注，也反映了开源 AI 生态中美国公司的稀缺性。

AI模型开源/仓库 Arcee Hugging Face AI模型美国

推荐理由：美国开源 AI 模型公司稀缺，Arcee 是少数值得关注的玩家。做开源模型研究或寻找可商用模型的开发者，建议去 Hugging Face 看看他们的模型仓库。

原文

06:05

Google AI Developers@googleaidevs

Google DeepMind 在 GitHub 上开源了 Science Skills 工具包，旨在帮助开发者构建用于科学发现的自主智能体。该工具包提供科学基础和高 token 效率，可加速智能体工作流。开源版本允许社区直接使用和贡献，推动 AI 在科学研究中的应用。

AI产品智能体开源/仓库科学发现 Google DeepMind 工具包

推荐理由：做科学 AI 智能体的开发者可以直接用上这个开源工具包，提升 token 效率和科学推理能力，值得一试。

原文

01:31

berryxia@berryxia

88°

OpenAI 发布了 Codex Python SDK，通过一行 pip install openai-codex 即可安装。该 SDK 允许开发者在 Python 代码中直接启动线程、运行 turn、实时流式传输进度、恢复会话、传递图片，并精细控制沙盒访问权限。它复用现有 Codex 认证，无需额外账号，底层通过本地 app-server 与脚本通信，解决了每次输入都新建 node 进程的内存和状态管理问题。这标志着 Codex 从浏览器中的 AI IDE 转变为可编程基础设施，开发者可将其作为 agent harness 集成到脚本、调度器或仪表盘中，实现断点续跑和状态保留，重构了从“切出去问 AI”到“让 AI 在代码中执行”的工作流。

AI产品 Codex Python SDK 编程助手智能体开源/仓库

推荐理由：Codex SDK 把 AI 编程从手动 Vibe Coding 升级为可编程基础设施，做 agent pipeline 的开发者终于不用手写胶水代码了——线程管理、状态持久、沙盒隔离全打包好，直接 pip 安装就能用。

原文

01:22

向阳乔木@vista8

英伟达开源了一款 Skill 安全扫描工具，用于检测 AI 技能（Skill）中的潜在安全风险。目前虽然尚未出现严重的 Skill 破坏案例，但安全专家提醒开发者应保持警惕。该工具可帮助识别恶意或漏洞代码，建议用户优先使用自建 Skill，仅将他人 Skill 作为学习参考。

AI产品英伟达安全扫描开源/仓库 AI 技能风险防范

推荐理由：AI 技能安全是容易被忽视的盲区，英伟达开源的工具填补了这一空白，做 AI 应用开发的团队建议直接拿来用，提前排查风险。

原文

01:16

Philipp Schmid@_philschmid

开发者Phil Schmid分享了一种使用GEPA自动优化任何CLI Agent提示词的方法。GEPA接受任何`(str) -> str`的可调用对象，兼容自定义CLI、本地模型或API Agent。只需将Agent封装在Python函数中，即可让其自我优化提示词。该方法可显著提升Agent的响应质量和效率，减少手动调优的工作量。

AI产品 GEPA 提示词优化 CLI Agent 自动化开源/仓库

推荐理由：做Agent开发的团队终于有了自动化提示词优化的工具——GEPA支持任何CLI Agent，封装成函数就能自优化，省去反复手动调参的麻烦，建议试试。

原文

01:06

宝玉@dotey

baoyu-image-gen Skill 新增对 Codex-cli 作为 Provider 的支持，允许用户在 Claude Code、hermes agent 等 Agent 中直接调用 Codex 生成图像，无需额外使用 Codex 客户端。该功能由社区 PR 贡献，前提是用户已安装 codex cli 并拥有订阅。这一更新简化了 Agent 内图像生成的流程，提升了开发者的使用便利性。

AI产品 Agent Codex-cli 图像生成开源/仓库 baoyu-image-gen

推荐理由：对于在 Claude Code 等 Agent 中做自动化工作流的开发者，这个 Skill 省去了切换工具的麻烦，可以直接在对话中调 Codex 出图，值得一试。

原文

00:54

AK@_akhaliq

Crafter 是一个多智能体框架，能够从多种输入（如文本、数据、代码）生成可编辑的科学图表。它通过协调多个 AI 智能体，分别负责理解输入、设计图表布局、生成代码和渲染图形，最终输出可编辑的 SVG 或代码格式。这一工具解决了科研人员手动绘制图表耗时且难以修改的痛点，尤其适合需要频繁调整图表细节的研究场景。目前该项目已在 GitHub 上开源，支持自定义图表样式和交互式编辑。

AI产品多智能体科学图表可编辑开源/仓库数据可视化

推荐理由：做科研或写论文的团队终于有了一个能自动生成可编辑图表的工具——Crafter 从多种输入直接出 SVG，改起来比手动调参数快得多，建议做数据可视化的开发者试试。

原文

6月2日

23:50

rohanpaul_ai@rohanpaul_ai

Kombai 推出了一个专注于前端开发的 AI 编程 Agent，专门解决通用 AI Agent 在前端任务中因缺乏视觉判断、组件复用、CSS 行为等上下文而失败的问题。该 Agent 能读取设计上下文、浏览器状态、现有组件、Hooks、设计令牌和 DevTools 数据，像前端工程师一样编辑产品。在演示中，它成功为一个超过 50 万行代码的开源代码库添加了复杂功能。同时，Kombai 还开源了用于评测 Agent 前端复杂任务能力的数据集。

AI产品 AI 编程助手前端开发 Kombai 开源/仓库智能体

推荐理由：前端开发者终于有了专门解决 UI 代码痛点的 AI 工具——Kombai 通过专业化理解设计上下文和浏览器状态，比通用 Agent 更懂前端。做复杂前端项目或维护大型代码库的团队，建议看看它的演示和开源数据集。

原文

22:55

阶跃星辰 Stepfun@Stepfun_AI

Step 3.7 Flash 是一款面向快速智能体编码的开源权重模型，支持可靠工具调用和多模态理解。该模型已从模型卡片阶段进入实际编码工作流，由 @kilocode 团队在博客中详细介绍。其设计重点在于提升智能体编码效率，适合开发者集成到自动化编程任务中。这一进展标志着开源模型在实用化方面迈出重要一步。

AI模型开源/仓库推理模型编程助手智能体 MCP/工具

推荐理由：做智能体编码的开发者终于有了一个可直接使用的开源模型——Step 3.7 Flash 的可靠工具调用和多模态能力能显著提升自动化效率，建议点开博客了解具体集成方式。

原文

17:13

berryxia@berryxia

Don哥（Don）将一套原本价值万元的内容生成工程系统免费开源，该系统可用于高效生成各类内容。开源后，开发者可以自由安装、学习和使用，降低了内容生成技术的门槛。这一举动被视为对社区的贡献，尤其适合需要自动化内容生产的团队和个人。

AI产品开源/仓库内容生成工程系统 Don哥自动化

推荐理由：内容生成工程系统开源解决了高成本工具的门槛问题，做内容创作或自动化生产的团队可以直接安装试用，省下万元成本。

原文

10:52

Jerry Liu@jerryjliu0

LlamaIndex 创始人 Jerry Liu 宣布 Liteparse 完成重大升级，成为目前最快的 PDF 解析器。新版用 Rust 重写了整个库，并适配为 Python 和 Node 原生包，支持 50 多种文档类型。除了提取文本，Liteparse 还能输出边界框，让编码代理可以精确追溯源文档。团队正在开发 Markdown 支持，并鼓励用户提交 issue 和 PR。

AI产品 PDF解析 Rust 开源/仓库 LlamaIndex AI代理

推荐理由：做文档解析或 AI 代理的开发者终于有了一个又快又准的开源选择——Liteparse 的边界框输出让审计追踪变得简单，值得直接试。

原文

10:45

NVIDIA AI@NVIDIAAI

NVIDIA 在 Hugging Face 上开源仓库总数突破 1000 个（含 820 个模型、249 个数据集和 57 个 Spaces），粉丝接近 60,000。其 LocateAnything 模型成为 Hugging Face 当前第一热门模型，PiD 排名第五。NVIDIA 宣布采用 Linux 基金会的 OpenMDW 框架，并发布了 Cosmos 3（物理 AI 全模态世界模型）和 Alphamayo 2 Super（自动驾驶开源模型）。此外，Nemotron 3 即将发布，Nemotron 4 也在研发中。Hugging Face CEO Clement Delangue 称 NVIDIA 为“美国开源 AI 之王”，肯定了其对生态的贡献。

行业 NVIDIA 开源/仓库 Hugging Face 物理 AI 自动驾驶

推荐理由：NVIDIA 在 Hugging Face 上开源仓库破千，模型霸榜，做 AI 开发或模型选型的团队值得关注——这代表开源生态里又多了一个强力玩家，可以直接拿来用的资源又多了。

原文

10:19

LangChain@LangChainAI

LangChain 将于 6 月 17 日在慕尼黑举办技术圆桌会议，由 Steffen Hausmann 主持，聚焦生产级智能体、智能体框架以及开源 Deep Agents SDK。活动旨在探讨如何构建可靠、可扩展的智能体应用，并分享实际落地经验。参与者将有机会与专家深入交流，了解最新工具和最佳实践。注册链接已开放。

行业智能体 LangChain Deep Agents SDK 开源/仓库技术活动

推荐理由：做智能体应用落地的开发者别错过——LangChain 团队亲自拆解生产级智能体架构和开源 Deep Agents SDK，现场还能直接交流踩坑经验，建议在慕尼黑或附近的朋友报名。

原文

10:13

Guillermo Rauch@rauchg

Vercel CEO 分享了一个全栈智能体应用 Caltext 的示例，这是一个在 iMessage 中追踪卡路里的开源工具。它利用 GPT-4.1 vision 识别食物图片，结合 USDA 数据库自动计算卡路里。技术栈包括 Bun、Turborepo、Hono、Chat SDK、AI SDK 和 Upstash Redis。该项目展示了如何用现代工具链快速构建实用 AI 应用，是学习全栈智能体开发的优质材料。

AI产品智能体全栈开发开源/仓库 GPT-4.1 Vercel

推荐理由：想学全栈智能体开发的人可以直接看这个真实项目——从消息界面到 AI 视觉识别再到数据库，一条龙展示，比看教程更直观。

原文

09:55

LangChain@LangChainAI

精选

LangChain 发布了 Managed Deep Agents，该工具保留了开发者熟悉的项目结构（AGENTS.md、skills/、subagents/ 和 tools.json），同时引入了 Context Hub 功能。Context Hub 为智能体提供了一个托管环境，使其能够在不同会话间保留和更新上下文，从而让智能体的定义随时间演进。这解决了智能体长期运行中上下文丢失的问题，提升了开发效率和智能体的连续性。

AI产品 LangChain 智能体上下文管理开源/仓库开发工具

推荐理由：LangChain 的 Managed Deep Agents 解决了智能体跨会话上下文丢失的痛点，做多轮对话或长期任务编排的开发者可以直接用上，保持项目结构不变，上手成本低。

原文

09:51

Julien Chaumond@julien_c

精选

阿里巴巴 Qwen 团队发布 Qwen3.7-Plus，一个多模态智能体模型，统一了视觉和语言能力。该模型支持多模态交互式混合智能体，可同时处理 GUI 和 CLI 操作，具备视觉感知、推理、定位和搜索增强问答能力。它还能作为全能编码助手和生产力工具，接受全模态输入。Qwen3.7-Plus 现已通过阿里云模型服务 API 提供，开发者可直接尝试。

AI模型 Qwen 多模态智能体开源/仓库阿里云

推荐理由：多模态智能体模型将视觉与语言统一，做自动化操作和智能体开发的团队可以直接用 API 试，省去自己拼接多模型的工作。

原文

01:50

Hugging Face@huggingface

Hugging Face CEO Clement Delangue 发推称赞 Nvidia 是“美国开源 AI 之王”，并列举其近期成就：在 Hugging Face 上累计超过 1000 个公开仓库（820 个模型、249 个数据集、57 个 Spaces），粉丝近 6 万；当前 HF 热门模型榜上，LocateAnything 排名第一，PiD 排名第五；宣布采用 Linux 基金会 OpenMDW 框架；发布了 Cosmos 3（物理 AI 全模态世界模型）、Alphamayo 2 Super（自动驾驶开源模型），并预告 Nemotron 3 和 Nemotron 4 即将发布。这些动作表明 Nvidia 正加速从硬件巨头向开源 AI 生态核心贡献者转型。

行业 Nvidia 开源/仓库 Hugging Face 自动驾驶物理 AI

推荐理由：Nvidia 在开源 AI 上的投入已经形成规模效应——1000 个仓库覆盖模型、数据集、工具链，做 AI 研究或工程落地的团队值得关注其最新模型和框架，尤其是自动驾驶和物理 AI 方向的开放成果。

原文

00:17

Paul Couvert@itsPaulAi

83°

MiniMax 发布开源权重模型 M3，在 SWE-Bench Pro 上达到 59.0%，与 GPT-5.5 持平，并在多项编码基准上与 Opus 4.7 不相上下。M3 还支持 1M 上下文、原生多模态，使用成本仅为 GPT 和 Opus 的十分之一。权重和技术报告将在约 10 天后在 Hugging Face 开放。这标志着开源模型首次在多个前沿能力上追平闭源顶级模型，对 AI 开发者和企业用户意义重大。

AI模型开源/仓库推理模型编程助手 MiniMax M3

推荐理由：开源模型首次在编码和智能体任务上追平 GPT-5.5 和 Opus，成本却低一个数量级。做 AI 应用开发或自建模型的团队，值得关注权重发布后直接试用。

原文

6月1日

22:36

Ate-a-Pi@svpino

Ingestr 是一个开源 CLI 工具，能以极快速度在不同数据源之间迁移数据。它支持几乎所有数据库、数据仓库和 SaaS 应用，几乎无需配置即可使用。用户只需一条命令即可完成数据迁移，且能与 Claude Code 或 Codex 等 AI 编程助手配合，实现自动化数据搬运。该工具以速度著称，适合需要频繁迁移数据的开发者和数据工程师。

AI产品数据迁移 CLI工具开源/仓库 ETL Ingestr

推荐理由：数据迁移是日常开发中的高频痛点，Ingestr 用一条命令解决了跨数据库、仓库和 SaaS 的数据搬运问题，做数据工程或 ETL 的团队可以直接拿来用，省去配置时间。

原文

18:24

berryxia@berryxia

精选76°

KwaiKeye 在 Hugging Face 开源了多模态模型 Keye VL 2.0-30B-A3B，总参数 30B 但活跃参数仅 3B，采用 Apache 2.0 协议。模型通过 DeepSeek 稀疏注意力实现 256K 上下文，视频理解能力随输入帧数增加而准确率上升，打破长视频导致模型迷失的直觉。在多个长视频基准上，其表现与 Qwen3 VL 和 Gemini 3 Flash 相当。该模型证明了稀疏注意力可同时兼顾长上下文和深度理解，是多模态领域的重要进展。

AI模型多模态模型稀疏注意力开源/仓库视频理解 KwaiKeye

推荐理由：做视频理解或多模态应用的开发者，终于有了一个长上下文和深度理解兼得的开源模型，建议直接去 Hugging Face 下载试试。

原文

15:07

NVIDIA AI@NVIDIAAI

精选

NVIDIA 宣布其 Cosmos 3 模型完全开源，包括模型权重和训练配方。该模型已在 Hugging Face 上发布，供开发者自由使用。此举延续了 NVIDIA 在 AI 领域开放生态的策略，旨在推动更多创新应用。Cosmos 3 的开放将加速研究者和工程师在视觉、语言等多模态任务上的探索。

AI模型开源/仓库多模态模型 NVIDIA Cosmos 3 Hugging Face

推荐理由：NVIDIA 把 Cosmos 3 的权重和训练配方全开源了，做多模态研究的团队可以直接下载使用，省去从头训练的算力成本，值得点开看看。

原文

15:05

NVIDIA AI@NVIDIAAI

93°

NVIDIA 宣布推出 Cosmos 3，号称全球首个完全开放的全能模型，原生支持视觉推理、世界生成和动作生成。该模型提供 Super（32B）和 Nano（8B）两个版本，面向物理 AI 领域的研究与开发。Cosmos 3 的开源特性有望加速机器人、自动驾驶等物理世界交互系统的训练与部署，降低开发者门槛。

AI模型物理AI 开源/仓库视觉推理世界生成 NVIDIA

推荐理由：做机器人或自动驾驶的团队终于有了一个全开源的物理世界模型——Cosmos 3 原生支持视觉推理和动作生成，32B 和 8B 两个版本覆盖不同算力场景，值得直接上手试试。

原文

14:08

Runway ML@runwayml

精选76°

Runway 宣布作为创始成员加入 Cosmos Coalition，这是一个由 NVIDIA 和多家顶级 AI 实验室发起的全球性倡议，旨在共同构建并开源面向物理 AI 的前沿世界模型。该联盟将通过一个通用的开放生态系统，加速世界模型的研究与开发，推动物理 AI 的进步。此举有望降低物理 AI 的门槛，促进跨机构协作，为机器人、自动驾驶等领域提供基础模型。

行业物理 AI 世界模型开源/仓库 NVIDIA Runway

推荐理由：物理 AI 开发者终于有了开放生态——Runway 和 NVIDIA 牵头开源世界模型，做机器人或自动驾驶的团队可以直接参与共建，值得关注。

原文

13:33

岚叔@lufzzliz

76°

一位开发者用 Claude 在约 2 周内花费 800 美元，开发了《大唐长安·智机府》——一个基于浏览器的 3D 实时语音互动项目，并已开源。该项目将盛唐长安的 3D 沙盘、角色漫游、NPC 对话、诗词小游戏和实时语音 AI Agent 融合，定位为数字文旅加 3D 游戏加 AI 语音展示。技术架构上，主项目用 Three.js 搭建 3D 场景和交互，语音子项目通过 Next.js iframe 与 FastAPI 后端接入 Agora ConvoAI。关键难点包括 Agora 账号配置、浏览器音视频限制和 3D 世界尺度统一。作者建议复刻者从小场景开始，先跑通交互和语音链路再扩展。

AI产品 3D 游戏语音 AI Agent 数字文旅开源/仓库 Claude

推荐理由：这个开源项目展示了如何用 AI 快速构建 3D 文旅互动体验，做数字文旅、游戏开发或 AI 语音应用的团队可以直接参考其技术架构和开发路径，值得逐帧学习。

原文