10:43arXiv cs.LG@Hanjiang Hu, Yiyuan Pan, Jiaxing Li, Xusheng Luo, Alexander Robey, Na Li, Yebin Wang, Changliu Liu精选VLESA 是一个面向具身 AI 的安全框架,通过分析第一人称视频实时预测危险动作并触发干预。它解决了“意图依赖的安全”问题——相同动作在不同情境下可能安全或危险。研究团队引入了配对第一人称帧与目标条件安全标注的数据集,并训练了基于 GRPO 的目标条件安全 Q 过滤器,无需重新训练即可评估动作安全性。在 ASIMOV-2.0 基准上,VLESA 在精确帧上实现了更高的干预准确率,GRPO 训练的 Q 过滤器通过目标条件约束解码将动作安全性提升了超过 41 个百分点。代码已开源。论文具身智能安全监控视觉语言模型GRPO开源/仓库推荐理由:做具身 AI 安全或人机协作的团队,VLESA 提供了一个可落地的实时安全监控方案,能根据上下文判断危险动作,建议直接看论文和代码。原文
10:41arXiv cs.LG@Dan Jacobellis, Neeraja J. Yadwadkar机器人系统常面临高分辨率视觉数据带宽和计算资源受限的问题,传统JPEG/MPEG编码器效率低,而AV1/AVIF等新编码器编码成本高且需专用硬件。SEAOTTER提出一种结合传感器嵌入式自编码器与一次性转码的压缩框架,在保持与JPEG基础设施兼容的同时,实现200:1压缩比下比AVIF快7倍编码、3.5倍解码,ImageNet top-1准确率提升8%。该方法通过可学习的JPEG颜色和量化变换,支持通用和任务感知的转码管道,适用于云机器人场景。代码已开源。论文图像压缩自编码器JPEG兼容云机器人开源/仓库推荐理由:机器人视觉数据压缩的痛点终于有了兼顾效率与兼容性的方案——SEAOTTER在200:1压缩比下比AVIF更快更准,做云机器人或边缘计算的团队可以直接用开源代码试试。原文
10:27arXiv cs.AI@Yu Xia, Zhouhang Xie, Xin Xu, Byungkyu Kang, Prarit Lamba, Xiang Gao, Julian McAuley精选72°ACTS提出了一种新方法,通过智能体控制器自适应地引导冻结的推理模型,在推理过程中动态调整思考策略和预算,从而在保持生成连续性的同时大幅节省token。该方法将推理引导建模为马尔可夫决策过程,控制器根据推理轨迹和剩余预算发出策略动作。实验表明,ACTS在全思考性能下实现了显著的token节省,并支持不同推理器和任务间的可控精度-效率权衡。代码已开源。论文推理模型token节省智能体可控推理开源/仓库推荐理由:ACTS解决了LLM推理中token浪费和缺乏控制的问题,做推理优化或部署大模型的开发者可以直接用开源代码尝试,实现更经济的推理。原文
10:16arXiv cs.AI@Eric Cho, Shawn Huang, Alice Lu, Andy Lyu精选Hedge-Bench 1.0 是一个针对金融推理的 AI 智能体基准测试,包含 102 个来自对冲基金分析师实际工作中的真实任务。与现有依赖模型评判的基准不同,它基于专家推理轨迹进行确定性评分,避免了噪声和循环论证。测试结果显示,前沿模型和智能体在该基准上的得分低于 16%,说明当前 AI 在复杂金融推理上仍有巨大差距。该数据集和评估工具已在 GitHub 开源。论文金融推理智能体基准测试对冲基金开源/仓库推荐理由:金融 AI 终于有了硬核的推理基准——不是算公式或查文档,而是真正考验分析师级别的开放式问题。做量化、金融 NLP 或智能体评估的团队值得关注,可以直接用这个 benchmark 检验自家模型。原文
10:13arXiv cs.AI@Jiabei Cheng, Jingbo Zhou, Jun Xia, Changkai Li, Zhen Lei, Chang Yu, Stan Z. Li精选单细胞多组学数据同时测量多种模态,但实验成本高、噪声大,催生了多种计算翻译方法。然而,现有方法缺乏系统性的基准评估。为此,研究者提出了scTranslation基准,包含多样化数据集、集成最新模型并提供全面评估指标。该基准还评估了特征选择、特征质量和小样本设置等影响因素,这些因素此前很少被系统研究。通过大规模实验,scTranslation揭示了多项重要发现,为未来研究开辟了新方向。基准已开源,代码可在GitHub获取。论文单细胞组学多模态翻译基准评估开源/仓库scTranslation推荐理由:单细胞组学研究者终于有了系统评估翻译模型的工具——scTranslation覆盖了数据、指标和影响因素,做多模态分析的团队可以直接用这个基准来对比方法,省去自己搭建评估流程的麻烦。原文
09:18shao__meng@shao__mengBigSet 是一个开源工具,用户只需用自然语言描述需求,即可从实时网页中生成结构化数据集,并支持定期刷新。一位研发团队负责人分享,他用 BigSet 快速整理出了 B2B SaaS 产品的免费版信息、定价链接等,替代了逐个官网查询的繁琐流程。该工具解决了企业选型时信息收集效率低下的痛点,尤其适合需要持续维护工具清单的团队。项目已在 GitHub 开源,用户可免费使用。AI产品BigSet开源/仓库企业工具数据采集SaaS选型推荐理由:BigSet 把「找企业工具」这种重复劳动变成一句话的事,做技术选型或采购调研的团队可以直接省下大量时间,建议试试。原文
08:48Simon Willison’s Weblog(博客/媒体)micropython-wasm 0.1a1 版本发布,主要修复了作者在构建 datasette-agent-micropython 时遇到的一些限制。该项目将 MicroPython 编译为 WebAssembly,可在浏览器或 Node.js 中运行 Python 代码,适用于沙箱化执行场景。新版本解决了此前版本中的兼容性问题,提升了在 WebAssembly 环境下的可用性。对于需要在 Web 端安全运行 Python 脚本的开发者来说,这是一个实用的工具。AI产品PythonWebAssembly沙箱micropython-wasm开源/仓库推荐理由:如果你需要在浏览器或 Node.js 中安全运行 Python 代码,micropython-wasm 提供了一个轻量沙箱方案,这次更新修复了关键限制,做 Web 端 Python 沙箱的开发者值得关注。原文
08:17Clement Delangue@ClementDelangueHugging Face CEO Clement Delangue 在 X 上发文,呼吁社区更多关注 Arcee 这家美国开源 AI 模型公司。他指出,美国优秀的开源 AI 模型公司并不多,而 Arcee 是其中之一。Arcee 在 Hugging Face 上发布了多个开源模型,其模型在特定任务上表现优异,且完全开源可商用。这一呼吁引发了社区对 Arcee 及其模型的重新关注,也反映了开源 AI 生态中美国公司的稀缺性。AI模型开源/仓库ArceeHugging FaceAI模型美国推荐理由:美国开源 AI 模型公司稀缺,Arcee 是少数值得关注的玩家。做开源模型研究或寻找可商用模型的开发者,建议去 Hugging Face 看看他们的模型仓库。原文
06:05Google AI Developers@googleaidevsGoogle DeepMind 在 GitHub 上开源了 Science Skills 工具包,旨在帮助开发者构建用于科学发现的自主智能体。该工具包提供科学基础和高 token 效率,可加速智能体工作流。开源版本允许社区直接使用和贡献,推动 AI 在科学研究中的应用。AI产品智能体开源/仓库科学发现Google DeepMind工具包推荐理由:做科学 AI 智能体的开发者可以直接用上这个开源工具包,提升 token 效率和科学推理能力,值得一试。原文
03:14IT之家(博客/媒体)72°微软推出开源框架 ASSERT,能将自然语言写成的行为规范自动转换为可执行的评估流程,包括生成测试场景、数据集、评估指标和计分卡。该框架通过四个阶段工作:细化行为规范、生成分层测试用例、运行测试并记录轨迹、对照行为分类评分。验证显示,ASSERT 生成的测试集覆盖更广,能暴露更多失败模式,与人工审核一致率达 80%-90%。该框架适用于行为定义明确的场景,旨在让评估更快速、明确和易于迭代。AI产品开源/仓库AI 评测智能体ASSERT微软推荐理由:做 AI 智能体或应用评测的开发者,终于有了一个能把需求文档直接变成测试用例的工具,省去手动编写评估脚本的繁琐,建议试试 ASSERT 的 travel-planning 实例。原文
02:50IT之家(博客/媒体)76°微软在Build 2026大会上推出Agent Control Specification(ACS)开源标准,旨在统一和细化AI智能体的行为控制。ACS允许开发、合规和安全团队共同制定策略规则,明确智能体允许或禁止的操作、需人工审批的行为及审计记录。该规范在智能体工作流的多个阶段(如输入接收前、工具调用前后、回复前)执行策略检查,支持允许、阻止、脱敏或人工审批等操作。ACS以单一文件定义策略,可随智能体跨框架迁移,并已支持LangChain、OpenAI Agents SDK、Anthropic Agents SDK、AutoGen、CrewAI、Semantic Kernel及MCP等主流框架。这解决了当前控制机制分散、难以审计和复用的问题,为AI智能体在企业级部署中的安全性和合规性提供了标准化方案。行业智能体开源/仓库安全/合规微软MCP/工具10 个信源在谈推荐理由:ACS解决了AI智能体在企业落地中行为失控的痛点,做智能体应用开发或合规管理的团队可以直接用这套标准统一策略,省去重复配置的麻烦。原文
01:59marktechpost@Asif RazzaqTinyFish 发布了开源多智能体系统 BigSet,用户只需用自然语言描述数据集需求,系统便会自动从实时网络中搜索并返回结构化表格。BigSet 由编排器和并行子智能体组成,能够高效处理复杂的数据收集任务。这一工具大幅降低了数据获取的门槛,对需要快速构建定制化数据集的开发者和研究人员意义重大。BigSet 完全开源,可直接部署使用。AI产品多智能体系统开源/仓库数据采集自然语言处理BigSet推荐理由:做数据分析和 AI 训练的人终于不用手动爬数据了——BigSet 用一句话就能生成结构化实时数据集,建议做 NLP 或数据工程的团队直接试试。原文
01:31berryxia@berryxia88°OpenAI 发布了 Codex Python SDK,通过一行 pip install openai-codex 即可安装。该 SDK 允许开发者在 Python 代码中直接启动线程、运行 turn、实时流式传输进度、恢复会话、传递图片,并精细控制沙盒访问权限。它复用现有 Codex 认证,无需额外账号,底层通过本地 app-server 与脚本通信,解决了每次输入都新建 node 进程的内存和状态管理问题。这标志着 Codex 从浏览器中的 AI IDE 转变为可编程基础设施,开发者可将其作为 agent harness 集成到脚本、调度器或仪表盘中,实现断点续跑和状态保留,重构了从“切出去问 AI”到“让 AI 在代码中执行”的工作流。AI产品CodexPython SDK编程助手智能体开源/仓库10 个信源在谈推荐理由:Codex SDK 把 AI 编程从手动 Vibe Coding 升级为可编程基础设施,做 agent pipeline 的开发者终于不用手写胶水代码了——线程管理、状态持久、沙盒隔离全打包好,直接 pip 安装就能用。原文
01:22向阳乔木@vista8英伟达开源了一款 Skill 安全扫描工具,用于检测 AI 技能(Skill)中的潜在安全风险。目前虽然尚未出现严重的 Skill 破坏案例,但安全专家提醒开发者应保持警惕。该工具可帮助识别恶意或漏洞代码,建议用户优先使用自建 Skill,仅将他人 Skill 作为学习参考。AI产品英伟达安全扫描开源/仓库AI 技能风险防范推荐理由:AI 技能安全是容易被忽视的盲区,英伟达开源的工具填补了这一空白,做 AI 应用开发的团队建议直接拿来用,提前排查风险。原文
01:16Philipp Schmid@_philschmid开发者Phil Schmid分享了一种使用GEPA自动优化任何CLI Agent提示词的方法。GEPA接受任何`(str) -> str`的可调用对象,兼容自定义CLI、本地模型或API Agent。只需将Agent封装在Python函数中,即可让其自我优化提示词。该方法可显著提升Agent的响应质量和效率,减少手动调优的工作量。AI产品GEPA提示词优化CLI Agent自动化开源/仓库推荐理由:做Agent开发的团队终于有了自动化提示词优化的工具——GEPA支持任何CLI Agent,封装成函数就能自优化,省去反复手动调参的麻烦,建议试试。原文
01:06宝玉@doteybaoyu-image-gen Skill 新增对 Codex-cli 作为 Provider 的支持,允许用户在 Claude Code、hermes agent 等 Agent 中直接调用 Codex 生成图像,无需额外使用 Codex 客户端。该功能由社区 PR 贡献,前提是用户已安装 codex cli 并拥有订阅。这一更新简化了 Agent 内图像生成的流程,提升了开发者的使用便利性。AI产品AgentCodex-cli图像生成开源/仓库baoyu-image-gen推荐理由:对于在 Claude Code 等 Agent 中做自动化工作流的开发者,这个 Skill 省去了切换工具的麻烦,可以直接在对话中调 Codex 出图,值得一试。原文
00:54AK@_akhaliqCrafter 是一个多智能体框架,能够从多种输入(如文本、数据、代码)生成可编辑的科学图表。它通过协调多个 AI 智能体,分别负责理解输入、设计图表布局、生成代码和渲染图形,最终输出可编辑的 SVG 或代码格式。这一工具解决了科研人员手动绘制图表耗时且难以修改的痛点,尤其适合需要频繁调整图表细节的研究场景。目前该项目已在 GitHub 上开源,支持自定义图表样式和交互式编辑。AI产品多智能体科学图表可编辑开源/仓库数据可视化推荐理由:做科研或写论文的团队终于有了一个能自动生成可编辑图表的工具——Crafter 从多种输入直接出 SVG,改起来比手动调参数快得多,建议做数据可视化的开发者试试。原文
23:50rohanpaul_ai@rohanpaul_aiKombai 推出了一个专注于前端开发的 AI 编程 Agent,专门解决通用 AI Agent 在前端任务中因缺乏视觉判断、组件复用、CSS 行为等上下文而失败的问题。该 Agent 能读取设计上下文、浏览器状态、现有组件、Hooks、设计令牌和 DevTools 数据,像前端工程师一样编辑产品。在演示中,它成功为一个超过 50 万行代码的开源代码库添加了复杂功能。同时,Kombai 还开源了用于评测 Agent 前端复杂任务能力的数据集。AI产品AI 编程助手前端开发Kombai开源/仓库智能体推荐理由:前端开发者终于有了专门解决 UI 代码痛点的 AI 工具——Kombai 通过专业化理解设计上下文和浏览器状态,比通用 Agent 更懂前端。做复杂前端项目或维护大型代码库的团队,建议看看它的演示和开源数据集。原文
22:55阶跃星辰 Stepfun@Stepfun_AIStep 3.7 Flash 是一款面向快速智能体编码的开源权重模型,支持可靠工具调用和多模态理解。该模型已从模型卡片阶段进入实际编码工作流,由 @kilocode 团队在博客中详细介绍。其设计重点在于提升智能体编码效率,适合开发者集成到自动化编程任务中。这一进展标志着开源模型在实用化方面迈出重要一步。AI模型开源/仓库推理模型编程助手智能体MCP/工具推荐理由:做智能体编码的开发者终于有了一个可直接使用的开源模型——Step 3.7 Flash 的可靠工具调用和多模态能力能显著提升自动化效率,建议点开博客了解具体集成方式。原文
17:13berryxia@berryxiaDon哥(Don)将一套原本价值万元的内容生成工程系统免费开源,该系统可用于高效生成各类内容。开源后,开发者可以自由安装、学习和使用,降低了内容生成技术的门槛。这一举动被视为对社区的贡献,尤其适合需要自动化内容生产的团队和个人。AI产品开源/仓库内容生成工程系统Don哥自动化推荐理由:内容生成工程系统开源解决了高成本工具的门槛问题,做内容创作或自动化生产的团队可以直接安装试用,省下万元成本。原文
16:05marktechpost@Asif Razzaq精选JetBrains 发布了 Mellum2,一个 12B 参数的混合专家(MoE)模型,基于 Apache 2.0 开源协议。该模型在 10.6 万亿 token 上训练,专为多模型 AI 流水线中的快速专用任务优化,如代码补全、重构建议等。Mellum2 旨在平衡性能与效率,适合集成到开发工具中,提升开发者体验。其 MoE 架构使其在保持较小激活参数的同时,实现高精度输出。AI模型JetBrainsMellum2MoE代码补全开源/仓库推荐理由:JetBrains 把 MoE 模型塞进开发者工具链,做 IDE 插件或代码分析工具的团队可以直接用 Mellum2 替换通用模型,提升响应速度且不牺牲质量。原文
13:44IT之家(博客/媒体)精选72°JetBrains 于 6 月 1 日开源了 Mellum2 模型,这是其面向软件工程系统的新一代机器学习模型。相比原版 Mellum,Mellum2 从代码补全模型升级为完整的编码助手,上下文窗口从 8192 Token 扩展到 131072 Token。该模型总参数为 12B,采用稀疏混合专家框架,激活时参数量为 2.5B,在标准硬件上仍能保持较快计算。Mellum2 支持代码生成与编辑、外部工具调用、多步骤智能体工作流和长对话维持,定位在 AI 工作负载路由、低延迟 RAG 管线、复杂工作流中的子智能体以及私有本地 AI 部署。JetBrains 已开源基础版、指令版和思考版,开发者可在 Apache 2.0 许可证下使用。AI模型JetBrainsMellum2开源/仓库编程助手智能体推荐理由:JetBrains 把自家 IDE 的 AI 能力下放给社区了——做 JetBrains 插件开发或自建 AI 编程管线的团队,可以直接用 Mellum2 跑本地智能体工作流,省去自己训练和调优的麻烦。原文
12:06arXiv: Anthropic@Hiskias Dingeto, Will Leeney精选72°LLM智能体通过工具调用访问第三方服务(如Gmail、Salesforce)时,面临间接提示注入攻击的威胁,但现有基准测试覆盖不足。研究者推出AgentRedBench,包含215个跨24种企业集成的微妙授权攻击场景,覆盖9个功能家族和5种攻击类型。在8个模型(Anthropic、OpenAI、Google)上,无防护的攻击成功率(ASR)从32%(Claude Sonnet 4.6)到81%(Gemini 3 Flash)不等。同时发布AgentRedGuard防护模型,在集成多样化的对抗性工具响应内容上训练,将ASR从69.9%降至2.4%,误报率仅0.37%,显著优于所有开源基线。该工作为智能体安全提供了更真实的评估基准和有效防御方案。论文LLM智能体安全/红队测试提示注入SaaS集成开源/仓库10 个信源在谈推荐理由:做LLM智能体安全或SaaS集成开发的团队,终于有了一个能真实反映生产环境威胁的测试基准和可用的防护模型,建议直接看论文和开源代码。原文
12:05arXiv: DeepSeek@Yiming Liao, Zeno Franco, Jose Eduardo Lizarraga Mazaba, Keke Chen医疗大语言模型在临床决策支持中常出现幻觉,带来严重风险。现有基准缺乏真实临床背景,且对缓解幻觉的指导有限。Med-HEAL框架基于EHRNoteQA基准和MIMIC-IV数据,构建了幻觉数据集,通过LLM-as-a-Judge和人工审核双重标注。研究测试了自我批评和检索增强上下文学习两种策略,在五个开源模型上,自我批评策略显著提升了其中三个模型的准确性。该框架提供了可复用的数据集和实用方法,有助于医疗AI的安全部署。论文医疗LLM幻觉缓解上下文学习EHR开源/仓库推荐理由:医疗AI的幻觉问题直接关系到患者安全,Med-HEAL给出了可落地的缓解方案——做临床NLP或医疗AI部署的团队,可以直接用其公开数据集和代码来评估和优化自己的模型。原文
12:04arXiv cs.AI@Deokhyung Kang, Hyounghun Kim, Gary Geunbae Lee推理语言模型在复杂推理任务上表现优异,但在非英语输入上仍存在多语言推理差距,主要原因是语言理解失败。英语翻译可以缓解这一问题,但并非所有输入都需要翻译。为此,研究者提出 Luar(语言理解边界感知强化学习框架),训练模型在直接理解不可靠时选择性调用翻译。在多项多语言推理基准测试中,Luar 优于标准 GRPO 等方法,尤其在低资源语言上提升显著。该框架能避免不必要的翻译,并泛化到未见过的低资源语言。项目代码已开源。论文推理模型多语言强化学习翻译开源/仓库推荐理由:多语言推理场景下,翻译不是越多越好——Luar 教会模型在「不懂的时候才翻」,做多语言 NLP 或低资源语言应用的团队可以直接用这个框架来提升推理效率。原文
12:03arXiv cs.AI@Wenhao Wang, Peizhi Niu, Gongyi Zou, Xiyuan Yang, Jingxing Wang, Haoting Shi, Yaxin Du, Jingyi Chai, Xianghe Pang, Shuo Tang, Yanfeng Wang, Siheng Chen精选72°MCP-Persona 是首个专门评估 LLM 智能体在真实个人化 MCP 工具上表现的基准。它覆盖了 Reddit、小红书、飞书、Slack 等主流社交和协作平台,测试智能体与个人账户和本地数据库交互的能力。实验发现,当前最先进的智能体在处理个人化工具时表现挣扎,凸显了该基准在识别和解决这些局限性的关键作用。该基准已开源,可供开发者直接使用。论文MCP/工具智能体基准测试个人应用开源/仓库2 个信源在谈推荐理由:MCP-Persona 填补了现有基准忽视个人化工具交互的空白,做智能体开发和 MCP 工具集成的团队可以直接用它来测试和优化自己的模型。原文
11:10arXiv cs.AI@Ekaterina Alimaskina, Darya Rudas, Denis Shveykin, Gleb Molodtsov, Pavel Vasiliev, Aleksandr Beznosikov精选72°该研究揭示了大型推理模型在极端低比特(2-bit)量化推理时,并非单纯降低答案准确率,而是产生更长的推理轨迹,包括重复循环、预算耗尽、延迟决策和未闭合推理段,导致端到端速度不升反降。作者针对 Qwen3-8B 和 Qwen3-32B 模型,提出了两种轻量级控制方法:FP16 规划(为 2-bit 模型提供短的高精度大纲)和循环救援(检测重复轨迹并回退或提前提交答案)。在 MATH-500 上,循环救援将 Qwen3-8B 准确率从 17.2% 提升至 74.2%,规划加循环救援将 Qwen3-32B 从 65.0% 提升至 87.2%。研究表明,将低比特推理失败视为可控生成病理,通过轻量检测和选择性 FP16 支持,2-bit 推理可以恢复准确率并保持真实端到端加速。代码已开源。论文推理模型量化/低比特Qwen3失败模式开源/仓库推荐理由:做推理模型量化和部署的团队终于有了针对 2-bit 失败模式的系统解法——不是简单降精度,而是用 FP16 规划和循环救援来修复生成过程,Qwen3 用户可以直接复现并提升准确率。原文
11:07arXiv cs.AI@Lukas Johanns, Marilin Moor, Davide Panzeri, Yu Zhou, Xinyi Chen, Nora F. K. Pauly, Zixuan Pan, Matthias Gunzer, Andreas Müller, Yiyu Shi, Hedi Peterson, Jianxu Chen精选Agentic-J 是一个容器化的多智能体AI助手,专为ImageJ/Fiji设计,使生物学家能用自然语言指定分析任务,如细胞核分割、细胞追踪和多条件量化。该智能体生成可执行的脚本并组织成有文档的项目结构,确保每个分析决策可追溯,工作流可复现或共享。其专门子智能体负责插件管理、代码生成、调试、质量保证和统计报告。论文展示了系统设计、真实生物显微镜图像分析工作流及技术实现细节。论文生物图像分析ImageJ/Fiji多智能体自然语言处理开源/仓库推荐理由:生物图像分析研究者终于有了一个能理解自然语言并自动生成可复现工作流的工具——Agentic-J 解决了跨工具集成和编程门槛的痛点,做细胞生物学或显微镜分析的团队值得一试。原文
10:52Jerry Liu@jerryjliu0LlamaIndex 创始人 Jerry Liu 宣布 Liteparse 完成重大升级,成为目前最快的 PDF 解析器。新版用 Rust 重写了整个库,并适配为 Python 和 Node 原生包,支持 50 多种文档类型。除了提取文本,Liteparse 还能输出边界框,让编码代理可以精确追溯源文档。团队正在开发 Markdown 支持,并鼓励用户提交 issue 和 PR。AI产品PDF解析Rust开源/仓库LlamaIndexAI代理2 个信源在谈推荐理由:做文档解析或 AI 代理的开发者终于有了一个又快又准的开源选择——Liteparse 的边界框输出让审计追踪变得简单,值得直接试。原文
10:45NVIDIA AI@NVIDIAAINVIDIA 在 Hugging Face 上开源仓库总数突破 1000 个(含 820 个模型、249 个数据集和 57 个 Spaces),粉丝接近 60,000。其 LocateAnything 模型成为 Hugging Face 当前第一热门模型,PiD 排名第五。NVIDIA 宣布采用 Linux 基金会的 OpenMDW 框架,并发布了 Cosmos 3(物理 AI 全模态世界模型)和 Alphamayo 2 Super(自动驾驶开源模型)。此外,Nemotron 3 即将发布,Nemotron 4 也在研发中。Hugging Face CEO Clement Delangue 称 NVIDIA 为“美国开源 AI 之王”,肯定了其对生态的贡献。行业NVIDIA开源/仓库Hugging Face物理 AI自动驾驶10 个信源在谈推荐理由:NVIDIA 在 Hugging Face 上开源仓库破千,模型霸榜,做 AI 开发或模型选型的团队值得关注——这代表开源生态里又多了一个强力玩家,可以直接拿来用的资源又多了。原文
10:19LangChain@LangChainAILangChain 将于 6 月 17 日在慕尼黑举办技术圆桌会议,由 Steffen Hausmann 主持,聚焦生产级智能体、智能体框架以及开源 Deep Agents SDK。活动旨在探讨如何构建可靠、可扩展的智能体应用,并分享实际落地经验。参与者将有机会与专家深入交流,了解最新工具和最佳实践。注册链接已开放。行业智能体LangChainDeep Agents SDK开源/仓库技术活动推荐理由:做智能体应用落地的开发者别错过——LangChain 团队亲自拆解生产级智能体架构和开源 Deep Agents SDK,现场还能直接交流踩坑经验,建议在慕尼黑或附近的朋友报名。原文
10:13Guillermo Rauch@rauchgVercel CEO 分享了一个全栈智能体应用 Caltext 的示例,这是一个在 iMessage 中追踪卡路里的开源工具。它利用 GPT-4.1 vision 识别食物图片,结合 USDA 数据库自动计算卡路里。技术栈包括 Bun、Turborepo、Hono、Chat SDK、AI SDK 和 Upstash Redis。该项目展示了如何用现代工具链快速构建实用 AI 应用,是学习全栈智能体开发的优质材料。AI产品智能体全栈开发开源/仓库GPT-4.1Vercel推荐理由:想学全栈智能体开发的人可以直接看这个真实项目——从消息界面到 AI 视觉识别再到数据库,一条龙展示,比看教程更直观。原文
09:55LangChain@LangChainAI精选LangChain 发布了 Managed Deep Agents,该工具保留了开发者熟悉的项目结构(AGENTS.md、skills/、subagents/ 和 tools.json),同时引入了 Context Hub 功能。Context Hub 为智能体提供了一个托管环境,使其能够在不同会话间保留和更新上下文,从而让智能体的定义随时间演进。这解决了智能体长期运行中上下文丢失的问题,提升了开发效率和智能体的连续性。AI产品LangChain智能体上下文管理开源/仓库开发工具推荐理由:LangChain 的 Managed Deep Agents 解决了智能体跨会话上下文丢失的痛点,做多轮对话或长期任务编排的开发者可以直接用上,保持项目结构不变,上手成本低。原文
09:51Julien Chaumond@julien_c精选阿里巴巴 Qwen 团队发布 Qwen3.7-Plus,一个多模态智能体模型,统一了视觉和语言能力。该模型支持多模态交互式混合智能体,可同时处理 GUI 和 CLI 操作,具备视觉感知、推理、定位和搜索增强问答能力。它还能作为全能编码助手和生产力工具,接受全模态输入。Qwen3.7-Plus 现已通过阿里云模型服务 API 提供,开发者可直接尝试。AI模型Qwen多模态智能体开源/仓库阿里云推荐理由:多模态智能体模型将视觉与语言统一,做自动化操作和智能体开发的团队可以直接用 API 试,省去自己拼接多模型的工作。原文
09:41arXiv cs.AI@Quinn Dougherty, Max von Hippel, Hazel Shackleton, Mike DoddsFVSpec 是一个新基准,用于评估 AI 模型和智能体在真实软件形式验证任务上的能力。研究团队从真实 Python 仓库中抓取 11,039 个属性测试(PBT),并自动将其中 2,772 个(25%)翻译成 9,415 个 Lean 4 规范(含占位符)。翻译过程需模拟 Python 语义、推断逻辑属性并处理依赖类型编程的复杂性。团队设计了一个三智能体 LLM 流水线完成翻译,并提供了多种自动化与基于模型的证明生成基线。所有代码和数据已开源,旨在推动 AI 辅助真实软件形式验证这一未充分探索的领域。论文形式验证Lean 4属性测试AI 基准开源/仓库推荐理由:形式验证是 AI 生成代码质量保障的关键,做 AI 安全或软件验证的开发者可以直接用这个基准测试自己的模型,看看能否补全 Lean 证明。原文
09:40arXiv cs.AI@An Vuong, Minh-Hao Van, Chen Zhao, Xintao Wu该研究提出了一种多模态学习方法,用于预测堆叠双层二维材料的性质。双层材料堆叠是探索新型功能材料和固有现象的关键,但AI在此领域的应用尚不充分。该方法通过整合不同材料界面的多模态信息,预测垂直集成下的新性质。实验表明,该方法在效率和准确性上优于基线方法。代码已开源,可复现。论文材料科学多模态学习双层材料性质预测开源/仓库推荐理由:做材料科学AI研究的团队值得关注——它解决了双层材料堆叠性质预测的空白,开源代码可以直接复现和扩展。原文
09:39arXiv cs.AI@Sicheng Yang, Shulan Ruan, Shiwei Wu, Yu Liu, Lu Fan, Zhi Li, You He72°PolySpeech-100 是一个大规模语音理解基准,覆盖 110 种语言变体,包括 19 种中文方言和 80 多种低资源语言。它采用混合构建流程,结合人工录音和指令驱动合成语音,解决了现有基准偏重高资源语言、仅关注 ASR 而非语义推理、忽视方言的问题。评估 22 个模型(如 Gemini-3、GPT-Audio、Qwen2.5-Omni)后发现:开源端到端模型在重方言上优于级联系统,但低资源语言上性能严重下降;链式思维提示在零样本设置下反而降低大多数模型的语音理解能力。该基准为下一代包容性语音大模型建立了严格标准,数据和代码已开源。论文语音理解基准测试多语言/方言端到端模型开源/仓库推荐理由:语音理解基准终于覆盖了方言和低资源语言,做多语言语音模型或方言应用的团队可以直接用这个基准来评估自己的模型,避免只测英语的偏科问题。原文
01:50Hugging Face@huggingfaceHugging Face CEO Clement Delangue 发推称赞 Nvidia 是“美国开源 AI 之王”,并列举其近期成就:在 Hugging Face 上累计超过 1000 个公开仓库(820 个模型、249 个数据集、57 个 Spaces),粉丝近 6 万;当前 HF 热门模型榜上,LocateAnything 排名第一,PiD 排名第五;宣布采用 Linux 基金会 OpenMDW 框架;发布了 Cosmos 3(物理 AI 全模态世界模型)、Alphamayo 2 Super(自动驾驶开源模型),并预告 Nemotron 3 和 Nemotron 4 即将发布。这些动作表明 Nvidia 正加速从硬件巨头向开源 AI 生态核心贡献者转型。行业Nvidia开源/仓库Hugging Face自动驾驶物理 AI10 个信源在谈推荐理由:Nvidia 在开源 AI 上的投入已经形成规模效应——1000 个仓库覆盖模型、数据集、工具链,做 AI 研究或工程落地的团队值得关注其最新模型和框架,尤其是自动驾驶和物理 AI 方向的开放成果。原文
00:56marktechpost@Michal Sutter精选Memory OS 是一个基于 Hermes Agent 的开源项目,通过六层记忆架构、门控检索和 Wiki 功能,为智能体添加本地持久记忆。该项目解决了智能体缺乏长期记忆的痛点,使 AI 能跨会话保持上下文。六层结构包括工作记忆、情景记忆、语义记忆等,支持高效检索和更新。开发者可直接集成,提升智能体的连续性和个性化能力。AI产品智能体开源/仓库记忆系统Hermes Agent本地持久化推荐理由:做智能体开发的团队终于有了开箱即用的记忆方案——Memory OS 的六层架构解决了长期记忆缺失的痛点,建议做对话系统或个性化助手的开发者直接集成试试。原文
00:33Hugging Face: Blog(博客/媒体)精选72°JetBrains 发布了 Mellum2,一个 12B 参数的混合专家(MoE)模型,专为代码生成和软件工程任务优化。该模型在 HumanEval 和 SWE-bench 等基准测试中表现优异,超越了同等规模的模型。Mellum2 基于 JetBrains 的代码数据训练,旨在为开发者提供更高效、更准确的代码补全和生成能力。该模型现已开源,可在 Hugging Face 上获取。AI模型JetBrainsMellum2MoE代码生成开源/仓库推荐理由:JetBrains 的 Mellum2 为 IDE 内代码生成带来了更精准的 MoE 方案,用 JetBrains 全家桶的开发者可以直接在 Hugging Face 上体验,看看它能否提升你的编码效率。原文