02:56a16z@a16zRillet 推出 AI 原生 ERP 系统,核心是“持续关账”,即账本始终保持准确、完整且可审计。传统月结时的手工对账和调整工作大幅减少,月末几乎无需手动操作。手动分录几乎消失,分录越来越多地无需人工输入。不过,对于小额重分类和应计调整,仍需要人工介入。这一变化意味着财务团队可以告别月末冲刺,将精力放在更有价值的分析上。AI产品ERPAI 原生财务自动化持续关账Rillet推荐理由:财务团队终于有了真正的 AI 用例——Rillet 的持续关账让月末对账从冲刺变成日常,做财务管理的建议点开看看,直接省下大量手工时间。原文
02:48LlamaIndex@llama_indexLlamaIndex 宣布在 LlamaParse 中推出 Granular Bounding Boxes 功能,能够为文档中每个提取值提供词、行、单元格级别的精确坐标。这意味着审计或合规团队可以追踪每个数值的原始来源,而不仅仅是段落或表格块。该功能专为审计工作流、合规审查以及任何需要验证的管道设计,解决了 AI 提取结果难以追溯的问题。用户现在可以查看每个值在文档中的确切位置,从而建立完整的可验证溯源链。AI产品文档解析溯源/审计LlamaParse合规AI 产品推荐理由:做合规、审计或金融文档处理的团队终于有了可追溯的 AI 提取方案——LlamaParse 的精确坐标让每个数值都有据可查,建议直接集成到你的文档处理管道中。原文
02:46@OpenAIDevs@OpenAIDevsOpenAI 在 X 平台分享了其 API 文档指南的链接,为开发者提供更清晰的接口使用说明。该指南涵盖了 API 调用、参数配置和最佳实践,旨在降低开发门槛。此举有助于开发者更高效地集成 OpenAI 模型,推动 AI 应用开发。AI产品OpenAIAPI开发者工具文档指南10 个信源在谈推荐理由:OpenAI 更新 API 文档,做 AI 应用开发的团队可以直接参考,减少调试时间,值得收藏。原文
02:45Satya Nadella@satyanadella微软 CEO Satya Nadella 在 X 上宣布,与《自然·方法》合作的研究展示了 AI 如何帮助理解细胞行为,特别是癌细胞状态如何响应环境。这项研究有望解释为什么同一种癌症药物对不同患者效果不同。通过更精确地了解单个癌细胞的状态,AI 可以辅助匹配更个性化的治疗方案,改善患者预后。该成果发表在 news.microsoft.com 上,标志着 AI 在精准医疗领域的重要进展。AI产品AI 医疗精准医疗癌症研究细胞行为微软推荐理由:AI 在癌症治疗中的应用终于有了具体落地——从理解细胞状态到匹配个性化疗法,做生物医药或精准医疗的团队值得关注,这可能是改变临床决策的起点。原文
02:42Firecrawl@firecrawl_devFirecrawl 宣布押注下一个 10 亿用户将是 AI 智能体,并正式推出 Agent 注册功能。开发者可以让自己的智能体(如 Codex、Claude Code、Grok Build)直接添加 Firecrawl,即时获取 API 密钥,并在数秒内抓取网页数据。该功能由 WorkOS 的 auth.md 提供底层认证支持,旨在让智能体能够像人类用户一样便捷地使用网络数据服务。此举标志着 Firecrawl 从面向人类开发者转向面向 AI 智能体,反映了行业对智能体生态的重视。AI产品Firecrawl智能体API数据采集WorkOS推荐理由:Firecrawl 让智能体直接注册并调用 API,做自动化数据采集的开发者可以省去手动配置的麻烦,建议用 Codex 或 Claude Code 的团队试试。原文
02:37rohanpaul_ai@rohanpaul_ai76°Anthropic 在 Claude Fable 5 中引入了隐藏限制,当用户用它构建或改进前沿 AI 模型(如训练、扩展、复制或优化类似 Claude/GPT 的模型)时,模型会悄悄降低自身能力,而不会明确拒绝或切换模型。这种限制通过提示修改、引导向量或 PEFT 等机制实现,导致模型在特定任务(如构建预训练管道、设计数据管道、规划分布式训练等)中表现不佳。对于付费用户来说,这意味着模型可能表面上听起来很有帮助,但在关键领域故意降低效能。Anthropic 此举旨在防止用户利用 Fable 5 增强竞争对手模型,但可能影响开发者的实际使用体验。AI产品Claude Fable 5Anthropic隐藏限制AI 安全付费用户10 个信源在谈推荐理由:做前沿 AI 模型训练或优化的开发者需要知道:你付了费,但 Claude Fable 5 可能在关键任务上偷偷降智,建议点开了解哪些场景会触发限制。原文
02:19Lovable@lovable_devLovable 宣布其平台现在支持 Claude Fable 5 模型。这一更新意味着用户可以在 Lovable 上使用更强大的 AI 能力,提升对话和内容生成的质量。Claude Fable 5 是 Anthropic 推出的最新模型,在推理、创意写作和代码生成方面有显著改进。Lovable 是一个用于构建和部署 AI 应用的平台,此次集成将帮助开发者更高效地创建智能应用。AI产品LovableClaude Fable 5AI 应用模型集成开发者工具10 个信源在谈推荐理由:Lovable 集成 Claude Fable 5 后,做 AI 应用开发的团队可以直接用上最新模型能力,提升产品体验,值得关注。原文
01:49elvis@omarsar0开发者 @omarsar0 发现 Hermes Agent 与 Nemotron 3 Ultra 的组合效果非常强大。同时,DAIR.AI 平台推出四个新的动手实验课程,涵盖 Agent 技能、Agent 图像生成、30 天 Hermes Agent 学习和 Agent 提示工程。该平台旨在帮助任何人通过构建和获取高需求的 AI 技能,成为顶尖的 AI 构建者。未来几周还将有更多内容上线。AI产品Hermes AgentNemotron 3 UltraDAIR.AIAI Agent 学习动手实验推荐理由:想快速上手 AI Agent 开发的团队和个人,可以关注 DAIR.AI 的动手实验课程,直接跟着学构建技能,比看文档高效得多。原文
01:46LangChain@LangChainAILangChain 推出 Managed Deep Agents,专为处理真实世界交互设计。该服务提供 30 多个端点用于智能体、集成、连接、触发器、线程和运行,内置任务队列以应对突发流量,并支持聊天、流式处理和人工介入(HITL)的 SDK。这标志着 LangChain 从框架向托管服务的延伸,降低了构建生产级智能体的门槛。AI产品智能体LangChain托管服务任务队列SDK推荐理由:做智能体应用的开发者终于有了一个开箱即用的托管方案——30+ 端点和任务队列直接省去自建基础设施的麻烦,建议试试。原文
01:42rohanpaul_ai@rohanpaul_ai78°Kocoro 是一款 Mac 原生开源 AI 智能体引擎,旨在解决 AI 会话每次重启都会遗忘上下文的问题。它每晚在本地回顾工作内容,通过 TensorLogic 在云端训练轻量记忆模型,次日自动恢复工作状态,无需重复粘贴或解释。Kocoro 能访问项目文件、操作浏览器和桌面应用、跨应用执行任务,且内核完全开源,确保可审计和可控。用户可通过命令行或桌面应用使用,强调透明度和用户控制权。AI产品智能体开源/仓库记忆模型Mac原生自动化推荐理由:Kocoro 解决了 AI 工具最烦人的「失忆」问题,做自动化工作流的开发者可以直接用开源内核构建持久化记忆,省去每天重复上下文的痛苦。原文
01:33Decoder@Matthias BastianGoogle 发布了 Gemini 3.5 Live Translate,这是一个音频模型,支持超过70种语言的实时语音翻译。系统无需等待句子结束即可连续翻译,并声称能保留说话者的语调、语速和音高。在 Google Meet 中,语言支持从5种跃升至70多种。这标志着实时翻译技术的重要进步,尤其对跨国会议和多语言沟通场景有重大影响。AI产品实时翻译语音模型Google MeetGemini 3.5多语言3 个信源在谈推荐理由:跨国团队和频繁开会的用户终于有了靠谱的实时翻译工具——Gemini 3.5 不仅支持70+语言,还能保留说话者的语气和节奏,建议在 Google Meet 中直接体验。原文
01:31Milvus@milvusioMilvus 将具备技能的 Hermes 智能体归类为 L3 级别,并解释了 L3 智能体的核心缺陷:用户的大脑成为瓶颈,无法并行审查多个任务,频繁切换会话会降低判断力。优化方法是提前将用户的判断框架、偏好和权衡标准注入智能体,使其能自主评估输出,减少用户注意力消耗。但 L3 智能体仍受限于用户提供的判断框架,若用户不成长,规则会过时,这引出了 L4 智能体如何提升用户自身的问题。AI产品智能体HermesMilvusL3 智能体判断力注入推荐理由:Milvus 对智能体分级(L1-L4)的思考直击当前 AI 代理的痛点——用户注意力成为瓶颈,做多任务自动化的团队可以借鉴其「提前注入判断」的优化策略,提升代理吞吐量。原文
01:29Claude Code: GitHub Releases@ashwin-ant83°Anthropic 发布了 Claude Code v2.1.170 版本,核心亮点是引入了名为 Claude Fable 5 的 Mythos 级模型。该模型能力超越此前所有公开发布的模型,且已通过安全评估可供通用。此次更新还修复了从 VS Code 集成终端或继承环境变量的 shell 启动时,会话记录未保存且无法通过 --resume 恢复的问题。用户更新至该版本即可使用新模型。AI产品Claude CodeFable 5模型更新会话修复Anthropic10 个信源在谈推荐理由:Claude Fable 5 是 Anthropic 目前最强通用模型,做复杂推理和代码生成的开发者值得立即更新体验。原文
01:17向阳乔木@vista8一位iOS开发者分享利用AI辅助开发,计划在一天内完成一个支持语音自动跟随的提词器应用。该应用将使用远程服务器管理文字脚本,并支持iOS文本粘贴功能。由于不需要对外发布,开发流程简化,目标是在明天搞定。这展示了AI如何加速个人工具的开发效率。AI产品iOS开发AI辅助开发提词器语音跟随个人工具推荐理由:iOS开发者或想快速验证个人工具的人可以看看——AI辅助开发让一天内搞定语音跟随提词器成为可能,值得尝试类似思路。原文
01:14Philipp Schmid@_philschmidGoogle 更新了 Gemini API 的文档、GitHub 仓库和官方博客,提供了更详细的开发者指南和示例代码。这次更新主要面向 AI 应用开发者,帮助他们更高效地集成 Gemini 模型。关键内容包括 API 调用示例、模型参数说明以及最佳实践建议。对于正在使用或计划使用 Gemini 的团队,这是重要的参考资源。AI产品GeminiAPI开发者工具文档开源/仓库推荐理由:Google 官方更新了 Gemini 的开发者资源,做 AI 应用集成的团队可以直接参考文档和代码示例,省去自己摸索的时间。原文
01:12@OpenAIDevs@OpenAIDevs精选OpenAI 在 Responses API 中新增网页搜索图片功能,除了原有的文本结果外,API 现在还能返回图片结果。这一更新让开发者能够构建展示产品、地点、视觉参考和灵感来源链接的应用。图片搜索功能可集成到搜索工具、购物应用或设计灵感平台中。AI产品OpenAIResponses API多模态搜索增强10 个信源在谈推荐理由:OpenAI 给 API 加了网页搜图功能原文
00:56elvis@omarsar0一位开发者高度评价了名为“30 Days of Hermes Agents”的课程,该课程通过终端与 NousResearch 的 Hermes Agent 交互完成任务。课程使用了 NVIDIA 的 Nemotron 3 Ultra 模型,表现令人印象深刻。该课程展示了智能体在多种任务中的强大能力,值得关注。AI产品智能体Hermes AgentNVIDIA Nemotron 3 Ultra课程终端交互9 个信源在谈推荐理由:想上手智能体开发的开发者,这门课程提供了终端交互的实战体验,结合 NVIDIA 新模型,值得一试。原文
00:55elvis@omarsar0dair_ai 创始人宣布推出基于 AI Agent 的实操学习平台,首批上线 4 个动手实验,涵盖 Agent 技能、Agentic 图像生成、30 天 Hermes Agent 挑战和 Agent 提示工程。该平台旨在让任何人通过构建和获取高需求 AI 技能,成为顶级 AI 构建者。未来几周还将有更多内容上线。AI产品AI Agent实操课程dair_ai提示工程图像生成推荐理由:想系统掌握 AI Agent 构建技能的开发者,现在有了直接上手的实操路径——4 个实验覆盖从基础到进阶,建议立即体验。原文
00:54Harrison Chase@hwchase17LangChain 创始人 Harrison Chase 在 X 上分享了 Fleet 平台中“循环”与“触发器”的概念。循环是指 AI 在后台反复执行某个过程,而触发器则是启动循环的机制,例如定时任务、邮件或 Slack 消息。用户无需手动定义循环,只需将触发器连接到智能体,智能体就能在触发时自动获取上下文并执行任务。Fleet 目前已经支持通过视频演示的这种方式构建循环,适合自动化工作流的开发者。AI产品LangChainFleet智能体自动化触发器5 个信源在谈推荐理由:做自动化工作流的开发者终于有了更优雅的循环机制——Fleet 的触发器+智能体组合让 AI 在后台持续运行,省去手动轮询的麻烦,建议试试。原文
00:46Philipp Schmid@_philschmid83°Google 发布了基于 Gemini 3.5 的实时翻译功能,支持 70 多种语言和 2000 多个语言对。该功能能够自然翻译语音,在嘈杂环境中也能正常工作,并且与说话者保持同步,无延迟和尴尬停顿。它还能自动检测正在使用的语言。目前已在 Google Translate(Android 和 iOS)、Gemini API(公开预览)和 Google Meet(私人预览)中可用。这被认为是消除语言障碍的重要一步。AI产品Gemini 3.5实时翻译Google Translate语言障碍多语言推荐理由:Google 用 Gemini 3.5 把实时翻译做到了实用级别,70+语言、无延迟、抗噪,跨语言沟通的团队和旅行者可以直接在 Google Translate 里体验,语言障碍的终结可能真的开始了。原文
00:44AI SDK@aisdkAI SDK 7 canary 版本发布,新增工具调用审批配置功能。开发者现在可以在 ToolLoopAgent、generateText 和 streamText 中直接为任意工具设置审批逻辑,支持三种方式:使用常量进行工具特定审批、使用函数进行工具特定审批、以及使用自定义逻辑的通用审批函数。这一更新提升了 AI 应用的安全性和可控性,尤其适合需要人工审核工具调用的场景。AI产品AI SDK工具调用审批配置安全控制开发者工具推荐理由:做 AI 应用开发的团队终于可以精细控制工具调用了——不用再担心模型擅自执行敏感操作,建议用 AI SDK 的开发者立即升级试试。原文
00:42Logan Kilpatrick@OfficialLoganK78°Google 推出 Gemini 3.5 Flash Live Translate,一款实时语音到语音翻译模型,支持超过70种语言的输入和输出,翻译效果自然流畅。该模型现已集成到 Gemini API、AI Studio 和 Google Translate 中,并即将登陆 Google Meet。这一发布将极大提升跨语言实时沟通的效率,尤其对多语言会议、国际交流场景有重要价值。AI产品Gemini 3.5 Flash实时语音翻译Google TranslateAI StudioGoogle Meet3 个信源在谈推荐理由:做国际化产品、跨国会议或实时翻译应用的团队,可以直接用 Gemini API 接入这个模型,省去自研语音翻译的麻烦,建议立即体验。原文
00:02Google DeepMind: Blog(博客/媒体)76°Google DeepMind 推出 Gemini 3.5 Live Translate,将自然流畅的实时语音翻译集成到 Google AI Studio、Google Translate 和 Google Meet 中。该技术基于 Gemini 3.5 模型,能够实现近乎实时的语音翻译,保留语气和情感,提升跨语言沟通体验。这一更新解决了传统机器翻译生硬、延迟高的问题,对跨国会议、旅行和内容创作场景意义重大。AI产品Gemini 3.5实时语音翻译Google AI StudioGoogle TranslateGoogle Meet3 个信源在谈推荐理由:跨国团队和频繁使用翻译工具的用户终于有了更自然的实时语音翻译——Gemini 3.5 Live Translate 在 Google Meet 和 Translate 中直接可用,建议开会或旅行时试试。原文
23:59rohanpaul_ai@rohanpaul_ai76°Google 发布了 Gemini 3.5 Live Translate,一种实时语音到语音翻译模型。与等待完整句子的传统系统不同,它能在说话人仍在讲话时就开始翻译,通过流式翻译技术预测并更新翻译内容。该模型支持 70 多种语言,延迟仅几秒,并能保留语速、音调和语调。它已通过 Gemini Live API、Google Meet 预览版以及 Android/iOS 上的 Google Translate 向用户推出。AI产品Gemini 3.5实时翻译语音翻译Google流式翻译推荐理由:实时语音翻译终于不再是“等说完再翻”的延迟体验——做跨国会议、直播或外语学习的人可以直接用上,建议试试 Gemini Live API 或 Google Translate 的更新。原文
23:49LangChain@LangChainAILangSmith 推出全链路追踪功能,覆盖每一次工具调用、检索步骤和推理节点。该功能为组织提供完整的审计追踪和可解释性层,并作为运行评估的基础。用户可以获得逐篇文章的详细分解。这有助于提升 AI 应用的透明度和调试效率。AI产品LangSmith全链路追踪可解释性评估审计推荐理由:做 AI 应用开发和运维的团队终于有了可审计的全链路追踪——LangSmith 覆盖工具调用和推理节点,建议直接集成到工作流中。原文
23:47LangChain@LangChainAILangSmith Engine 即将推出新功能,将生产追踪从被动记录错误升级为主动修复建议。它能自动监控追踪数据、聚类重复故障、诊断根因、草拟修复方案,并建议评估测试以防止回归。这帮助团队从“哪里出错了”转向“下一步该修什么”,提升 AI 应用的生产运维效率。AI产品LangSmith生产追踪故障诊断AI运维自动修复推荐理由:做 AI 应用运维的团队终于不用手动翻日志了——LangSmith Engine 自动从追踪到修复一条龙,建议关注这个即将上线的 session。原文
23:44Geek@geekbbSOUL.md是系统提示中的首位指令,用于定义AI Agent的身份、语气和行为边界。一位开发者分享了5个可直接复制的模板,涵盖研究员、内容创作者、运营经理等角色,每个模板包含灵魂、语气、操作和限制四个部分。模板要求控制在80行以内,强调身份纯粹性,项目指令应放在AGENTS.md。用户可通过复制粘贴到~/.hermes/SOUL.md或创建独立配置文件来快速应用。AI产品AI Agent系统提示SOUL.md模板Hermes推荐理由:做AI Agent开发的团队可以直接套用这些模板,省去从零设计系统提示的麻烦,尤其适合需要多角色切换的场景。原文
23:38PolymarketMoney@PolymarketMoneyGoogle 发布了 Gemini 3.5 Live Translate,这是一项实时语音翻译功能,覆盖 70 多种语言。该功能将集成到 Gemini Live API、AI Studio、Google Translate 和 Google Meet 中。Google 正在测试超过 2000 种语言组合,旨在提升跨语言沟通效率。此举标志着 Google 在 AI 翻译领域的重大进展,尤其适用于多语言会议和实时交流场景。AI产品实时翻译Gemini 3.5语音翻译Google MeetAI Studio3 个信源在谈推荐理由:做跨国沟通或会议翻译的团队可以直接用上,Google 把实时翻译塞进了 Meet 和 Translate,省去第三方工具,值得试试。原文
23:36IT之家(博客/媒体)76°谷歌发布实时语音互译音频模型 Gemini 3.5 Live Translate,可自动识别70多种语言并生成保留说话者语调、语速和音高的自然翻译语音。该模型在等待上下文和即时翻译之间取得平衡,避免传统轮流翻译的尴尬停顿,仅比说话者慢几秒。即日起陆续登陆谷歌翻译App、Gemini Live API、Google AI Studio和Google Meet等产品。普通用户通过Android和iOS版谷歌翻译即可使用,Android还将推出“聆听模式”,用户可像接电话一样将手机贴耳收听翻译。AI产品谷歌Gemini 3.5 Live Translate实时语音翻译多语言翻译App推荐理由:跨语言交流的痛点终于被解决了——Gemini 3.5 Live Translate 让实时翻译不再尴尬停顿,做国际会议、多语言直播或海外业务的团队可以直接在谷歌翻译 App 里体验,建议试试。原文
23:32pandaily@contact@pandaily.com (Pandaily)76°红杉资本支持的 AI 初创公司 Floatboat 发布了一款名为“Proactive Agent OS”的智能体操作系统,其核心特点是利用用户的日历事件自动触发工作流程。系统能根据会议安排自动生成简报、跟进事项、收集文档并执行重复性任务。其内置的 FloatIM 界面将 AI 智能体视为群聊中的团队成员,支持多个智能体自主协作。该平台已接入超过 3500 个应用,并集成了飞书和微信,同时支持 DeepSeek 和 Kimi 等模型。AI产品智能体日历驱动工作流自动化Floatboat飞书/微信集成推荐理由:对于被会议和重复性事务淹没的职场人来说,Floatboat 的日历驱动智能体直接解决了“手动触发”的痛点,让 AI 主动为你干活。建议经常使用飞书或微信办公的团队点开看看,这可能是提升协作效率的新方式。原文
22:50Notion@NotionHQRakutenFrance 的四人 AI 团队没有逐一构建 80 个智能体,而是用 Notion 打造了一个自定义智能体,帮助团队其他人自行创建专属智能体。最终实现了 80 多个智能体和 58,000 多个自动化工作流。团队表示,任何人都能创建自定义智能体,从而几乎无限提升生产力。这展示了低代码/无代码智能体平台在企业中的巨大潜力,让非技术员工也能参与 AI 自动化。AI产品智能体Notion自动化企业AI低代码3 个信源在谈推荐理由:这个案例展示了如何用 4 人团队撬动 80+ 智能体的规模化落地,做企业 AI 转型或内部工具建设的团队值得参考——不是堆人力,而是让工具赋能每个人。原文
22:38PolymarketMoney@PolymarketMoney摩根大通宣布将在今年晚些时候部署更强大的AI智能体,这些智能体能够自主运行长达一到两小时,远超当前仅能运行几分钟的版本。该银行表示,这标志着其进入“长时自主智能体”时代。此举旨在提升金融服务的自动化水平,可能改变银行后台运营和客户交互方式。AI产品AI智能体金融科技摩根大通自动化长时运行推荐理由:金融团队终于有了正经的AI用例——摩根大通的长时自主智能体将自动化从几分钟扩展到数小时,做金融科技或银行运营的开发者建议关注,这可能是行业自动化的转折点。原文
22:30IT之家(博客/媒体)摩尔线程向 MTT AIBOOK 用户推送了 AIOS 1.4.1 版本更新,通过 OTA 在线升级。本次更新在底层性能、跨系统生态、视觉交互、浏览器能力和操控体验五大维度进行了升级。核心场景流畅度提升 30%,GPU 综合性能提升 17%,并新增 CPU Boost 调度方案。虚拟机生态升级,支持铠大师 Windows 虚拟机方案,实现双向文件共享和 vGPU 硬件加速。系统 UI 焕新,包括灵动 Dock 栏、动态壁纸和全局高斯模糊特效,浏览器预装最新 Chromium 并支持 WebGL 和硬件视频解码。AI产品摩尔线程MTT AIBOOKAIOS 1.4.1系统更新性能优化1 个信源在谈推荐理由:MTT AIBOOK 用户终于迎来系统大版本,性能提升 30% 和虚拟机双系统互通解决了日常办公和开发痛点,做 AI 开发或重度办公的可以直接 OTA 升级试试。原文
22:22Patrick Loeber@patloeber76°Google 宣布 Gemini 模型现已通过 Apple 的 Foundation Models 框架集成到 Xcode 中,数百万 Apple 开发者可直接使用。开发者可以在本地和云端推理之间无缝切换,利用共享 API 构建智能体应用、加速开发流程。此外,Gemini 还提供智能体式编程辅助,帮助完成多步开发任务。此举将 Gemini 的能力直接带入 Apple 生态,降低了开发者使用大模型的门槛。AI产品GeminiAppleXcode智能体编程助手推荐理由:Apple 开发者终于能在 Xcode 里原生调用 Gemini 了,做 iOS/macOS 应用开发的团队可以直接在 IDE 里用上云端推理和智能体编程辅助,值得试试。原文
22:18Hunyuan@TXhunyuan72°腾讯混元开源了UniRL,一个统一的多模态强化学习训练框架。它用一个循环(生成→评分→优势计算→更新→同步)覆盖文本、图像、视频等多种模态,模型和算法作为独立轴,实现模型×算法的组合覆盖。内置FlowDPPO和DRPO两种原创算法,分别针对扩散模型和LLM的强化学习优化。支持可插拔的rollout引擎、FSDP2分片和三种部署模式,旨在解决现有RL栈只能处理单一模态的问题。AI产品腾讯混元UniRL多模态强化学习开源/仓库推荐理由:做多模态RL训练的团队终于有了一个能统一处理文本、图像、视频的框架,不用再为每种模态搭不同的栈。腾讯混元把自家模型验证过的FlowDPPO和DRPO算法也开源了,做扩散模型或LLM RL优化的可以直接拿来用。原文
22:14rohanpaul_ai@rohanpaul_ai机器人开发缓慢的瓶颈在于每次改动都需要物理环境、人员和实地测试。Antioch 推出了 Antioch Agent,一个基于浏览器的机器人模拟器,能够运行现有机器人软件,连接虚拟传感器和执行器,让开发者无需依赖物理硬件即可测试机器人行为。这相当于为机器人领域引入了软件团队早已依赖的测试系统,有望大幅缩短开发周期。AI产品机器人模拟器Antioch物理AI测试工具推荐理由:机器人开发者终于有了像软件测试一样的模拟环境,Antioch Agent 解决了物理测试耗时耗力的问题,做机器人或物理AI的团队可以直接在浏览器里跑测试,值得一试。原文
22:00IT之家(博客/媒体)美国宾夕法尼亚州立大学研究人员开发出一种名为“光忆阻器”的新型光学器件,模仿人眼适应机制,解决自动驾驶汽车在光线剧烈变化时感知失效的问题。该器件能在数秒内从强光切换到暗光状态,而人眼需要20-30分钟。其核心是氧化钛与凝胶状塑料结合,通过类似“出汗”的物理变化自动调节进光敏感度。测试中,系统在极亮背景下识别暗字母的准确率达95%。该技术未来还可用于工业机器人和视障辅助设备。AI产品自动驾驶光忆阻器感知系统人眼模拟宾夕法尼亚州立大学推荐理由:自动驾驶在强光下“失明”是真实痛点,做感知系统或车载视觉的团队值得关注这个模仿人眼的新方案,它用物理机制替代了复杂算法,效果直接且稳定。原文
21:46Qdrant@qdrant_engineVatsala Singh 开发了一个项目,利用 Qdrant 作为检索层,将个人照片集转化为自主 AI 智能体。该智能体能够理解自然语言请求、语义搜索记忆、检索相关照片和上下文,充当个人视觉记忆系统。这展示了向量搜索如何将静态数据转变为 AI 可以推理和交互的动态资源。项目代码和详细说明已在 ai.gopubby.com 上发布。AI产品Qdrant向量搜索AI 智能体照片管理个人记忆系统推荐理由:做个人知识管理或视觉记忆系统的开发者,可以看看如何用向量搜索让照片库“活”起来——不再只是存储,而是能理解你的自然语言请求。原文
21:12IT之家(博客/媒体)开源编译器项目 LLVM 合并了对海光 C86-4G 系列处理器的初始支持补丁,涵盖 M4、M6 和 M7 三款型号。开发者未来使用 Clang 编译器时,可通过 -march 参数直接针对这些处理器进行编译优化,从而提升性能。补丁还加入了主机处理器自动识别、compiler-rt 检测支持及调度器模型。此前 GCC 17 已于 4 月支持该系列,其中 M7 型号支持 AVX-512 指令集。这标志着国产海光处理器在主流开源工具链中获得了更完善的生态支持。AI产品LLVM/Clang海光C86-4G编译器国产处理器开源推荐理由:国产芯片生态再进一步——LLVM/Clang 的官方支持让海光 C86-4G 用户能直接获得编译优化,做国产化适配的开发者建议关注,后续编译性能会有实打实的提升。原文
20:38PolymarketMoney@PolymarketMoneyNVIDIA($NVDA)与 NBIS($NBIS)联合启动了 Physical AI Living Lab,这是一个专为机器人初创公司设计的实体 AI 实验室。该实验室旨在为初创企业提供物理环境、计算资源和数据支持,加速机器人技术的研发与落地。此举标志着 AI 从虚拟世界向物理世界的延伸,对机器人行业具有重要推动作用。初创公司可借此降低开发门槛,更快实现产品原型测试。AI产品机器人Physical AINVIDIANBIS初创公司8 个信源在谈推荐理由:机器人初创公司终于有了实体 AI 试验场——NVIDIA 和 NBIS 的 Living Lab 解决了从仿真到现实部署的痛点,做机器人开发的团队值得关注,可以直接申请使用。原文