Milvus@milvusio精选58Milvus 团队发文解释了多向量模型在基准测试中表现优异,但在生产环境中效果不如稠密检索的原因。核心问题在于多向量模型使用精确的 MaxSim 评分(每个查询 token 与文档所有 token 比较),而生产环境只能使用近似搜索。稠密检索的近似算法(如 HNSW、IVF)成熟度高,能紧密跟踪精确结果;多向量模型的近似搜索则因压缩或聚合表示导致候选集遗漏,损失更大。实验表明,短文档和简单查询下稠密检索更优,长文档和复杂查询下多向量才值得使用。AI模型多向量检索稠密检索向量数据库Milvus近似搜索推荐理由:做向量检索的团队常遇到多向量模型部署后效果反而不如稠密检索的困惑,Milvus 这篇分析直接点出了根本原因和适用场景,建议做搜索和 RAG 的开发者仔细看看,能帮你避免选型踩坑。
Milvus@milvusio精选41在伦敦非结构化数据聚会上,Milvus 开发者关系负责人 Jiang Chen 分享了将原始对话日志转化为智能体长期记忆的方法。核心思路是让记忆以 Markdown 文件形式可读可编辑,再通过语义搜索和混合搜索让智能体根据含义检索上下文,即使不记得关键词也能找到。该工作流可通过开源项目 memsearch 实现,适合构建更智能的对话式 AI 应用。AI产品智能体长期记忆语义搜索开源/仓库Milvus推荐理由:做智能体开发的团队终于有了一个把对话记忆从黑盒变成可读可搜索的方案,建议试试 memsearch 开源项目。
Philipp Schmid@_philschmid精选67Android 16 将原生支持 MCP(模型上下文协议),允许应用通过 `@AppFunction` 注解将功能暴露为工具,供 Gemini 等智能体调用。该机制完全在设备本地运行,无需服务器或网络往返,智能体可以跨应用链式调用功能,例如在一个应用中搜索邮件,在另一个应用中添加购物清单。目前已有早期访问计划开放测试。这标志着 Android 系统级智能体能力的重大升级,开发者可以开始探索如何让应用与 AI 智能体深度协作。AI产品AndroidMCP/工具Gemini智能体跨应用操作推荐理由:Android 原生 MCP 让跨应用智能体操作不再依赖云端,做 Android 应用开发的团队可以直接接入测试,让 Gemini 帮你打通应用间的数据与功能。
向阳乔木@vista8精选58宝玉老师基于卡比的wx-cli开发了一个微信群聊总结Skill,能够自动解密本地微信数据库并生成群聊总结。该工具无需关闭SIP,使用方便。如果遇到报错,可以交给Codex或Claude Code解决。目前已在AI产品蝗虫群中成功运行,受到广泛关注。AI产品微信群聊总结wx-cliSkill自动化开源/仓库推荐理由:对于需要管理多个微信群的运营或产品团队,这个Skill能自动生成群聊总结,省去手动翻看聊天记录的时间,建议有类似需求的开发者直接试用。
Weaviate@weaviate_io精选58Weaviate 发布了名为 HFresh 的新型向量搜索索引,它通过将向量存储在磁盘上,仅在内存中保留紧凑的质心索引,大幅降低了内存需求。HFresh 将向量划分为多个小区域(postings),利用内存中的 HNSW 索引定位相关区域,再从磁盘获取数据,并采用两级旋转量化压缩。相比传统 HNSW 索引,HFresh 在十亿级向量规模下仍能保持可预测的延迟,尤其适合高维嵌入、成本敏感部署和写入密集型场景。目前 HFresh 已在 Weaviate Cloud 中提供,建议在非生产环境中测试。AI产品向量搜索HNSWHFreshWeaviate内存优化推荐理由:做向量搜索的团队终于不用为内存账单发愁了——HFresh 把 HNSW 的内存占用砍到零头,十亿级向量也能跑在更小的机器上,成本敏感或写入密集的场景尤其值得一试。
Cognition@cognition_labs精选76Cognition 团队利用 DeepWiki 工具,为 X(原 Twitter)最新算法生成了全面文档。文档揭示了算法中互动参数权重仍为私有信息,但明确指出最大化用户停留时间有助于提升帖子曝光。该文档托管在 DeepWiki 平台,而 X 算法本身已开源在 GitHub。这一举措让开发者能更深入理解平台推荐机制。AI产品X算法DeepWiki开源/仓库推荐系统文档工具推荐理由:想了解 X 推荐算法运作逻辑的开发者,可以直接通过 DeepWiki 文档快速上手,省去自行阅读源码的麻烦。
Marc Andreessen@pmarca精选67Peter Steinberger 分享了 OpenClaw 项目如何大规模使用 AI 代理(Codex)来重构软件开发流程。他们持续运行约 100 个 Codex 实例在云端,自动审查每个 PR 和 issue,修复旧问题、检测安全漏洞、去重 issue 并生成报告。还有代理能复现复杂环境、录制视频、自动创建 PR、扫描垃圾评论、验证性能基准,甚至在会议中主动启动工作。这种高度自动化让团队能以极精简的人力高效运转。AI产品AI代理Codex自动化开发开源/仓库编程助手推荐理由:这个案例展示了 AI 代理在软件开发中的极致应用——100 个 Codex 并行工作,从代码审查到会议跟进全自动化。做开源或 SaaS 的团队看完会重新思考自己的开发流程,值得点开学习。
Milvus@milvusio精选53大多数 AI 团队并非从零开始,已有对象存储、管道、日志等数据。向量搜索引入后,数据重力问题凸显。向量基础设施经历了三代演进:第一代向量数据库解决生产级低延迟语义检索;第二代向量湖将搜索靠近数据但不完整;第三代向量湖库(Vector Lakebase)结合生产级向量服务与湖原生存储及弹性计算,使在线搜索和离线 AI 数据操作基于同一数据源。Zilliz 推出的 Vector Lakebase 旨在让 AI 数据只存一次,多种方式使用。AI产品向量数据库Vector LakebaseZillizAI基础设施数据重力推荐理由:做 AI 基础设施的团队终于有了解决数据重力问题的思路——Zilliz 的 Vector Lakebase 让在线搜索和离线分析共用同一份数据,省去同步和索引过期的麻烦,值得关注。
Thomas Wolf@Thom_Wolf精选73David Louapre 发布了 physics-intern,一个专为理论物理设计的智能体框架。该框架将复杂物理问题分解并分配给多个专业智能体协同解决,包括自我纠错、推导方程、计算中间结果和重新评估最佳方法。在 CritPt 基准测试上,physics-intern 将 Gemini 3.1 Pro 的性能从 17.7% 提升至 31.4%,达到新的最优水平。这展示了多智能体协作在解决高难度科研问题上的巨大潜力。AI产品physics-intern多智能体协作理论物理CritPt基准Gemini 3.1 Pro推荐理由:理论物理研究者终于有了一个能真正帮上忙的AI工具——physics-intern通过多智能体协作将难题拆解,效果远超单一模型。做科研自动化的团队值得关注这个框架的设计思路。
Notion@NotionHQ精选41Notion 发布了 Tools 功能,允许用户为自定义 Agent 添加代码逻辑,并部署为 Worker。这些工具提供类型化 I/O、可重复运行和日志记录,比 LLM 推理更可靠且成本更低。它们可以生成资产、查询内部数据或与其他应用交互,弥补了 Notion 和 MCP 单独无法覆盖的能力。该功能旨在提升 Agent 的确定性和可组合性,适合需要自动化工作流的团队。AI产品NotionAgentMCP/工具工作流自动化开发者工具推荐理由:Notion 用户终于可以给 Agent 写代码逻辑了——比纯 LLM 推理更稳更省 token,做自动化工作流的团队建议直接试试。
Jerry Liu@jerryjliu0精选67INF 发布了两个新的开放权重模型 Infinity-Parser2-Pro (35B) 和 Infinity-Parser2-Flash (2B),在 Hugging Face 的 ParseBench 文档理解榜单上排名第一。这两个模型通过一个包含 500 万多样本的综合合成数据引擎和一种新型联合强化学习算法训练,能够同时优化文档解析、元素解析、图表解析等多个复杂任务。ParseBench 是一个专门测试真实企业文档语义理解的开放基准,涵盖表格、图表、语义格式等指标。这意味着开发者现在可以免费使用这些模型来提升文档处理能力。AI模型文档理解开放权重模型INFParseBench强化学习推荐理由:做文档解析、企业数据提取的团队可以直接用这两个模型替代商业 API,2B 的 Flash 版本适合轻量部署,35B 的 Pro 版本适合高精度场景,建议去 ParseBench 看看具体指标。
Aravind Srinivas@AravSrinivas精选58Perplexity 正在构建市场上最安全的可扩展智能体运行时沙箱。其安全设计包括:安全处理代理 API 密钥、对所有智能体访问的内容进行安全检测、加密通过连接器传递给智能体的数据、以及可靠地分离存储和计算。Perplexity Computer 默认安全,每个任务在独立的硬件隔离沙箱中运行,具有 VPC 级别的存储和计算分离。智能体通过短期代理令牌进行身份验证,而不是使用原始 API 密钥。AI产品智能体安全沙箱Perplexity代理密钥VPC隔离推荐理由:做智能体应用开发的团队终于有了一个默认安全的沙箱方案——Perplexity 把密钥管理、内容检测、数据加密和存储计算分离都做了,建议直接参考他们的设计思路。
Jerry Liu@jerryjliu0精选47LlamaIndex 联合创始人 Jerry Liu 在纽约举办线下工作坊,展示如何用 AI 自动化金融文档处理流程。Logan Markewich 构建了一套完整教程,将 VLM(视觉语言模型)文档解析与模式定义、业务逻辑整合为端到端工作流。相比传统 OCR,该方法在数据提取上更准确,大幅减少人工审核需求,并能轻松对接下游智能体应用。适合投资银行、会计团队、金融 AI 初创公司及金融科技企业处理大规模消费者/监管/公共金融文书。AI产品金融文档处理VLM/视觉语言模型LlamaIndex智能体/工作流开源/仓库推荐理由:金融团队终于有了正经的 AI 用例——VLM 解析文档比 OCR 准得多,还能直接连下游智能体,做金融自动化的建议点开教程试试。
宝玉@dotey精选73Anthropic 宣布从 6 月 15 日起,Claude 付费套餐的程序化调用(包括 Agent SDK、claude -p 命令行、Claude Code GitHub Actions 及基于 Agent SDK 的第三方工具)将拥有独立的月度 credit,与交互式聊天额度分开。Pro 套餐获 20 美元 credit,Max 20x 套餐获 200 美元 credit,按 API 价格计算,这些额度在密集 agent 循环中很快耗尽。此前 SDK 和交互式聊天共享速率限制,重度用户可跑出远超订阅费的 API 用量,新政相当于收回了这部分超额价值。Anthropic 明确建议团队跑生产级自动化应转用 API key 按量付费。第三方工具用户(如 OpenClaw、Conductor)受影响最大,credit 用完后需按 API 价支付额外用量或等待下月重置。交互式 Claude Code、Claude Cowork 及网页/桌面/手机端聊天不受影响。AI产品ClaudeAnthropic程序化调用订阅套餐API 定价推荐理由:Anthropic 这次调整直接影响了用 Claude 做自动化的团队和开发者——之前靠订阅价跑高频 agent 循环的「超额红利」被砍掉了,重度用户需要重新算账。如果你在用 Claude Code GitHub Actions、Agent SDK 或第三方 agent 工具,建议 6 月 15 日前评估自己的用量,看是切到 API 按量付费还是调整 workflow 省着用 credit。
宝玉@dotey精选58Anthropic 宣布从 6 月 15 日起,为付费 Claude 订阅用户提供独立的月度程序化调用额度,用于 Claude Agent SDK、claude -p 命令行、Claude Code GitHub Actions 及基于 Agent SDK 的第三方工具。此前这些调用与交互式聊天共享订阅速率限制,重度用户能以订阅价跑出远超 API 等价的用量。新政策下,Pro 用户每月仅获 20 美元额度,Max 20x 用户获 200 美元额度,超额部分需按 API 价格付费。这实质上是堵住了通过订阅共享实现低成本高频自动化的口子,受影响最大的是 OpenClaw、Conductor 等第三方工具用户。API key 用户和交互式 Claude Code 不受影响。AI产品ClaudeAnthropic订阅政策SDK/工具程序化调用推荐理由:Anthropic 这次调整直接砍掉了订阅用户通过 SDK 跑高频自动化的超额价值,用 OpenClaw、Conductor 等工具的团队需要重新评估成本,建议点开看看额度细节和替代方案。
mem0@mem0ai精选58Mem0 发布了四月算法更新,引入了单次提取和分层检索机制,显著提升了记忆提取效率并降低了全上下文 token 成本。新算法包含时间推理功能,为每条记忆赋予时间戳,记录事件发生时间、是否持续或已完成、时间精度及记忆类型。同时增加了记忆衰减机制,基于时效性进行排序,确保旧记忆不会主导当前查询结果。这些改进使检索更具时间感知能力,能准确反映信息的变化和当前有效性。AI产品记忆系统Mem0时间推理检索优化AI 产品推荐理由:做 AI 记忆系统和长期上下文管理的开发者,这个算法更新直接解决了记忆时效性和检索效率的痛点,值得关注并尝试集成。
Greg Brockman@gdb精选73OpenAI 开发者团队在 X 上分享了为 Codex 构建 Windows 沙盒的细节。核心挑战是如何让编程代理保持高效,同时避免开发者陷入频繁的审批弹窗或完全开放机器权限的两难。他们设计了一套沙盒机制,允许代码执行在受限环境中运行,既保障安全又减少用户干扰。这一方案旨在提升 Windows 上 AI 编程助手的实用性和安全性。AI产品CodexWindows 沙盒编程助手安全OpenAI推荐理由:Windows 开发者终于有了兼顾安全与效率的 AI 编程方案,做自动化脚本或使用 Codex 的团队值得了解这个沙盒设计,能直接减少审批弹窗的烦恼。
Clement Delangue@ClementDelangue精选73Datadog 发布了 Toto 2.0 系列时间序列基础模型,参数规模从 4M 到 2.5B,采用 Apache 2.0 开源协议。该系列模型在 BOOM、GIFT-Eval 和 TIME 等主流基准测试中均取得领先成绩,且每个更大规模的模型性能都优于较小的模型。这是时间序列领域首次出现清晰的缩放定律曲线,意味着研究人员可以像语言和视觉模型那样,通过增加数据和计算量来可靠地提升模型性能。2.5B 和 4M 参数的模型权重已在 Hugging Face 上开源。AI模型时间序列基础模型缩放定律开源/仓库DatadogToto 2.0推荐理由:时间序列领域终于有了可预测的缩放定律,做时序预测的团队可以像训练语言模型一样放心堆数据和算力,建议直接下载权重试试。
歸藏(guizang.ai)@op7418精选67飞书 CLI 工具在开源一个多月后 GitHub Star 数突破 10000,获得市场高度认可。该 CLI 几乎可以控制飞书所有能力,用户无需传统 UI 即可完成全部工作,大幅降低使用门槛。飞书团队迭代效率惊人,一个多月发布 32 个版本、385 个提交。CLI 设计采用三层结构:快捷命令、标准 API 和兜底 API,并内置 Dry Run、结构化输出、权限检查等对 Agent 友好的功能。这标志着传统办公产品开始拥抱 CLI 和 Agent,AI 时代的 SaaS 软件竞争将从 UI 转向 Agent 适配程度。AI产品飞书CLIAgent开源/仓库办公自动化推荐理由:飞书 CLI 解决了传统办公软件复杂难用的问题,做 Agent 或自动化流程的开发者可以直接用它替代 UI 操作,建议试试这个开源工具。
GitHub Blog@Natalie Guevara精选63GitHub 正在实验一个通用无障碍智能体,旨在帮助开发者自动检测和修复网页无障碍问题。该智能体基于 GitHub Copilot 构建,能理解 WCAG 标准并生成修复建议。实验揭示了当前 AI 在无障碍领域的潜力与局限,例如对复杂交互场景的理解不足。GitHub 分享了开发过程中的关键教训,包括需要更细粒度的测试数据和用户反馈循环。该项目展示了 AI 辅助无障碍开发的未来方向,但距离完全自动化仍有距离。AI产品GitHub Copilot无障碍智能体WCAG实验推荐理由:做无障碍开发的团队可以看看 GitHub 如何用 Copilot 自动化检测 WCAG 问题,实验中的教训对设计 AI 辅助工具有直接参考价值。
berryxia@berryxia精选73Daily Dose of Data Science 通过视觉图解清晰对比了 Transformer 和 Mixture of Experts(MoE)的核心差异。MoE 将 Transformer 中的单个前馈网络拆分为多个小专家网络,推理时仅激活部分专家,虽参数更多但计算更快。模型通过 Router(多分类器)为每个 token 选择 top-K 专家,但训练中面临“专家过选”和“负载不均”两大问题。前者通过加噪声和屏蔽非 top-K logit 解决,后者通过设置专家容量上限并自动转交 token 来平衡。Mixtral 8x7B 和 Llama 4 是典型 MoE 模型。AI模型TransformerMoE路由机制负载均衡Mixtral 8x7B推荐理由:想搞懂 MoE 为什么又快又强,这篇视觉解释把路由和负载均衡的坑讲透了,做模型训练或推理优化的开发者值得一看。
AlphaSignal@AlphaSignalAI精选73研究人员提出Embedded Language Flows方法,让扩散模型在文本生成任务上仅需传统方法十分之一的数据量即可达到更优性能。该方法全程在连续嵌入空间操作,仅在最后一步将向量转换为单词,无需单独的解码器。通过预测干净嵌入而非噪声,并在训练中应用无分类器引导,该方法在语言基准测试中困惑度更低,并在翻译和摘要任务上超越自回归模型。这一成果挑战了“连续扩散在语言领域行不通”的普遍认知。论文扩散模型文本生成连续嵌入Embedded Language FlowsNLP推荐理由:扩散模型终于能高效处理文本了,做NLP或生成式AI的团队可以关注这个新范式——数据需求降低10倍,性能反而更好,值得一试。
IT之家(博客/媒体)精选63高德宣布推出华为鸿蒙HarmonyOS首个生成式UI开源框架AGenUI,基于谷歌A2UI协议,以C++为核心,能将AI大模型生成的界面意图直接转化为鸿蒙原生组件渲染。该框架只需一套通用界面协议即可无缝适配鸿蒙手机、平板、车机、智慧屏、穿戴等多种终端设备,无需单独适配调试。性能上,鸿蒙版AGenUI相较iOS、Android端渲染性能提升20%,内存占用降低18%。目前该项目已在GitHub全面开源,面向开发者和学术界。AI产品生成式UI鸿蒙/HarmonyOS开源/仓库多终端适配AGenUI推荐理由:鸿蒙开发者终于有了原生生成式UI框架,一套协议搞定多终端适配,省去大量重复调试工作,做鸿蒙应用或AI界面的团队值得直接上手试试。
IT之家(博客/媒体)精选47烽火通信宣布成功研制 13824 芯超大芯数光缆并已量产,创下国内首款万芯级、业界最大芯数光缆双重纪录。该光缆外径仅 40mm,纤芯密度达 11 芯/mm²,可替代 48 根 288 芯光缆,节约 90% 以上管道资源。产品适配超大规模 AIDC 建设需求,满足 10 万+卡算力集群楼间互联场景。此举打破国外技术垄断,补齐国内超大芯数光缆短板,提升算力中心布线效率并降低运维成本。该产品即将在武汉光博会首次公开亮相。行业烽火通信光缆AIDC算力集群光通信推荐理由:烽火通信这款 13824 芯光缆解决了超大规模算力集群的楼间互联痛点,做数据中心基建或光通信的团队值得关注,能大幅节省管道资源并提升布线效率。
IT之家(博客/媒体)精选53联发科在天玑开发者大会上发布天玑AI智能体化引擎2.0和开发套件3.0,并公布与OPPO、小米等厂商的合作成果。针对跨端智能体协同的痛点,联发科从IP设计、软件平台和生态层三个层面推进:统一NPU架构降低迁移成本,NeuroPilot平台实现一次开发多端部署,通过大模型和统一指令集打破生态壁垒。此外,联发科还讨论了AI定义汽车、内存涨价对端侧AI的影响,以及“龙虾”框架对芯片规划的启示。行业联发科智能体跨端协同天玑AI芯片推荐理由:联发科从芯片源头打通手机、汽车、眼镜等设备的智能体协同,做跨端AI应用的开发者可以直接参考其统一架构方案,避免重复适配。
IT之家(博客/媒体)精选63三星电子正在研发下一代HBM技术,旨在提升移动设备端侧AI性能。该技术采用多层堆叠FOWLP方案,通过改进VCS铜柱结构(从3:1~5:1提升至15:1~20:1)和FOWLP补强,解决传统LPDDR带宽和散热瓶颈。理论带宽可提升15-30%,并支持更多I/O接口。业内预计该技术最快在Exynos 2800后期或Exynos 2900中集成。AI产品三星HBM端侧AI移动设备FOWLP推荐理由:端侧AI手机的性能瓶颈即将被打破,关注移动端AI落地的开发者可以提前了解三星的技术路线,看看未来手机能跑多强的模型。
shao__meng@shao__meng精选73Raycast 2.0 是自 2020 年发布以来最大的一次重写,团队从纯原生 Swift/AppKit 应用转向 TypeScript + Swift + C# + Rust + Node + React 的混合架构,以实现跨平台并保持原生质感。重写原因包括编译时间变长、AppKit 掣肘和原生工程师难招。技术选型上,他们放弃了 Electron 和 Tauri,自研了四层架构(Host App、Web Frontend、Node Backend、Rust Core),并解决了 WebView 在 macOS 和 Windows 上的渲染、节流、闪烁等问题。最终内存占用从 v1 的 200-300 MB 增至 v2 的 350-450 MB,但团队通过优化和科普帮助用户正确理解内存使用。行业Raycast跨平台桌面应用WebViewRust推荐理由:Raycast 团队把桌面应用跨平台的技术取舍和工程细节全盘托出,做桌面端或跨平台产品的开发者能从中获得大量实战经验,建议点开博客原文细读。
IT之家(博客/媒体)精选73上海交通大学赵一新教授团队在《Science》发表论文,开发了一个多智能体AI平台,用于设计高效稳定的钙钛矿太阳能电池。该平台通过四个专业智能体协同工作,实现了从文献知识整合到器件结构优化的全链条设计。实验表明,AI设计的电池在100°C高温下连续运行1000小时后,仍能保持97%的初始效率,突破了稳定性瓶颈。这一成果标志着钙钛矿太阳能电池研发从“实验试错”转向“机理驱动+智能迭代”,有望加速其产业化进程。论文钙钛矿太阳能电池多智能体AI稳定性ScienceAI4S推荐理由:钙钛矿电池的稳定性一直是产业化最大障碍,上海交大用AI设计突破了1000小时高温运行瓶颈,做光伏材料和AI4S的团队值得关注,这可能是加速产业落地的关键路径。
IT之家(博客/媒体)精选63微软明确押注 WinUI 3 以改善 Windows 11 长期被批评的卡顿、臃肿问题。通过优化 WinUI 框架,文件资源管理器启动过程中的内存分配次数减少 41%,临时内存分配减少 63%,WinUI 代码执行时间降低 25%。微软还将开始菜单从基于 React 的网页组件转向纯原生 WinUI 3 代码,并发布开源 dotnet new 项目模板,支持命令行创建原生应用。此外,微软推出 WinUI 智能体插件,可接入 GitHub Copilot、Claude Code 等 AI 助手,辅助开发者生成代码和修复错误。部分优化目前需选择加入,未来将在 WinAppSDK 3.0 或 4.0 中默认启用。AI产品WinUI 3Windows 11原生开发AI 智能体性能优化推荐理由:WinUI 3 的优化直接解决了 Win11 卡顿和内存占用高的痛点,Windows 原生应用开发者可以借此提升应用性能,建议关注新模板和 AI 插件,降低开发门槛。
arXiv: Google DeepMind@Juho Kim, Tuomas Sandholm精选58这篇论文提出了一种将反事实遗憾最小化(CFR)算法并行化的通用框架,通过将CFR重新表述为一系列线性代数运算,从而利用现有的并行线性代数技术加速。实验表明,在GPU上实现的CFR比Google DeepMind的OpenSpiel库在CPU上的实现快高达四个数量级。该框架还适用于CFR+、折扣CFR和预测变体等最先进的表格型CFR算法。这项工作填补了并行化在博弈求解领域应用的空白,有望大幅加速大型不完美信息博弈的求解。论文博弈求解并行计算GPU加速CFR算法不完美信息博弈推荐理由:博弈论和AI研究者终于有了加速CFR的实用方案——GPU并行化让求解速度提升万倍,做不完美信息博弈的团队可以直接用这个框架改造现有算法。