Geek@geekbb精选58OpenAI 发布了一个官方示例项目,展示如何利用 Realtime API 构建一个能管理看板的会议助手。该项目演示了语音实时交互与任务流转的结合,为会议场景的产品原型提供了参考。开发者可以通过 GitHub 仓库获取代码和实现细节,快速上手类似应用的开发。AI产品Realtime API会议助手看板管理语音交互开源/仓库推荐理由:做会议工具或语音交互产品的开发者可以直接参考这个官方示例,快速理解 Realtime API 在任务管理场景的落地方式,建议点开仓库看看实现细节。
Geek@geekbb精选53这是一款完全在浏览器端运行的AI图片溯源工具,无需上传图片到服务器,保护隐私。它能检测主流AI模型(如Midjourney、DALL·E等)的生成签名,并展开完整的图片元数据。工具还支持水印扰动和图片格式转换,方便用户分析图片来源和真实性。对于关注AI生成内容鉴别和数字取证的开发者、记者或安全研究人员来说,这是一个实用且隐私友好的开源工具。AI产品AI图片溯源生成签名检测元数据查看水印扰动开源工具推荐理由:做AI内容鉴伪或数字取证的团队,终于有了一个不用上传图片就能溯源的工具——隐私安全且功能完整,值得直接部署试用。
Yangyi@Yangyixxxx精选63Chrome 149 即将支持 CSS shape() 函数,允许开发者用一行 CSS 让文本沿任意贝塞尔曲线绕排。此前 shape-outside 仅支持 circle、ellipse、polygon、inset 和 image 五种形状,曲线需用大量顶点近似。新特性由 @imCGQAQ 贡献,解决了文本渲染中折行自适应的痛点,尤其适合图文混排场景。该功能与 pretext 等 JS 文本引擎互补,直接在浏览器层面实现,无需额外 JS 布局代码。AI产品CSS文本绕排Chrome 149shape()前端开发推荐理由:前端开发者终于可以用原生 CSS 实现任意曲线文本绕排,告别手动顶点近似。做图文排版、创意网页的团队可以直接在 Chrome 149 上体验,省掉 JS 引擎的复杂度和性能开销。
Geek@geekbb精选58阿里巴巴发布了面向工业领域的大语言模型知识评测集 IndustryBench,包含 2049 道题目,题目来源为中国国家标准摘要和结构化工业产品记录。该评测集横跨 7 个能力维度和 10 个行业类别,旨在评估 LLM 在工业领域的知识掌握和推理能力。这是首个系统覆盖中国工业标准的评测基准,对工业智能化应用具有重要参考价值。AI模型评测基准工业领域LLM阿里国家标准推荐理由:做工业 AI 应用或评测的团队终于有了本土化的标准测试集——2049 道题覆盖 10 个行业,直接对标中国国家标准,建议做工业大模型落地的同学点开看看。
Viking@vikingmute精选58开发者 vikingmute 分享了一个解决 Codex 长上下文响应变慢的技巧:使用 handoff 技能将当前对话压缩成一份 handoff 文件,然后新开 session 继续任务。他发现 Codex 在上下文变长时返回速度明显下降,而 handoff 能避免自动压缩带来的性能损失,在任务进行到 70%-80% 时使用效果最佳。该技巧与 Codex 最新的 /goal 模式原理相似,适合处理长任务。AI产品Codexhandoff长上下文性能优化编程助手推荐理由:Codex 重度用户终于有了应对长上下文卡顿的实战技巧——handoff 压缩对话再开新 session,比硬扛自动压缩快很多,做复杂自动化任务的开发者可以直接抄作业。
Geek@geekbb精选73xAI 用 Rust 重写了 X 平台的推荐算法并开源,项目名为 x-algo。系统将推荐流程分为两层:in-network 通过 Thunder 内存存储实时获取关注账号的帖子,out-of-network 通过 Phoenix 双塔模型检索全局语料。排序阶段使用基于 Grok-1 移植的 Transformer 模型,预测用户点赞、回复、转发、点击等多类行为概率,加权计算最终得分。这一开源举措让开发者可以直接研究 X 的推荐机制,并可能推动推荐系统的透明化。AI产品推荐算法开源/仓库RustGrok-1Transformer推荐理由:推荐系统从业者终于能直接看 X 的算法源码了,Rust 实现和 Grok-1 模型移植都是硬核干货,做推荐或社交产品的团队值得深入分析。
Fireworks AI@FireworksAI_HQ精选58Fireworks 宣布其训练平台进一步扩展,即日起通过 Training API 支持 GLM 5.1 的 LoRA RL(强化学习),包括 SFT、DPO 和完整 RL 训练,上下文窗口达 200K。用户可使用自定义损失函数或智能默认设置,无使用上限,无需积分兑换,训练后的模型归用户所有并可用于推理。同时,从 6 月 15 日起,付费 Claude 计划用户可获得每月专用积分,用于 Claude Agent SDK、claude -p、Claude Code GitHub Actions 及基于 Agent SDK 的第三方应用。AI产品FireworksGLM 5.1LoRA RL训练平台Claude推荐理由:Fireworks 让 GLM 5.1 的强化学习训练变得简单且无上限,做模型微调或 RL 研究的团队可以直接上手,不用操心配额和积分。
elvis@omarsar0精选63一篇立场论文提出,智能体 AI 系统(而非更大的基础模型)是通往 AGI 最可行的路径。作者将“智能体”的贡献形式化为多个可分离的维度:记忆、推理、工具使用、自我改进和对齐。每个维度都有其独特的瓶颈(如长程连贯性、信用分配、安全审计),而这些瓶颈无法通过增加预训练算力来解决。论文认为,单纯扩大模型规模不足以克服这些挑战,智能体架构才是关键。论文智能体AGI推理模型对齐论文推荐理由:这篇论文为智能体 AI 的路线图提供了清晰的理论框架,做 AGI 研究或智能体开发的团队值得一读,能帮你理解为什么堆算力不是万能药。
lmarena.ai@lmarena_ai精选58Arena 研究人员 Guanglei Song 和 I-Hung Hsu 在视频中详细介绍了 Arena 分类排行榜背后的数据管道:从 Databricks 和 Spark 作业到可插拔标签框架,调用 LLM 对文本、图像、前端编码等领域的每次评估进行分类。这个元数据层让 Arena 数据超越排行榜排名,对研究更有用。视频还涵盖了动态并发控制处理不稳定的 LLM API、无需重建系统即可添加新标签器、以及成本控制策略(过滤、幂等性和模型选择)。AI产品Arena数据管道LLM 评估标签系统Databricks推荐理由:Arena 的数据管道设计解决了大规模 AI 评估元数据管理的痛点,做评测平台或数据管线的团队可以直接借鉴其可插拔标签框架和成本控制思路。
宝玉@dotey精选47博主dotey分享了利用AI或Agent制作字幕SRT的经验,强调断句和拼写纠错是关键。英文断句简单,通过标点即可切分;中文断句更复杂,因为Whisper生成的中文语音没有标点,且“word”是多个汉字。需要借助大模型断句加标点,再重新对齐时间戳拆分。对于长访谈,需分块处理,避免切分在句子中间。推荐Mac用户使用WhisperKit,支持单词级时间戳和说话人识别。技巧字幕SRT断句WhisperWhisperKitAI工具推荐理由:做字幕或视频处理的开发者,用AI断句和纠错能大幅提升效率,中文断句的坑和解决方案都讲清楚了,值得实操参考。
宝玉@dotey精选37本文清晰区分了上下文(Context)和上下文窗口(Context Window)两个易混概念。上下文是 AI Agent 实际拥有的所有信息,包括系统提示、对话历史、检索文档等,是动态可管理的;上下文窗口是模型单次推理能处理的最大 token 数,是硬性容量限制。文章用厨房操作台和食材的比喻帮助理解,并指出 Agent 开发的核心挑战在于如何在有限的窗口内塞入最有价值的上下文。最后强调了 Context Engineering 的重要性。技巧上下文上下文窗口Agent开发Context Engineering概念辨析推荐理由:做 Agent 开发的团队经常被这两个概念搞混,本文用一个厨房比喻就讲清楚了,还点出了 Context Engineering 的实战价值——看完能帮你少踩坑,建议收藏。
AI SDK@aisdk精选58AI SDK 7 正式版(GA)发布,引入了新的遥测系统,为合作伙伴提供统一的集成点。该系统可追踪 AI SDK 调用、工具使用、智能体步骤、流式处理、用量和错误等关键指标。这意味着开发者可以更轻松地监控和优化 AI 应用性能,同时合作伙伴能更高效地集成自己的服务。该更新对使用 AI SDK 构建复杂 AI 应用的团队尤为重要。AI产品AI SDK遥测系统合作伙伴集成开发者工具监控推荐理由:AI SDK 7 的遥测系统解决了 AI 应用监控碎片化的问题,做 AI 应用开发或运维的团队可以直接用起来,提升调试和优化效率。
Julien Chaumond@julien_c精选58开发者 julien_c 在周五项目中重写了 midudev 的 canirun-ai 硬件检测模块。重写保留了原有的启发式算法、着色器和规格表,但引入了描述性命名和 JSDoc 注释,大幅提升了代码可读性和可维护性。该项目旨在帮助用户检测设备是否能运行 AI 模型,对前端和 AI 开发者有参考价值。AI产品硬件检测开源/仓库代码可读性canirun-ai前端开发推荐理由:做 AI 工具或硬件检测的开发者,这个模块的重写思路值得参考——用描述性命名和 JSDoc 让复杂逻辑更易维护,建议直接看源码。
AI Engineer@aiDotEngineer精选73开源模型 GLM 5.1 在 Artificial Analysis 智能指数上超越闭源模型,差距持续缩小。权重开放意味着可以在不离开基础设施的情况下进行量化、微调和边缘部署。Hugging Face 生态已为智能体工作构建:推理提供商支持工具路由、按 SWE bench 分数过滤的基准数据集、存储智能体会话的追踪仓库类型,以及可插入编码智能体的技能。现场演示中,Claude Code 被要求微调一个视觉语言模型,智能体自动计算 VRAM 需求、选择实例并启动任务,将过去需要一天的手工计算变为一个提示。AI模型GLM 5.1开源模型智能体Hugging Face微调推荐理由:开源模型首次在权威指数上超越闭源模型,做模型部署和微调的团队可以直接利用权重优势,而 Hugging Face 的智能体生态让训练任务自动化成为现实——建议点开看 Claude Code 如何一键微调模型。
AI Engineer@aiDotEngineer精选63Magnus Carlsen 的象棋应用需要解释走棋原因,而不仅仅是评估局面。由于 LLM 在推理棋局时容易产生幻觉,团队将工作拆分:Stockfish 负责评估,检测器提取战术概念,LLM 仅负责翻译成自然语言。整个流程在 Gemini Flash 上耗时不到 3 秒。用户可在应用内标记不佳的解说,反馈会通过 Slack 和 Claude Code 自动触发修复循环,甚至能在手机上合并 PR。AI产品LLM国际象棋StockfishGemini FlashClaude Code推荐理由:这个架构解决了 LLM 在专业领域推理不靠谱的痛点,做 AI 教练或需要解释复杂逻辑的开发者可以直接参考。
Milvus@milvusio精选58Milvus 团队发文解释了多向量模型在基准测试中表现优异,但在生产环境中效果不如稠密检索的原因。核心问题在于多向量模型使用精确的 MaxSim 评分(每个查询 token 与文档所有 token 比较),而生产环境只能使用近似搜索。稠密检索的近似算法(如 HNSW、IVF)成熟度高,能紧密跟踪精确结果;多向量模型的近似搜索则因压缩或聚合表示导致候选集遗漏,损失更大。实验表明,短文档和简单查询下稠密检索更优,长文档和复杂查询下多向量才值得使用。AI模型多向量检索稠密检索向量数据库Milvus近似搜索推荐理由:做向量检索的团队常遇到多向量模型部署后效果反而不如稠密检索的困惑,Milvus 这篇分析直接点出了根本原因和适用场景,建议做搜索和 RAG 的开发者仔细看看,能帮你避免选型踩坑。
Milvus@milvusio精选41在伦敦非结构化数据聚会上,Milvus 开发者关系负责人 Jiang Chen 分享了将原始对话日志转化为智能体长期记忆的方法。核心思路是让记忆以 Markdown 文件形式可读可编辑,再通过语义搜索和混合搜索让智能体根据含义检索上下文,即使不记得关键词也能找到。该工作流可通过开源项目 memsearch 实现,适合构建更智能的对话式 AI 应用。AI产品智能体长期记忆语义搜索开源/仓库Milvus推荐理由:做智能体开发的团队终于有了一个把对话记忆从黑盒变成可读可搜索的方案,建议试试 memsearch 开源项目。
Philipp Schmid@_philschmid精选67Android 16 将原生支持 MCP(模型上下文协议),允许应用通过 `@AppFunction` 注解将功能暴露为工具,供 Gemini 等智能体调用。该机制完全在设备本地运行,无需服务器或网络往返,智能体可以跨应用链式调用功能,例如在一个应用中搜索邮件,在另一个应用中添加购物清单。目前已有早期访问计划开放测试。这标志着 Android 系统级智能体能力的重大升级,开发者可以开始探索如何让应用与 AI 智能体深度协作。AI产品AndroidMCP/工具Gemini智能体跨应用操作推荐理由:Android 原生 MCP 让跨应用智能体操作不再依赖云端,做 Android 应用开发的团队可以直接接入测试,让 Gemini 帮你打通应用间的数据与功能。
向阳乔木@vista8精选58宝玉老师基于卡比的wx-cli开发了一个微信群聊总结Skill,能够自动解密本地微信数据库并生成群聊总结。该工具无需关闭SIP,使用方便。如果遇到报错,可以交给Codex或Claude Code解决。目前已在AI产品蝗虫群中成功运行,受到广泛关注。AI产品微信群聊总结wx-cliSkill自动化开源/仓库推荐理由:对于需要管理多个微信群的运营或产品团队,这个Skill能自动生成群聊总结,省去手动翻看聊天记录的时间,建议有类似需求的开发者直接试用。
Weaviate@weaviate_io精选58Weaviate 发布了名为 HFresh 的新型向量搜索索引,它通过将向量存储在磁盘上,仅在内存中保留紧凑的质心索引,大幅降低了内存需求。HFresh 将向量划分为多个小区域(postings),利用内存中的 HNSW 索引定位相关区域,再从磁盘获取数据,并采用两级旋转量化压缩。相比传统 HNSW 索引,HFresh 在十亿级向量规模下仍能保持可预测的延迟,尤其适合高维嵌入、成本敏感部署和写入密集型场景。目前 HFresh 已在 Weaviate Cloud 中提供,建议在非生产环境中测试。AI产品向量搜索HNSWHFreshWeaviate内存优化推荐理由:做向量搜索的团队终于不用为内存账单发愁了——HFresh 把 HNSW 的内存占用砍到零头,十亿级向量也能跑在更小的机器上,成本敏感或写入密集的场景尤其值得一试。
Cognition@cognition_labs精选76Cognition 团队利用 DeepWiki 工具,为 X(原 Twitter)最新算法生成了全面文档。文档揭示了算法中互动参数权重仍为私有信息,但明确指出最大化用户停留时间有助于提升帖子曝光。该文档托管在 DeepWiki 平台,而 X 算法本身已开源在 GitHub。这一举措让开发者能更深入理解平台推荐机制。AI产品X算法DeepWiki开源/仓库推荐系统文档工具推荐理由:想了解 X 推荐算法运作逻辑的开发者,可以直接通过 DeepWiki 文档快速上手,省去自行阅读源码的麻烦。
Marc Andreessen@pmarca精选67Peter Steinberger 分享了 OpenClaw 项目如何大规模使用 AI 代理(Codex)来重构软件开发流程。他们持续运行约 100 个 Codex 实例在云端,自动审查每个 PR 和 issue,修复旧问题、检测安全漏洞、去重 issue 并生成报告。还有代理能复现复杂环境、录制视频、自动创建 PR、扫描垃圾评论、验证性能基准,甚至在会议中主动启动工作。这种高度自动化让团队能以极精简的人力高效运转。AI产品AI代理Codex自动化开发开源/仓库编程助手推荐理由:这个案例展示了 AI 代理在软件开发中的极致应用——100 个 Codex 并行工作,从代码审查到会议跟进全自动化。做开源或 SaaS 的团队看完会重新思考自己的开发流程,值得点开学习。
Milvus@milvusio精选53大多数 AI 团队并非从零开始,已有对象存储、管道、日志等数据。向量搜索引入后,数据重力问题凸显。向量基础设施经历了三代演进:第一代向量数据库解决生产级低延迟语义检索;第二代向量湖将搜索靠近数据但不完整;第三代向量湖库(Vector Lakebase)结合生产级向量服务与湖原生存储及弹性计算,使在线搜索和离线 AI 数据操作基于同一数据源。Zilliz 推出的 Vector Lakebase 旨在让 AI 数据只存一次,多种方式使用。AI产品向量数据库Vector LakebaseZillizAI基础设施数据重力推荐理由:做 AI 基础设施的团队终于有了解决数据重力问题的思路——Zilliz 的 Vector Lakebase 让在线搜索和离线分析共用同一份数据,省去同步和索引过期的麻烦,值得关注。
Thomas Wolf@Thom_Wolf精选73David Louapre 发布了 physics-intern,一个专为理论物理设计的智能体框架。该框架将复杂物理问题分解并分配给多个专业智能体协同解决,包括自我纠错、推导方程、计算中间结果和重新评估最佳方法。在 CritPt 基准测试上,physics-intern 将 Gemini 3.1 Pro 的性能从 17.7% 提升至 31.4%,达到新的最优水平。这展示了多智能体协作在解决高难度科研问题上的巨大潜力。AI产品physics-intern多智能体协作理论物理CritPt基准Gemini 3.1 Pro推荐理由:理论物理研究者终于有了一个能真正帮上忙的AI工具——physics-intern通过多智能体协作将难题拆解,效果远超单一模型。做科研自动化的团队值得关注这个框架的设计思路。
Notion@NotionHQ精选41Notion 发布了 Tools 功能,允许用户为自定义 Agent 添加代码逻辑,并部署为 Worker。这些工具提供类型化 I/O、可重复运行和日志记录,比 LLM 推理更可靠且成本更低。它们可以生成资产、查询内部数据或与其他应用交互,弥补了 Notion 和 MCP 单独无法覆盖的能力。该功能旨在提升 Agent 的确定性和可组合性,适合需要自动化工作流的团队。AI产品NotionAgentMCP/工具工作流自动化开发者工具推荐理由:Notion 用户终于可以给 Agent 写代码逻辑了——比纯 LLM 推理更稳更省 token,做自动化工作流的团队建议直接试试。
Jerry Liu@jerryjliu0精选67INF 发布了两个新的开放权重模型 Infinity-Parser2-Pro (35B) 和 Infinity-Parser2-Flash (2B),在 Hugging Face 的 ParseBench 文档理解榜单上排名第一。这两个模型通过一个包含 500 万多样本的综合合成数据引擎和一种新型联合强化学习算法训练,能够同时优化文档解析、元素解析、图表解析等多个复杂任务。ParseBench 是一个专门测试真实企业文档语义理解的开放基准,涵盖表格、图表、语义格式等指标。这意味着开发者现在可以免费使用这些模型来提升文档处理能力。AI模型文档理解开放权重模型INFParseBench强化学习推荐理由:做文档解析、企业数据提取的团队可以直接用这两个模型替代商业 API,2B 的 Flash 版本适合轻量部署,35B 的 Pro 版本适合高精度场景,建议去 ParseBench 看看具体指标。
Aravind Srinivas@AravSrinivas精选58Perplexity 正在构建市场上最安全的可扩展智能体运行时沙箱。其安全设计包括:安全处理代理 API 密钥、对所有智能体访问的内容进行安全检测、加密通过连接器传递给智能体的数据、以及可靠地分离存储和计算。Perplexity Computer 默认安全,每个任务在独立的硬件隔离沙箱中运行,具有 VPC 级别的存储和计算分离。智能体通过短期代理令牌进行身份验证,而不是使用原始 API 密钥。AI产品智能体安全沙箱Perplexity代理密钥VPC隔离推荐理由:做智能体应用开发的团队终于有了一个默认安全的沙箱方案——Perplexity 把密钥管理、内容检测、数据加密和存储计算分离都做了,建议直接参考他们的设计思路。
Jerry Liu@jerryjliu0精选47LlamaIndex 联合创始人 Jerry Liu 在纽约举办线下工作坊,展示如何用 AI 自动化金融文档处理流程。Logan Markewich 构建了一套完整教程,将 VLM(视觉语言模型)文档解析与模式定义、业务逻辑整合为端到端工作流。相比传统 OCR,该方法在数据提取上更准确,大幅减少人工审核需求,并能轻松对接下游智能体应用。适合投资银行、会计团队、金融 AI 初创公司及金融科技企业处理大规模消费者/监管/公共金融文书。AI产品金融文档处理VLM/视觉语言模型LlamaIndex智能体/工作流开源/仓库推荐理由:金融团队终于有了正经的 AI 用例——VLM 解析文档比 OCR 准得多,还能直接连下游智能体,做金融自动化的建议点开教程试试。
宝玉@dotey精选73Anthropic 宣布从 6 月 15 日起,Claude 付费套餐的程序化调用(包括 Agent SDK、claude -p 命令行、Claude Code GitHub Actions 及基于 Agent SDK 的第三方工具)将拥有独立的月度 credit,与交互式聊天额度分开。Pro 套餐获 20 美元 credit,Max 20x 套餐获 200 美元 credit,按 API 价格计算,这些额度在密集 agent 循环中很快耗尽。此前 SDK 和交互式聊天共享速率限制,重度用户可跑出远超订阅费的 API 用量,新政相当于收回了这部分超额价值。Anthropic 明确建议团队跑生产级自动化应转用 API key 按量付费。第三方工具用户(如 OpenClaw、Conductor)受影响最大,credit 用完后需按 API 价支付额外用量或等待下月重置。交互式 Claude Code、Claude Cowork 及网页/桌面/手机端聊天不受影响。AI产品ClaudeAnthropic程序化调用订阅套餐API 定价推荐理由:Anthropic 这次调整直接影响了用 Claude 做自动化的团队和开发者——之前靠订阅价跑高频 agent 循环的「超额红利」被砍掉了,重度用户需要重新算账。如果你在用 Claude Code GitHub Actions、Agent SDK 或第三方 agent 工具,建议 6 月 15 日前评估自己的用量,看是切到 API 按量付费还是调整 workflow 省着用 credit。
宝玉@dotey精选58Anthropic 宣布从 6 月 15 日起,为付费 Claude 订阅用户提供独立的月度程序化调用额度,用于 Claude Agent SDK、claude -p 命令行、Claude Code GitHub Actions 及基于 Agent SDK 的第三方工具。此前这些调用与交互式聊天共享订阅速率限制,重度用户能以订阅价跑出远超 API 等价的用量。新政策下,Pro 用户每月仅获 20 美元额度,Max 20x 用户获 200 美元额度,超额部分需按 API 价格付费。这实质上是堵住了通过订阅共享实现低成本高频自动化的口子,受影响最大的是 OpenClaw、Conductor 等第三方工具用户。API key 用户和交互式 Claude Code 不受影响。AI产品ClaudeAnthropic订阅政策SDK/工具程序化调用推荐理由:Anthropic 这次调整直接砍掉了订阅用户通过 SDK 跑高频自动化的超额价值,用 OpenClaw、Conductor 等工具的团队需要重新评估成本,建议点开看看额度细节和替代方案。