12:19AI Will@FinanceYF5AGI Summit SF 2026 定于2026年7月18-19日在旧金山举行,预计吸引15000名参会者、200余位演讲嘉宾、500多家VC机构和来自30多个国家的代表。参与方包括OpenAI、Anthropic、Google DeepMind和BlackRock。Day 2恰逢世界杯决赛日。行业AGI Summit SF 2026OpenAIAnthropicAI会议行业活动10 个信源在谈推荐理由:硅谷最密集的AI会议来了,OpenAI、Anthropic、DeepMind全到,7月去旧金山看看。原文
12:19AI Will@FinanceYF5AGI Summit SF 2026 确认邀请微软、Coinbase、OpenAI、Google DeepMind、a16z 系代表出席。至少涉及五家顶尖AI与科技机构,阵容覆盖大模型、加密货币和风险投资领域。未公布具体议程和日期。行业微软OpenAIGoogle DeepMinda16zAGI峰会10 个信源在谈推荐理由:今年AGI峰会嘉宾巨强,微软OpenAI谷歌DeepMind都来了,想看业界大咖聊AGI得关注这波原文
12:04Geek@geekbbOMK是一个开源代理调度台,不自己写代码,而是协调管理Codex、Claude Code、OpenCode等AI编程助手。它让这些助手像流水线工人一样并行工作,每个步骤都有日志可查。目前该项目在GitHub上开源,受到开发者关注。AI产品OMKCodexClaude CodeOpenCode编程助手推荐理由:想同时用多个AI编程助手干活?OMK帮你调度它们并行工作,每个步骤都可追踪,省心省力。原文
11:26@OpenAIDevs@OpenAIDevs精选OpenAI 的 Codex 本周推出质量更新,改进了长线程的滚动体验。现在浏览长对话时滚动更平滑,且位置在翻看过程中保持不变。该更新旨在优化用户与 Codex 交互的流畅性。AI产品CodexOpenAI产品更新对话优化10 个信源在谈推荐理由:Codex 更新了长线程滚动,浏览聊天记录更顺手,不会跳位置了。原文
11:24Character.AI@character_ai精选Character.AI 在其移动应用中推出了无限滚动功能,用户可浏览所有历史对话记录,包括数年前的聊天。该功能无需手动搜索,直接滑动即可访问任意旧对话。推特官宣帖获得超过5500次查看,显示用户对回忆旧角色的兴趣。AI产品Character.AI无限滚动历史记录移动应用推荐理由:Character.AI 手机版现在能无限滚动翻看全部历史聊天了,想找多年前跟老角色的对话可以直接滑回去看看。原文
11:19Geek@geekbb有传闻称DeepSeek官方V4 API在2024年8月上线两周后,便开始使用氮气加速技术DSpark。该说法源自社区讨论,目前官方未确认。DSpark是DeepSeek自主研发的推理加速方案,可降低延迟和成本。若属实,则V4 API在发布后快速引入了性能优化。AI产品DeepSeekV4DSpark推理加速推荐理由:听说DeepSeek V4 API悄悄用上DSpark加速了?上线才两周,这速度有点猛。原文
11:19AI产品黄叔@PMbackttfuture精选黄叔分享了flomo Agent的10点使用心得,核心是降低记录前0.5秒的摩擦。他通过微信入口和Hermes Agent,并接入flomo MCP,将Hermes长期记忆同步到flomo。同时手动触发“保存到flomo”的内容,即时使用增强功能从flomo/Hermes记忆里检索相关笔记以帮助思考。他认为DeepSeek V4和王登科推动了flomo的发展,且Agent功能少反而更可信。最后提出flomo Agent+Codex/Hermes可形成“记忆-行动”双系统。技巧flomoAgent知识管理MCP/工具Hermes推荐理由:黄叔总结了flomo Agent的10条理解,比如用微信入口降低摩擦、打通记忆和行动,还提到了DeepSeek V4的作用。想用好flomo的可以看看。原文
11:19AI产品黄叔@PMbackttfuture黄叔总结了自己重度使用flomo Agent的10点理解,核心是降低记录前0.5秒的摩擦。他认为flomo Agent对手不是Notion或Obsidian,而是微信文件传输助手。该工具通过接入flomo MCP与Hermes,将对话长期记忆同步保存到flomo,并即时触发增强功能,从记忆中提取相关笔记辅助思考。黄叔还指出,DeepSeek V4和王登科推动了flomo发展,Agent功能少反而更可信,付费理由是“一个可信的记忆容器”。技巧flomo智能体HermesMCP知识管理推荐理由:黄叔分享了10条实际使用flomo Agent的心得,比如对手是微信文件传输助手、AI洞察是卡片结构的迟到红利,挺有启发。原文
11:10Yangyi@Yangyixxxx宝玉分享 Codex/Claude Code 的实用工作流:fork 功能可从某节点创建分支,保留历史让上下文更纯粹。/btw 或 /side 命令可在当前会话中提问与主任务无关的问题,不污染上下文。上下文压缩配合 Prompt Caching 降低持续对话成本,一个 Session 内连续完成任务更可行。plan 模式中可用 /btw 请求详细解释选项含义。技巧CodexClaude Codefork/btw提示词工程推荐理由:宝玉分享了两个超实用的技巧:fork分支对话和/btw侧边提问,让Codex和Claude Code用得更顺,强烈建议试试。原文
10:58AI Will@FinanceYF583°微软CEO Satya Nadella讨论了如何构建支持2000万个AI Agent与人类员工协同工作的基础设施。该基础设施旨在使Agent能自动执行任务、访问企业数据并参与工作流。这一规模部署标志着微软在企业级Agent应用上的重大推进。Nadella强调了底层架构需具备弹性、安全性和可管理性。行业MicrosoftAgent智能体基础设施推荐理由:微软要为2000万个Agent搭基础设施,听听CEO怎么说,这是企业AI落地的实打实案例。原文
10:49Guillermo Rauch@rauchg智谱AI发布的新模型在安全漏洞发现任务中与Claude Mythos性能相当。该模型可搭配deepsec等工具进行自动化漏洞扫描。如果对手获得类似攻击能力,可能对美国公司构成严重威胁。AI模型Zhipu AIClaude Mythos安全漏洞漏洞发现推荐理由:智谱AI新模型找漏洞能力不输Claude Mythos,做安全的小伙伴快试试!原文
09:49AI Will@FinanceYF5Anuj在2026年4月从OpenAI跳槽至Meta,但仅几个月后便重返OpenAI。SemiAnalysis爆料称其可能被Meta调岗至数据标注团队,导致离职。此事引发对Meta人才流失和组织管理的质疑。行业OpenAIMetaAnuj人才流动行业动态10 个信源在谈推荐理由:OpenAI核心人员跳槽Meta后闪电回归,背后可能涉及Meta内部重组问题,值得吃瓜。原文
09:49AI Will@FinanceYF5OpenAI 的计算技术负责人在 2026 年 4 月加入 Meta,但仅几个月后便重返 OpenAI。有传闻称该负责人(Anuj)在 Meta 期间被重组至数据标注岗位,这可能成为其离开的原因。这一快速离职引发了外界对 Meta 内部管理变化的讨论。行业OpenAIMetaAnujAI人才流动10 个信源在谈推荐理由:OpenAI 一位技术高管去 Meta 只待了几个月就跑回来了,背后可能是岗位被调去做数据标注,看看行业内的人事暗流。原文
09:37AI Will@FinanceYF5一项新研究指出,规模化AI模型中观察到的“全局收敛”现象,实际上是模型宽度和深度等选择偏差造成的数学伪影。通过校准这些偏差后,全局收敛效应消失。该发现挑战了柏拉图式表征假说,提示AI模型性能提升可能存在统计幻觉。论文柏拉图式表征假说全局收敛统计幻觉AI模型缩放推荐理由:别被“全局收敛”骗了,新研究说那只是统计幻觉,跟模型宽度深度选择偏差有关。原文
09:19Gary Marcus@GaryMarcus福特硬件工程副总裁承认,公司错误地认为AI和调整后的设计需求能产出高质量产品,导致2020年以来裁员超过5000人后,今年召回汽车数量居美国车企首位。为弥补损失,福特重新雇佣、新聘或晋升了350名经验丰富的工程师。JD Power质量排名中,福特近20年来首次登顶,但仅在召回人类工程师之后。CEO Jim Farley仍坚持AI将取代美国一半白领,尽管实际案例证明AI无法替代350名工程师而不导致产品崩溃。行业福特AI替代工程师召回质量排名Klarna效应2 个信源在谈推荐理由:福特用AI替代工程师,结果质量崩了,不得不请回350人。看看现实版AI翻车案例,老板还嘴硬说AI要取代一半白领。原文
08:19@OpenAIDevs@OpenAIDevsOpenAI Codex 为长线程添加了导航栏功能。用户将鼠标悬停在行号区域(gutter)即可预览附近对话内容,点击即可直接跳转到该位置,无需滚动整个对话。该功能适用于处理超过数百轮的长对话场景,提升浏览效率。AI产品CodexOpenAI导航栏长线程10 个信源在谈推荐理由:OpenAI Codex 出了个导航栏,长对话不用再疯狂滚动,悬停预览再加一键跳转,很实用。原文
07:19Suhail@SuhailSuhail分享了在过去一周中,使用某个工具或方法快速验证新建立的训练后基础设施的经验。该方法不仅超越了简单的Hello World强化学习运行,还能帮助发现并修复rollout过程中的瓶颈。这是一个实用的快速配方,确保各组件正常运转。技巧训练基础设施强化学习rollout验证技巧推荐理由:Suhail分享了一个实用方法,能快速验证RL训练基础设施,避开常见瓶颈。原文
07:07Suhail@Suhail精选Hamish Ivison等人发布了Tmax,一个基于强化学习的开源终端智能体模型。在默认设置和65k token预算下,Tmax优于之前的开源终端使用工作。团队公开了所有训练数据、模型权重和rollouts,方便复现和进一步研究。AI模型TmaxRLterminal agent开源模型智能体推荐理由:Tmax把终端智能体的RL训练配方全开源了,65k token里就跑赢之前的工作,想自己训智能体的可以抄作业。原文
07:04GitHub@githubGitHub宣布Copilot代码审查功能现已支持AGENTS.md文件。开发者可在仓库根目录放置AGENTS.md,写入命名约定、安全规则等自定义指令。Copilot会读取该文件,使审查反馈更符合项目规范。这项改进让审查结果更具上下文感知能力,无需手动另设规则。AI产品CopilotGitHubAGENTS.md代码审查编程助手推荐理由:GitHub Copilot现在能读你项目里的AGENTS.md文件,代码审查会更懂你的命名习惯和安全规则,不用再手动调规则了。原文
05:49Marc Andreessen@pmarcaMarc Andreessen在X上援引多位AI内部人士观点,称GLM-5.2是首个匹配并经常超越美国大模型的中国AI模型。该推文获得3553次查看。另有5个点赞和1次转发。AI模型GLM-5.2智谱AI推理模型1 个信源在谈推荐理由:有AI圈内人说GLM-5.2性能已经不输美国主流模型了,而且是智谱AI做的,可以关注一下。原文
05:20Aravind Srinivas@AravSrinivas推文预测未来每家企业都会构建自身的模型-测试-沙箱-评估飞轮,并优化每瓦特token价值。核心驱动力是企业对其领域、客户和工作流拥有独特的隐性知识。该观点获得630个赞和35339次浏览。行业Perplexity企业AI模型评估飞轮token效率隐性知识推荐理由:Perplexity CEO预测企业AI的未来是定制评估飞轮和能耗优化,看看这个趋势分析原文
05:01ollama@ollama精选Ollama 宣布支持运行 Ornith 1.0 系列模型,包括 9B、31B Dense、35B MoE 和 397B MoE 四个版本。该模型在 SWE-Bench verified 上达到 82.4,Terminal-Bench 2.1 得分 77.5,多语言 SWE-Bench 得分 78.9。它基于 Gemma4 和 Qwen3.5 后训练,采用强化学习联合优化 scaffold 和解决方案。所有模型以 MIT 许可证开源,支持商业和研究用途。AI模型OllamaOrnithSWE-Bench编程助手开源模型2 个信源在谈推荐理由:Ollama 现在可以直接跑 Ornith 编程智能体了,从 9B 到 397B 都有,SWE-Bench 拿了 82.4 分,本地搞智能体编码超方便。原文
04:49OpenRouter@OpenRouterAIOpenRouter 最新洞察文章指出,四个开源权重模型(未公开具体名称)已达到能驱动真实智能体管道的水平。文章分析了为何公司在6月选择这些模型,强调它们在自主任务执行中的表现。该观察基于 OpenRouter 平台的实际使用数据。行业OpenRouter智能体开源模型推荐理由:OpenRouter 发博说四个开源模型已经能跑真实 agent 流程了,搞智能体的朋友可以看看为什么公司选它们。原文
04:31Harrison Chase@hwchase17社区成员推出3小时深度课程,系统讲解Deep Agents构建。课程覆盖任务规划模块、文件系统用于上下文管理、子代理生成机制以及长期记忆实现。适合想深入掌握Agent开发流程的学习者。技巧Deep Agents智能体任务规划上下文管理子代理推荐理由:想学Deep Agents实战吗?3小时从任务规划讲到长期记忆,社区大神亲自带,比硬啃文档快多了。原文
04:19elvis@omarsar0该推文指出,循环工程(loop engineering)本质上是提示工程(prompt engineering)与良好系统设计的结合。这条观点来自社交媒体,获得了8条评论、1次转发和21个点赞。它强调在构建AI应用时,需要把提示工程与系统架构整合,而非单独优化提示词。技巧loop engineering提示词工程系统设计推荐理由:有人一句话点醒我:循环工程其实就是提示工程搭上系统设计,做AI应用的朋友可以想想你的架构对不对。原文
03:19Suhail@Suhail用户Suhail分享了两个提示词版本:"read-quick-dont-validate"用于快速阅读论文,要求AI一步步拆解并一次性输出章节式解释;"validate-my-understanding-and-teach-me"则需提供5-10个参考链接,要求AI逐步教学并验证理解。第二个版本可耗时数周但学习更深入。两条提示词分别适用于不同学习场景。技巧提示词工程论文阅读学习技巧ChatGPT教学方法推荐理由:想用AI读论文又怕浅尝辄止?试试这两个具体写法,一个快速扫读,一个深度教学,亲测有效。原文
03:19Suhail@Suhail该指令用于自动启动并监控AI模型训练运行。它在4个节点上运行完整训练,持续记录实验文档、超参数、配置以及定期评估结果。系统还会分析训练稳定性和性能,并在训练崩溃时从最新可靠检查点恢复。整个流程大幅减少了人工监视和干预的需求。技巧训练自动化多节点训练实验记录检查点恢复推荐理由:这个指令能自动帮你记实验日志、处理崩溃恢复,省去一直盯着的麻烦。原文
03:19Suhail@Suhail博主分享了一种异步学习工作流:将博客、推文、arxiv论文等全部用特定提示词让AI生成教学版,不立刻读而是排队等待。等到有空时(乘车、睡前等)再去阅读AI生成的易读版本,并追问问题。这样比直接存链接好,因为AI能适应读者的经验水平并重写内容。作者称这种学习速度远超以往。技巧学习工作流异步学习AI教学提示词技巧阅读理解推荐理由:把想读的文章丢给AI,让它先教你一遍,等你回头读的时候效率翻倍,还能追问。原文
03:07elvis@omarsar0精选BINEVAL 将每个评估标准分解为原子的是非问题,独立回答每个输出,再聚合为校准的多维分数。在 SummEval、Topical-Chat 和 QAGS 三个基准上,它无需训练即匹配或超越了 UniEval 和 G-Eval,尤其在事实一致性上表现突出。每个问题级别的裁决都可检查,帮助诊断输出得分低的原因,并直接用于提示改进信号。论文 arxiv.org/abs/2606.27226 详细介绍了该方法。论文BINEVALLLM-as-a-Judge评估UniEvalG-Eval推荐理由:如果你用 LLM 做评估,这个方法比传统打分更透明——拆成原子问题逐一判断,还能直接帮你改进提示词。原文
02:10berryxia@berryxia一位老师通过生动的例子讲解大语言模型的原理,涵盖Transformer架构和注意力机制。适合AI初学者快速理解核心概念。技巧大语言模型教程入门推荐理由:这个老师的讲解很接地气,没基础也能听懂,推荐给想入门LLM的朋友。原文
01:49Jerry Liu@jerryjliu0Jerry Liu(LlamaIndex创始人)在推文中指出,手动构建工作流(代码、拖拽或提示)的需求正在减少,更优方式是指定目标让模型智能规划步骤。对于重复性任务,可收集带真实标签的数据集进行爬山优化,以平衡成本与准确率。他认为行业正从提示工程迈向目标和评估工程。拥有642次浏览、5个点赞。技巧Jerry LiuLlamaIndex工作流智能体提示词工程推荐理由:Jerry Liu说的这个趋势很实在:别再手动搭工作流了,直接给目标让模型自己想办法。重复任务还能录数据集优化,省心省钱。原文
01:43Jerry Liu@jerryjliu0精选73°LiteParse 由 LlamaIndex 开源,平均解析速度达每页3ms,是目前最快的文档解析工具。它在 opendataloader-bench、OlmOCR-bench 和 ParseBench 三项基准测试中准确率排名第一。支持超过50种文档格式,并能提供基本边界框供编程代理拼接。该工具已获得10k GitHub stars,适合作为各种文档解析任务的首选预处理步骤。AI产品LiteParseLlamaIndex文档解析开源工具推荐理由:LlamaIndex 发布的开源文档解析器,3ms解析一页,准确率碾压三大基准,50种格式通吃,做文档处理用它先过一遍超快。原文
01:33berryxia@berryxia76°Anthropic在2026年4月发布Fable模型,因性能过强仅限合作伙伴使用,随后美国政府要求限制非美国公民访问,导致模型数天内下线。OpenAI原定发布的GPT-5.6为避免类似禁令,被美国政府要求错开时间,仅先向可信合作伙伴开放。硅谷投资人比尔·格利指出Anthropic通过游说而非诉讼获取竞争保护,导致初创公司和开源实验室无法获取前沿模型。OpenAI研究员Noam Brown称GPT-5.6编程能力极强,但公司在博客中优先强调安全和对齐测试,而非性能。行业AnthropicOpenAIGPT-5.6FableAI监管10 个信源在谈推荐理由:这篇分析揭露了Anthropic如何通过恐惧营销推动非正式监管,导致OpenAI GPT-5.6延迟发布、Fable模型被禁,还影响开源竞争,值得一看。原文
01:33berryxia@berryxia78°苹果Vision产品组副总裁Paul Meade下周离开苹果,加入OpenAI硬件部门,他负责包括计划2026年发布的无屏幕AI眼镜和增强现实眼镜在内的所有智能眼镜开发。OpenAI正组建硬件团队,据郭明錤分析甚至计划推出配备联发科天玑9600芯片的智能手机,由立讯精密代工。另一则消息:苹果首款触控OLED MacBook将使用现有M5 Pro和M5 Max芯片,最早2027年底发布M7版本。过去一年苹果多名高管流失,但Paul Meade去向OpenAI是首次。行业Paul MeadeOpenAIApple智能眼镜MacBook10 个信源在谈推荐理由:苹果做眼镜的副总裁跑去OpenAI搞硬件了,后者还想做手机对标iPhone。得看看AI硬件怎么卷。原文
01:25宝玉@dotey精选Codex 和 Claude Code 的上下文压缩功能结合 Prompt Caching,使得在单个 Session 内持续对话的成本压力显著降低。用户可以通过 fork 功能从对话的某个位置创建分支,只保留之前的历史记录,使上下文更纯粹。/btw 或 /side 命令允许在不影响当前任务上下文的情况下提问,例如在 plan 模式下用 /btw 详细解释选项含义。VB 提到自 GPT 5.3 Codex 以来,他不再担心上下文问题,且 Codex 的支线线程功能非常出色。技巧CodexClaude CodePrompt Caching上下文压缩编程助手推荐理由:如果你用 Codex 或 Claude Code 做长任务,这个技巧能省下不少 token 费用,fork 和 /btw 命令特别实用。原文
01:25宝玉@dotey6 月 26 日,OpenAI 正式从 ChatGPT 中移除 GPT-4.5,这是 GPT-4 系列最后一个消费端模型。OpenAI 仅给了 30 天过渡期(5 月 28 日公告,6 月 26 日下线),已有对话自动切换到 GPT-5.5。API 端不受影响,开发者仍可调用 GPT-4.5。此前 GPT-4o 于今年 2 月退役,当时日活用户仅 0.1%(约 80 万人)仍在使用。下一个退役的是 o3,8 月 26 日下线,过渡期 90 天。行业GPT-4.5OpenAIChatGPT模型退役GPT-4系列10 个信源在谈推荐理由:GPT-4.5 下线了,想用它的好文风只能走 API。o3 也快走了,记得 8 月 26 日前备份。原文
01:19AI产品黄叔@PMbackttfuture一位博主分享经历:一名大三学生在完成初稿后,收稿费仍继续优化方案。学生清晰解释如何用多个Agent各自发挥特长协同完成任务。博主称赞其思路,并表示学生希望暑假来实习。技巧Agent协作案例分享实习生推荐理由:看一个大三学生怎么用多个Agent分工协作,还主动给你优化方案,这思路值得学。原文
00:56berryxia@berryxia76°Anthropic的Lamis在2026年AI DevCon上分享了上下文工程实践,从Claude MD文件起步,发现其效果出奇地好(unreasonably effective)。第二步引入记忆工具,让Agent自主读写,效果优于人类。第三步Skills采用渐进式披露,类似书架取书。第四步文件系统用bash和grep搜索,不需要向量数据库。生产环境面临多Agent并发写入等问题,Anthropic提出版本控制、并发控制等四个原则。最后介绍“做梦”机制:异步批量分析会话记录,识别模式并调整上下文,已在生产中运行,降低token成本。技巧AnthropicClaude上下文工程智能体记忆管理10 个信源在谈推荐理由:Anthropic工程师手把手教你上下文管理套路,从最基础的文件到高级的“做梦”架构,半小时就能上手实操。原文
00:56berryxia@berryxia精选Anthropic应用AI负责人Lamis在2026年AI DevCon上分享了Agent记忆系统的四层架构。起点是CLAUDE.md文件,效果超过复杂Prompt工程。第二层是记忆工具,让Agent自主读写更新,判断力比人强。第三层Skills实现渐进式披露,类似从书架抽词典。第四层把记忆建模为文件系统,用bash/grep,无需向量数据库。还引入"做梦"(带外异步处理)分析跨会话模式,已在生产中提升任务效率并降低成本。技巧Claude Code记忆管理智能体Anthropic提示词工程10 个信源在谈推荐理由:Anthropic官方分享了他们怎么让Agent记住东西:从Markdown文件到做梦机制,很实用的四层方法论,看完可以少走弯路。原文
00:49Geek@geekbb73°DeepSeek 在 Pro Max 模式下于多个编码/工程基准取得领先成绩:LiveCodeBench 93.5%、Codeforces Rating 3206、SWE Verified 80.6%,超越 GPT-5.4、Gemini 3.1 Pro、Claude Opus 4.6 等闭源模型。这些结果来自 X 用户 @geekbb 的推文,并关联到 DeepSeek 的 Hugging Face 仓库。目前该模型尚未开放本地部署,引发社区期待。AI模型DeepSeekPro Max编码基准开源模型推荐理由:DeepSeek 拿 Pro Max 模式在 LiveCodeBench 等三大编码基准上直接碾压 GPT-5.4 和 Claude Opus 4.6,分数拉满,但还没开放下载,先来围观一下。原文