09:54Gary Marcus@GaryMarcusRamez Naam在推文中警告,若前沿AI仅由少数美国公司掌控并受美国政府意志左右,将带来高反乌托邦风险。他认为应促进激烈竞争、开源模型(open weight models)以及不受白宫控制的AI发展。Gary Marcus转发了这一观点,引发对AI权力集中风险的讨论。行业Ramez NaamGary Marcus前沿AI开源模型AI治理推荐理由:Ramez Naam和Gary Marcus在聊一个严肃话题:前沿AI被少数美国公司垄断,受政府支配,有反乌托邦风险。他们呼吁开源和竞争,值得看看。原文
09:39向阳乔木@vista8一个团队展示了能实时计数乒乓球颠球数的AI系统,并认为Physical AGI需要满足三个必要条件:统一的多模态大脑(非模型拼接)、在同一个大脑中完成任意模态的理解与生成、理解与生成以流式方式持续运行。最关键的一点是该大脑必须完整运行在端侧。团队还提供了更多介绍和演示视频。AI模型Physical AGI多模态端侧模型智能体推荐理由:看看这个团队对Physical AGI的看法,他们提出了3+1个必要条件,还做了颠球计数的演示,强调端侧运行和统一多模态大脑。原文
09:27Latent.Space@latentspacepodOpenAI首席研究官Mark Chen在播客中讨论了扩展定律和预训练仍具重要性,解释了OpenAI如何选择研究方向和分配算力。他指出当前AI评估存在危机,并警告基准测试过拟合(benchmark-maxing)的问题。Chen还探讨了多模态推理、长期实际任务处理以及端到端AI研究的未来路径。他认为研究人员需要培养“研究品味”以避开无意义的优化。行业OpenAIMark Chenscaling law评估危机推理模型10 个信源在谈推荐理由:OpenAI研究老大亲口聊评估危机和扩展定律,全是干货,没有废话。原文
09:24宝玉@dotey计算机科学家刘江指出,Codex 发展趋势不仅是成为 AI 时代的 Office 套件,更可能进化为 Agent 操作系统。据观察,OpenAI 全员已从 ChatGPT 转向 Codex,涵盖研发、法务、财务和招聘等所有部门。这一迁移表明 Codex 正从单一工具向平台化演进。刘江认为 Codex 有望成为下一代计算环境的基础设施。行业CodexOpenAI智能体Agent OSAgent Office10 个信源在谈推荐理由:刘江结合 OpenAI 全员转向 Codex 的案例,分析为什么 Codex 不只是办公工具,而是未来操作系统雏形。观点犀利,适合关注 AI 基础设施和 Agent 生态的人。原文
09:03@koltregaskes@koltregaskes87°所有前沿AI模型在发布前必须经过政府评估和批准。OpenAI已同意对GPT-5.6进行分阶段发布,预览期间客户需逐个申请审批。此前外界认为5.6仅限企业使用是因为其性能大幅提升,但目前看来更可能是监管要求。行业GPT-5.6OpenAI政府监管模型审批10 个信源在谈推荐理由:以后发布顶级AI模型得先过政府这关,OpenAI的GPT-5.6就是第一个例子,预览期客户还得一个一个批。原文
09:01Gary Marcus@GaryMarcusGary Marcus在推特分析Anthropic的Q3表现,提到tokenmaxxing下降。他指出来自中国模型的进步和缺少xAI一次性补贴的影响。他预测Q3业绩将低于Q2。行业AnthropicGary MarcusxAI行业趋势10 个信源在谈推荐理由:Gary Marcus用三个因素预测Anthropic业绩,直接点出行业竞争影响。原文
08:55Fireworks AI@FireworksAI_HQ精选Fireworks 宣布对 NVIDIA Nemotron 3 的强化学习微调功能上线,首批支持 Nemotron 3 Super 的 LoRA 微调。训练采用 GRPO 算法,可在一处平台完成训练和部署。计费方式改为按 GPU 小时而非按 token,解决了长多轮对话成本不可控的问题。AI产品Nemotron 3Fireworks微调RL训练GRPO6 个信源在谈推荐理由:Fireworks 刚上线了 Nemotron 3 的 RL 微调,按 GPU 小时计费不怕长对话烧钱,用 GRPO 训练一条龙搞定。原文
08:52berryxia@berryxia美国政府 reportedly 计划亲自审批谁能使用GPT-5.6,OpenAI仅向一小部分合作伙伴提供有限预览。Commerce Secretary Lutnick亲自警告OpenAI不要擅自发布,接近事实上的许可制。Yann LeCun此前警告,以安全为由限制AI系统会阻碍智能民主化。他主张开源才是让AI普及的正确路径。当最强闭源模型被政府按客户审批时,开源模型成为对抗技术集中控制的实际路径。行业GPT-5.6OpenAI美国政府Yann LeCun开源模型监管10 个信源在谈推荐理由:美国商务部要管GPT-5.6的客户审批,开源模型成了对抗监管集中化的解法。Yann LeCun的观点值得看看。原文
08:51Viking@vikingmute精选Ornith-1.0 系列开源模型发布,专门用于 agentic coding,参数从9B Dense到397B MoE全覆盖。在 Terminal-Bench 2.1 上得分77.5,SWE-Bench verified 82.4,NL2Repo 48.2。397B MoE模型在多个基准上超过 Claude Opus 4.7。模型采用自改进训练策略,利用强化学习同时生成解决方案和 task-specific scaffold。基于 gemma4 和 qwen3.5 后训练,MIT 许可开源。AI模型Ornith-1.0gemma4qwen3.5开源模型编程助手3 个信源在谈推荐理由:Ornith-1.0 开源了从9B到397B的编程模型,在SWE-Bench等基准上超越Claude Opus 4.7,还能自己优化任务框架。原文
08:29@OpenAIDevs@OpenAIDevs73°OpenAI 宣布 Codex 在 ChatGPT 移动应用正式可用,支持一对一设备配对,让手机和电脑更安全连接。新增通知、目标、侧边聊天、文件预览和内联审阅评论功能。用户可在移动端启动作业、审查输出、引导执行和批准下一步,Codex 仍在笔记本电脑或 Mac mini 上运行。AI产品CodexChatGPTOpenAI移动应用编程助手10 个信源在谈推荐理由:OpenAI 让 Codex 在手机 App 里也能用了,能一边在电脑跑代码、一边在手机上跟进和审批,还多了侧边聊天和文件预览。原文
08:27@OpenAIDevs@OpenAIDevsDigitalOcean为OpenAI Codex发布新插件,用户只需在提示中描述需求,即可自动创建一个持久化云端开发环境。该环境运行在用户自己的DigitalOcean账户内,即使关闭浏览器或离开也保持运行状态。这解决了临时开发环境容易中断的问题,让开发者可随时继续工作。AI产品DigitalOceanCodexOpenAI云开发环境插件10 个信源在谈推荐理由:以后不用手动配环境了,在Codex里打一句话,DigitalOcean就自动给你建好远程开发机,关掉页面也不停。原文
08:25Genspark@genspark_aiGenspark团队举办直播,演示新版AgentBase的使用方法。直播包含实机操作和问答环节,视频浏览量已达938次。观众可以学习如何配置和运行AgentBase。技巧AgentBase直播教程智能体Genspark推荐理由:想玩转AgentBase?这场直播手把手教你,有问有答,别错过。原文
08:19Pika Labs@pika_labsPika Labs 发布 Seedance 2.0 Mini 视频生成模型,可通过 Pika MCP 调用。官方称其兼具低成本与高速生成特性。目前暂无具体基准测试数据。AI模型Seedance 2.0 MiniPika LabsPika MCP视频生成推荐理由:Pika 出了个新视频模型 Seedance 2.0 Mini,便宜又快,还支持 MCP 调用,做视频的朋友可以试一下。原文
08:14berryxia@berryxia76°特朗普政府要求OpenAI分阶段发布其下一代前沿模型(据报道为GPT-5.6),理由是网络安全和国家安全担忧。OpenAI CEO Sam Altman告知员工,新模型不会立即全面公开发布,而是先以有限预览形式仅开放给一小部分选定合作伙伴和企业客户。预览阶段中,美国政府将对每个客户的访问权限进行逐个审批。这一要求来自国家网络总监办公室和科技政策办公室,与今年6月初生效的行政命令有关。OpenAI表示将遵守这一自愿审查机制,强调安全与创新并行推进。行业OpenAIGPT-5.6特朗普政府AI安全监管10 个信源在谈推荐理由:特朗普政府直接插手OpenAI的GPT-5.6发布,要求分阶段和政府审批才能给客户。这不是闹着玩的,监管正在收紧。原文
08:02AI Engineer@aiDotEngineerWF2026会议公布了首批主题演讲,演讲主题包括Agentic AI Foundation的“构建系统而非代码”、Meta Superintelligence Labs的“生产级评估”、Decoding AI的“将10994条笔记转化为智能体记忆”等。Nx、OpenProse、Omnara等公司的演讲者也展示了各自在智能体系统和编码工具上的进展。全部在线演讲将于本周末陆续推出。行业WF2026智能体评估记忆递归编码推荐理由:WF2026第一批keynote全是干货:智能体构建、生产评估、记忆系统、递归编码,搞AI工程的别错过。原文
08:00Qdrant@qdrant_engineQdrant联合Kaivid Labs创始工程师Tarun演示如何构建完全离线的RAG系统,使用Qdrant EDGE进行轻量级设备端向量搜索,搭配Google LiteRT通过硬件加速运行语言模型,实现文档问答、个人助理和笔记搜索,无需任何云依赖。活动时间为7月7日,包含现场实操。技巧Qdrant EDGEGoogle LiteRTRAG本地推理向量搜索推荐理由:教你用Qdrant EDGE和Google LiteRT搭一个完全离线的RAG系统,文档问答、个人助理全在本地跑,再也不用担心隐私和联网了。原文
07:57andrew chen@andrewchen该推文提出当前 AI 模型供应链的六个环节:AI 研究人员→美国 AI 实验室→蒸馏版中国模型→旧金山初创公司→专业消费者→职场普通用户→财富 500 强采购。其中“蒸馏版中国模型”指通过蒸馏技术复制美国模型的低成本替代方案,“旧金山初创公司”利用这些模型开发应用。这一链条反映了 AI 技术从研发到终端部署的现实流动路径。行业AI模型供应链蒸馏模型OpenAI旧金山初创财富500强10 个信源在谈推荐理由:Andrew Chen 的一句话把 AI 产业链串起来了,看看你处在哪个环节。原文
07:56Greg Brockman@gdb精选OpenAI Developers宣布Codex新增DigitalOcean插件。用户可通过一条提示词创建持久化云开发环境。该环境运行在用户DigitalOcean账户中,离开后仍持续可用。AI产品CodexOpenAIDigitalOcean云开发环境编程助手10 个信源在谈推荐理由:Codex现在可以一键连DigitalOcean了,一条命令启动云环境,关了电脑也不掉线,对开发者太方便了。原文
07:54elvis@omarsar0精选71°Meta 的研究提出了 AutoData 框架,将 AI agent 作为数据科学家自动构建训练和评估数据。其实现 Agentic Self-Instruct 扩展了经典 Self-Instruct,增加了 agent 规划和工具使用。在计算机科学、法律推理和数学对象推理等任务上,AutoData 超越了传统合成数据方法。通过元优化训练数据生成 agent,还能获得更大性能提升。AI模型MetaAutoDataAgentic Self-Instruct合成数据AI agent1 个信源在谈推荐理由:Meta 搞了个 AutoData,让 AI agent 当数据科学家自动造训练数据,比自己写死的流水线强不少,在多个推理任务上效果更好。原文
06:57宝玉@dotey88°OpenAI的GPT-5.6因联邦政府要求将以“有限预览”方式发布,仅面向一小部分合作伙伴。政府将逐个客户审批访问权限,这种发布方式在AI行业无先例。Anthropic曾因不配合导致模型被下架,OpenAI的配合更多出于避免类似代价。该机制可能导致公司内部能力与公众可用能力差距扩大。GPT-5.6传闻上下文窗口从100万token扩展到150万,并改进代码能力和多步骤agent任务,但发布时间取决于政府审批节奏。行业GPT-5.6OpenAIAI安全政府审批10 个信源在谈推荐理由:OpenAI的GPT-5.6被政府要求逐个客户审批才能用,这种发布方式前所未有,比Anthropic更受控,直接关系到你何时能用上。原文
06:56Notion@NotionHQNotion宣布为Figma agent引入MCP连接器,该连接器允许用户通过Notion与Figma agent进行交互。MCP连接器旨在简化跨工具工作流。当前推文显示29次点赞和4955次浏览。AI产品NotionFigmaFigma AgentMCP连接器7 个信源在谈推荐理由:Notion给Figma agent加了个MCP连接器,以后在Notion里直接控制Figma更方便了。原文
06:54Gary Marcus@GaryMarcus美国副国务卿Jacob S. Helberg宣布35个国家签署《AI机会联合声明》,承诺采用促进增长和创新的监管方式,而非限制性措施。声明强调建立可信供应链、动员私营部门,并投资能源、计算、芯片和人才等基础设施。Helberg指出,AI的未来由建设者决定,而非监管先行者,与近期美国政府第二次延迟模型发布的决策形成对比。行业AI监管国际合作美国国务院推荐理由:35国刚签了个AI监管声明,主张促进创新而不是限制,和最近美国延迟模型形成对比,值得关注。原文
06:39elvis@omarsar0Ashwin Gopinath指出,Anthropic的Claude Tag功能允许用户在Slack中标记Claude,使其跟踪对话、连接工具并执行任务,看似便利实则危险。他认为这会导致上下文锁定,企业的操作记忆(如Slack历史、异常处理路径、客户承诺)被单一供应商捕获,而非模型锁定。一旦人成为公司日常工作的中间层,模型可替换、智能可租用,但公司记忆难以迁移。Gopinath主张租用最佳模型(OpenAI、Anthropic、Gemini等),但自主拥有可检查、可权限、可移植且模型中立的上下文层。行业Claude TagAnthropicSlack上下文锁定企业AI策略10 个信源在谈推荐理由:这篇分析点明了Claude Tag背后的隐患:用着爽但可能把公司记忆全锁在Anthropic。告诉你为什么要租智能、自己管上下文。原文
06:24Character.AI@character_aiCharacter.AI 发布 Creator Insights 仪表盘,展示角色在关键指标上的表现,帮助创作者了解用户共鸣并追踪成长趋势。同时改进移动端角色创建工具,用户可通过 ⊕ 按钮体验更简单的创建流程。仪表盘可通过 c.ai/creator-insights 访问,需登录美国区账号。该更新旨在降低创作门槛,提升创作者数据分析能力。AI产品Character.AICreator Insights角色创建仪表盘创作者工具推荐理由:Character.AI 新推创作者仪表盘,能看角色互动数据和成长曲线,手机端创建工具也更好用了,做角色的可以试试。原文
05:59Gary Marcus@GaryMarcus白宫要求OpenAI推迟GPT-5.6的发布,理由是网络安全担忧。特朗普政府将逐客户批准在预览期内访问该模型。此举反映了政府对先进AI系统潜在风险的关注。行业GPT-5.6OpenAI白宫监管AI安全10 个信源在谈推荐理由:白宫介入要求推迟GPT-5.6,逐客户审批访问,这波监管操作很罕见。原文
05:57Guillermo Rauch@rauchgNext.js 在错误提示界面中加入了“Ways to fix this”功能,并配套“Copy prompt”按钮。用户点击后可直接将错误上下文和修复建议复制为结构化的提示词,方便粘贴到 Claude、ChatGPT 等 AI 编程助手中。该功能已在 Next.js 的开发者工具中上线,支持常见的编译和运行时错误。此举将调试流程从手动描述问题缩短为一次复制粘贴,提升了修复效率。技巧Next.js提示词工程编程助手开发者体验推荐理由:Next.js 这个新 UI 太实用了,点一下就能把错误和修复提示复制成 prompt,直接丢给 AI 就能修,省去打字时间。原文
05:56Gary Marcus@GaryMarcus白宫要求OpenAI推迟发布GPT-5.6,此举源于对AI潜在风险的担忧。此前Marc Andreessen和David Sacks曾阻止严格监管,但近期白宫态度转变。专家Gary Marcus指出,当前监管缺乏透明度,给企业和投资者带来不确定性。他建议成立由独立科学家组成的两党委员会,制定透明标准。行业GPT-5.6OpenAIWhite HouseGary MarcusAI安全10 个信源在谈推荐理由:白宫叫停GPT-5.6,AI监管风向变了。Marcus剖析了幕后的政治博弈,值得一读。原文
05:54elvis@omarsar0Viktor 是一款运行在 Slack 和 Teams 上的 AI 员工工具。它支持调用任意模型,不会被锁定在单一模型上。该工具集成了 3200 多种外部应用,可帮助企业自动化工作流。AI产品ViktorSlackTeamsAI员工工具集成9 个信源在谈推荐理由:Viktor 让你在 Slack 里用 AI 员工,不绑死一个模型,还集成了 3200+ 工具,太方便了。原文
05:30LangChain@LangChainAILangChain 推出 LangSmith 平台多项更新,包括为 Deep Agents 设计的 Rubrics(评分规则)以及编程式定义子智能体(programmatic subagents)的能力。新版本还增强了 LangSmith 的追踪与评估功能,支持用户更精细地控制和调试多智能体系统。这些更新已在上线版本中可用,开发者可直接在 LangSmith 界面中配置。AI产品LangSmithLangChainDeep Agents子智能体产品更新推荐理由:LangChain 给 LangSmith 上了新活:Deep Agents 评分规则和可编程子智能体,调试多智能体更方便了,搞 Agent 开发的可以看看。原文
05:06Runway ML@runwaymlRunway 发布 Agent 2.0,用户可从简单提示直接生成完整的营销简报和活动资产。该工具还能分析性能数据以优化创意,并支持跨平台、格式和市场的扩展。Agent 2.0 定位为用于实际工作的最强自主代理。AI产品RunwayAgent 2.0营销自动化AI代理内容生成推荐理由:Runway 刚发了 Agent 2.0,能从一句话生成营销方案和素材,还能分析数据帮你优化,营销人员可以试试。原文
04:59elvis@omarsar0精选推文讨论动态工作流适用于少数用例,被视为测试时计算(TTC)的新范式。作者指出动态工作流在爬山式研究实验中表现强劲,且通过精心规划和提高推理水平可获更好结果。文章强调验证器/评审器对结果至关重要,组合不同的编码代理可取得更优效果。当需要从不同代理(如LLM委员会)获取多元视角时,动态工作流非常有用,但前沿模型尚不擅长优化地即时生成测试平台。提到了Mythos等新型模型可能更善于代理编排,且需要更多TTC基准来评估动态工作流的有效性。技巧动态工作流测试时计算推理模型智能体Mythos推荐理由:如果你在做代理编排或研究测试时计算,这条推文给出了非常实用的观察,比如什么时候该用动态工作流、如何用好验证器,还提到了Mythos这类新模型。原文
04:54Guillermo Rauch@rauchgVercel 构建了一个包含技能、linter(ESLint 等)、评估和更新循环的系统,确保编码代理遵循设计标准。该系统的核心是一组自定义规则,可自动检测代码中的设计偏差(如布局、颜色主题)。他们使用 Vercel AI SDK 和 Claude 3.5 Sonnet 实现代理的实时反馈。博客详细描述了如何通过循环迭代(每次提交触发评估)持续改进代理行为。Vercel 还开源了部分组件,如 design-linter 工具包。技巧Vercel设计规范编码代理AI 代码生成自定义 linter推荐理由:Vercel 分享了他们怎么让 AI 写代码时自动遵守设计规范——用 linter、评估循环和自定义规则。想给 AI 代码加设计约束的可以抄作业。原文
04:52LangChain@LangChainAILangChain与Fireworks AI合作,基于阿里巴巴Qwen模型微调了一个法官模型。该模型用于检测用户交互中的“感知错误”(Perceived Error)。具体微调方法和评估结果已在LangChain博客文章中发布。AI模型LangChainFireworks AIQwen微调感知错误推荐理由:LangChain和Fireworks用Qwen搞了个裁判模型,专门抓对话里的感知错误,挺实用的,去博客看具体数据吧。原文
04:51LangChain@LangChainAILangChain 与 FireworksAI 合作研究显示,微调后的阿里巴巴 Qwen 模型在所有规模上性能优于原版模型。与使用顶级前沿模型相比,微调模型在规模运行时可降低 10-100 倍成本,具体取决于追踪数量和模型选择。随着追踪量增长,微调模型的成本节约效果将更加显著。该结果基于对多个模型规模和基准的对比测试。AI模型QwenFireworksAI微调推理模型推荐理由:微调 Qwen 能跑赢大模型,还省 10-100 倍成本,适合大批量任务。原文
04:43Stanford AI Lab@StanfordAILabOpenJarvisAI是一个开源的个人AI代理框架,默认在本地设备上运行,仅在必要时才调用云端。它首次将能源消耗、成本和延迟作为一等指标进行优化。该项目由斯坦福大学AI实验室的Jon Saad-Falcon等人协作开发,并被Laude Institute的Slingshots // THREE项目选中。框架旨在让AI代理在保持隐私的同时实现高效推理。AI产品OpenJarvisAIStanford AILab代理框架本地AI混合AI推荐理由:斯坦福团队推的OpenJarvisAI,让AI代理先跑在本地、必要时才上云,还管能耗和延迟,挺实在的开源框架。原文
04:42Gary Marcus@GaryMarcus精选一项使用1720亿token的测试发现,LLM在文档问答中无法完全避免幻觉。最佳模型在32K上下文编造答案率为1.19%,强模型通常为5%-7%,中等模型约25%。当上下文扩展到200K时,所有模型编造率至少10%。研究表明幻觉不仅源于检索失败,模型在事实缺失时仍过度自信回答。论文LLM幻觉文档问答上下文长度RAG推荐理由:别以为用文档就能让LLM老老实实回答,1.19%的幻觉率也是定时炸弹,尤其长上下文风险更高。原文
04:03Harrison Chase@hwchase17精选LangChain 发布了一个面向 JS 框架的 Agent 部署 cookbook,提供完整的全栈示例代码。内容覆盖 streaming UI、子 agent(subagents)、线程历史(thread history)以及生产环境持久化注意事项。该 cookbook 旨在帮助开发者将本地演示的 agent 快速部署到真实应用中。技巧LangChainJavaScriptagent部署教程推荐理由:想把 LangChain agent 从本地搬到线上?这份 cookbook 手把手教你用 JS 做全栈,连 streaming UI 和子 agent 都配好了。原文
03:55Guillermo Rauch@rauchgGrok Imagine Video 在 Vercel AI Gateway 中占比约50%,成为开发者使用最多的视频生成模型。Vercel AI Gateway 提供多种模型接口,Grok Imagine Video 凭借生成速度和画质获得领先。该数据来自 x.com 上 Vercel CEO 的推文。目前该推文获得28条评论、146个点赞和约1.4万次浏览。AI产品Grok Imagine VideoVercel AI Gateway视频生成推荐理由:Grok Imagine Video 在 Vercel 上占了一半视频生成量,效率很高,开发者可以多用用原文
03:54Mustafa Suleyman@mustafasuleyman精选72°Microsoft 发布 MAI-Image-2.5,在 Artificial Analysis Image Arena 文本到图像基准中排名第2,仅次于 OpenAI 的 GPT Image 2。其图像编辑能力排名第3,仅次于 OpenAI 模型,性能与 Google 的 Nano Banana 2 相当。MAI-Image-2.5 最大输出约 1MP 分辨率,支持灵活宽高比和 32K token 上下文。定价为每千张图 $48(Flash 变体 $20),可通过 Foundry API 和 MAI Playground 使用。AI模型MAI-Image-2.5Microsoft文本到图像图像编辑多模态10 个信源在谈推荐理由:微软新出的 MAI-Image-2.5 图像生成和编辑都很强,排名只输给 OpenAI,价格也透明,值得试试看。原文
03:42Mustafa Suleyman@mustafasuleyman72°MAI-image-2.5 在 ArtificialAnalysis 基准中文本到图像排名第二,仅次 GPT 模型,图像编辑排名第三。MAI-Image-2.5-Flash 在质量/价格比上全球领先。该模型已通过 Foundry API 提供,正逐步在 OneDrive 和 PowerPoint 中推出。用户也可在 MAI Playground 直接体验。AI模型MAI-image-2.5MAI-Image-2.5-FlashMicrosoft文生图图像编辑1 个信源在谈推荐理由:微软新图像模型 MAI-image-2.5 文本到图像只输 GPT,性价比版全球第一,可以 OneDrive 和 PPT 里直接用。原文