VOL.2026.06.07·88 STORIES·AITOP DAILY

AITOP日报

二〇二六年六月七日 星期日DAILY · 每早八时
01

模型发布/更新

Model Releases
4

小红书Evolving-RL:AI智能体技能自主进化新范式

X·KOLX:pandaily (@contact@pandaily.com (Pandaily))

小红书(RED)研究团队提出Evolving-RL框架,通过强化学习让AI智能体在经验中自主进化技能,无需额外技能提取模块。该框架使智能体能够动态调整行为策略,适应新任务和环境变化,显著提升在复杂场景下的表现。这一方法为构建更灵活、自适应的AI系统提供了新思路,尤其适用于需要持续学习的应用场景。

Harness-1:20B检索子智能体,强化学习+状态搜索框架

X·KOLX:marktechpost (@Asif Razzaq)

UIUC与Chroma联合推出Harness-1,一个20B参数的检索子智能体,通过强化学习在状态搜索框架中训练。该框架维护候选池、重要性标记的精选集、证据图和验证记录,策略决定搜索、筛选、验证和停止时机。在8个基准测试中,Harness-1平均精选召回率达0.730,领先下一名开源子智能体11.4个百分点,仅次于Opus-4.6。模型权重和框架代码已开源。

NVIDIA 发布 Nemotron 3 Ultra:550B 参数开源 Agent 模型

X·KOLX:AI Will (@FinanceYF5)

NVIDIA 近日发布 Nemotron 3 Ultra,这是一款专为长期运行的 AI Agent 设计的旗舰开源模型。该模型采用 550B 参数的 MoE 架构,激活参数仅 55B,推理速度比同级开源模型快 5 倍,Agent 任务成本降低 30%。Nemotron 3 Ultra 旨在解决复杂、长时间运行的 Agent 任务中的效率与成本问题,为开发者提供高性能且经济的选择。该模型的开源特性有望推动 Agent 应用生态的发展。

Ideogram 4.0 发布:号称最强开源图像模型

X·KOLX:LovartAI (@lovart_ai)

Ideogram 4.0 正式发布,官方称其为“世界上最好的开源图像模型”。该模型支持权重下载、用户在自己的数据上进行微调,并可在本地硬件上运行。目前已在所有 Ideogram 套餐和 API 上可用。这一发布意味着开发者可以自由定制和部署高质量的图像生成能力,降低了图像 AI 的门槛。

02

产品发布/更新

Product
5

Perplexity 的“Search as Code”让 AI 模型自己写搜索管道

X·KOLX:Decoder (@Jonathan Kemper)

Perplexity 推出了名为“Search as Code”的新架构,摒弃了传统的固定搜索 API,允许 AI 模型用 Python 编写自己的搜索例程。该系统在沙盒环境中处理过滤和去重,在关键基准测试上超越了 OpenAI 和 Anthropic,同时将 token 成本降低了高达 85%。这一创新使 AI 搜索更灵活、高效,尤其适合需要定制化搜索逻辑的开发者。

Google 发布 Colab CLI:终端远程调用 GPU/TPU 跑 Python

X·KOLX:marktechpost (@Asif Razzaq)

Google 推出了 Colab CLI 命令行工具,允许开发者和 AI 智能体在终端中直接连接远程 Colab 的 GPU 和 TPU 运行时,运行本地 Python 代码。这意味着无需打开浏览器,就能利用 Colab 的免费或付费计算资源。该工具支持无缝集成到现有工作流,尤其适合需要频繁迭代的机器学习实验和自动化任务。Colab CLI 的发布降低了 GPU/TPU 的使用门槛,让远程计算像本地命令一样简单。

OpenClaw 单日 3000 次提交:10-15 位兼职维护者的 AI 协作奇迹

X·KOLX:AI Engineer (@aiDotEngineer)

开源项目 OpenClaw 在一天内完成了 3000 次代码提交,由 10 到 15 位兼职维护者(均有全职工作)协作完成。首席架构师 Vincent Koc 透露,凌晨 2 点他与 NVIDIA 的 Peter 运行了 60 到 70 个 AI 智能体,贡献了 2700 次提交,修改了近百万行代码,触及 82% 的核心代码库,并在一夜之间交付了插件架构。成功的关键在于 AI 生成的过度拟合单元测试——只要测试通过,团队就知道方向正确。Vincent 还指出,识别 AI 何时在胡扯是一项被忽视的技能:AI 的异常不在于它做了什么,而在于它如何解释自己。

腾讯 WorkBuddy 入局企业 AI:工程化才是真战场

X·KOLX:pandaily (@contact@pandaily.com (Pandaily))

腾讯在 2026 年腾讯云 AI 行业应用大会上正式发布企业 AI 产品 WorkBuddy,明确其战略重点从模型能力比拼转向工程化应用。WorkBuddy 整合了腾讯云的大模型能力、企业微信、腾讯文档等生态工具,旨在为企业提供一站式 AI 工作平台。腾讯认为,企业 AI 的核心价值在于解决实际业务问题,而非单纯追求模型参数。此举标志着腾讯在 AI 领域从技术储备转向商业化落地,将直接与阿里、百度等对手在企业级市场展开竞争。

微软警告:Claude Code 漏洞可致 GitHub 凭证泄露

官方IT之家

微软研究人员发现 Anthropic 旗下 Claude Code 的 GitHub 自动化流程存在提示词注入漏洞,攻击者可通过提交恶意工单诱导 AI 读取系统敏感文件,窃取 API 密钥等凭证。该漏洞源于 Claude 的读取工具缺乏沙箱防护,而 Bash 工具已有安全限制。微软于 4 月 29 日上报,Anthropic 在 5 月 5 日发布 2.1.128 版本修复,限制了对 /proc/ 目录的访问。此漏洞影响使用 Claude Code 进行 CI/CD 自动化的开发团队,提示词注入攻击正成为 AI 工作流的新威胁。

03

行业动态

Industry
5

华为云INSPIRE:建Token工厂,不追求Token总量

X·KOLX:pandaily (@contact@pandaily.com (Pandaily))

华为云在6月5日的INSPIRE大会上提出AI战略新方向:为国家级重点行业打造“Token工厂”,并明确表示不追求竞争对手看重的Token总量指标。周跃峰等高管强调,华为云将聚焦于工业、能源、政务等关键领域的深度AI应用,通过定制化模型和基础设施服务提升行业效率,而非单纯扩大Token生成规模。这一策略与许多云厂商追求大规模通用模型和Token流量的做法形成鲜明对比,反映了华为云对AI实用性和行业价值的侧重。此举可能重塑AI云服务市场的竞争格局,推动行业从“量”向“质”的转变。

Jerry Liu:开源模型将在成本-延迟-精度帕累托前沿占据大量份额

X·KOLX:Jerry Liu (@jerryjliu0)

LlamaIndex 创始人 Jerry Liu 指出,没有前沿实验室能独占成本、延迟与精度的帕累托前沿所有点,开源模型在成本上可低数个数量级。他观察到组织对模型路由和成本优化的兴趣激增,原因包括企业更谨慎管理成本,以及 AI 初创公司寻求构建护城河和提高毛利率。他引用 Chamath 的数据对比:每月 10 亿 token 输入/输出场景下,GPT-5.5 Pro 成本约 10.5 万美元,而 DeepSeek V4 Pro 仅需 5220 美元,能力差距远小于价格差距。Jerry 认为,随着控制平面(如 Software Factory)普及,前沿实验室收入增速将下降,开源模型收入将飙升。

Anthropic Claude Code负责人:我的工作变成写循环,不再手动提示

X·KOLX:rohanpaul_ai (@rohanpaul_ai)

Anthropic Claude Code负责人Boris Cherny表示,他不再手动提示Claude,而是编写循环让Claude自主执行任务并决定下一步。他认为这是2025年AI工作方式的转变趋势,即从人工提示转向自动化循环。这一观点反映了AI从工具向自主代理的演进,对开发者工作流有深远影响。

Anthropic 挖角 OpenAI 第二位芯片工程师,双方 IPO 前加速芯片布局

X·KOLX:Decoder (@Matthias Bastian)

OpenAI 定制芯片项目的第二位硬件工程师 Clive Chan 已跳槽至 Anthropic。他曾参与特斯拉 Autopilot ASIC 和 OpenAI 与博通的合作项目。此举发生在两家公司都在筹备 IPO 的背景下,且 Anthropic 正考虑自研 AI 芯片。这一人才争夺凸显了 AI 公司对硬件自主权的重视,以及芯片能力在 IPO 前成为关键竞争要素。

京东腾讯联手,围绕 AI Agent 展开合作

官方IT之家

京东与腾讯近期宣布围绕 AI Agent 展开合作,京东的商品供应链与履约服务体系将对接腾讯的入口资源。此外,京东 AI Agent 已与华为、OPPO、荣耀等主流终端厂商对接,通过 A2A 合作实现用户直接在终端原生智能体内完成购物需求。腾讯也在推进微信 AI 智能体项目,计划本月启动合规审批,但上线时间取决于监管进度。这一合作将打通电商与社交生态,形成从意图识别到服务保障的完整闭环。

04

论文研究

Research
3

研究揭示大模型为何能学会小模型错过的技能

X·KOLX:Decoder (@Jonathan Kemper)

一项新研究解释了为什么大型语言模型能掌握小型模型无法学会的罕见技能。研究发现,小型模型在处理罕见任务时,频繁出现的任务会不断覆盖它们已学到的知识。研究使用了从400万到40亿参数不等的模型,详细展示了这一机制,并提出了一个实用解决方案:与其扩大模型规模,不如增加目标任务在训练数据中的出现频率。这一发现为优化模型训练提供了新思路。

MIT 论文提出自进化 AI 科学家框架:让 AI 学会改变思考方式

X·KOLX:rohanpaul_ai (@rohanpaul_ai)

MIT 新论文提出一种自修正发现系统,旨在让 AI 科学家在科学探索中不仅搜索现有方案,还能识别当前思维框架的局限性并主动引入新概念。现有 AI 科学系统大多在固定设置内搜索,而真实科学需要新变量、工具或假设。该框架通过将数据、模型、失败等所有产出标记为带类型的工件,区分检索、搜索和发现三种操作,其中发现意味着改变系统本身的表达方式。论文试图形式化 AI 系统长期回避的问题:在语言内找到答案与获得改变语言的权利之间的区别。

Continual Learning Bench:简单ICL击败专用记忆系统

X·KOLX:elvis (@omarsar0)

Continual Learning Bench 是一个新的基准测试,用于评估智能体是否真正从经验中学习。研究发现,在六个专家验证的领域内,简单的上下文学习(ICL)表现优于专门为记忆管理设计的系统。该基准引入了一个增益指标来隔离真正的学习效果,结果显示智能体经常过度拟合即时观察或未能跨实例复用知识。这表明许多记忆架构实际上增加了开销而非学习能力。

05

技巧与观点

Tips & Takes
3

Cursor 新功能:浏览器 + 元素标注,变身设计工作室

X·KOLX:宝玉 (@dotey)

Cursor 推出了名为 Cursor Design 的新功能,将浏览器预览和元素标注结合,使开发者能像使用设计工具一样直接修改 UI。用户只需描述屏幕设计,即可生成 HTML,然后点击预览中的任意元素并说出修改要求,即可实时更新。该功能特别适合与 Opus 4.8 模型配合使用,通过 npx 命令即可快速安装。这标志着 AI 编程工具正在从代码生成向全栈设计协作演进。

Claude Design 8条产品设计心法:简洁深刻,每个创作者都该看看

X·KOLX:宝玉 (@dotey)

Claude Design 分享了8条产品设计核心原则,涵盖交互本质、设计系统、字体搭配、像素克制、发布意义、留白艺术、色彩法则和用户心理模型。这些原则简洁而深刻,直击设计本质,适合所有产品设计师、开发者和创作者反思。每条都配有中英文对照,便于理解。

NVIDIA garak 教程:构建完整防御性 LLM 红队工作流

X·KOLX:marktechpost (@Sana Hassan)

本文是一篇关于 NVIDIA garak 框架的详细教程,指导用户如何构建防御性的大语言模型红队测试工作流。教程涵盖了环境搭建、插件发现、干运行、在 Hugging Face 生成器上进行真实模型扫描以及多探针评估。用户可以通过分析安全分数和攻击成功率来检查标记输出,并扩展 garak 以添加自定义探针和检测器。最后,教程演示了如何以 AVID 格式导出结果,实现结构化漏洞管理。

88
今日事件
43
一手报道
8
新模型
25
信源
AITOP · 编辑系统自动生成