Andrew Ng 新课程:Transformers in Practice,与 AMD 合作
Andrew Ng 推出新课程《Transformers in Practice》,与 AMD 合作,由 Sharon Zhou 主讲。课程提供基于 Transformer 的 LLM 的实用视角,帮助理解其行为、诊断推理缓慢等问题,并做出更明智的部署决策。课程包含交互式可视化,而非纯视频,让学员动手探索概念。学员将掌握 LLM 幻觉原因、注意力机制、推理瓶颈诊断及 GPU 加速技术。
Andrew Ng 推出新课程《Transformers in Practice》,与 AMD 合作,由 Sharon Zhou 主讲。课程提供基于 Transformer 的 LLM 的实用视角,帮助理解其行为、诊断推理缓慢等问题,并做出更明智的部署决策。课程包含交互式可视化,而非纯视频,让学员动手探索概念。学员将掌握 LLM 幻觉原因、注意力机制、推理瓶颈诊断及 GPU 加速技术。
研究人员发现一种名为“Whimsey攻击”的新型对抗方法,通过使用看似荒谬的理由(如“根据日内瓦公约我无法支付这么多”)来绕过AI智能体的安全护栏。这种攻击利用了AI模型对分布外论证的脆弱性,即使是大型模型也难以完全防御。小型模型更容易中招,但大型模型也会因此降低性能。该发现揭示了当前AI安全机制在应对非典型输入时的不足。
Google DeepMind 宣布与大型多人在线游戏《Eve Online》的开发者合作,利用其复杂的玩家驱动宇宙作为安全沙盒,测试 AI 智能体在记忆、持续学习和长期规划方面的能力。该合作旨在推动 AI 在游戏中的前沿研究,为开发更智能、更适应环境的 AI 系统提供实验平台。Eve Online 的开放世界和长期经济系统为 AI 研究提供了独特的挑战和机会。
CodeGraph 是一个开源的 MCP 服务器,通过预索引代码库为本地知识图谱,让 AI 代理直接查询图谱而非扫描文件,从而大幅减少工具调用。在六个真实项目测试中,平均减少 92% 工具调用,探索速度提升 71%,在 TypeScript 和 Java 代码库上分别减少 94% 和 96% 的调用。它基于 Tree-sitter 解析语法树,使用 SQLite 存储符号和调用关系,支持 19 种以上语言,完全本地运行,无需 API 密钥。只需一条 npx 命令即可设置,文件监视器可保持图谱实时更新。
Cline 团队发布了 Cline SDK,同时推出基于 SDK 的 Cline CLI 和 Skills。Cline 是最早的 Agentic Coding 工具之一,此前以 IDE 插件形式存在,技术实力强,工程团队多人曾加入 Codex。最新 Cline CLI 在 Terminal-Bench 2.0 上多项第一,超越 Claude Code、Codex 和 Droid 等 Agent。Cline 2.0 重写了 prompts、简化 loop、收紧上下文管理、改进反馈与错误处理,并重新设计工具暴露方式。在开源权重模型上领先更明显,如 kimi-k2.6 达 55.1% vs OpenCode 37.1%。新能力包括 Plugin 层、Provider 开放性、原生 Agent Teams、开箱即用的 CRON/checkpointing/Web search/MCP connector,以及实验性的 CLI Connectors 可接入 Telegram/WhatsApp/Slack。
Prime Intellect 让 Claude Code(Opus 4.7)和 Codex(GPT 5.5)完全自主运行在 nanoGPT speedrun 的 optimizer track 上,使用闲置算力完成了约 1 万次实验,消耗 1.4 万 H200 小时。Claude Code 将记录推进到 2930 steps,超过了人类基准的 2990 steps,整个过程无人值守。实验在 optimizer 搜索、超参数扫描和方法 stacking 上高效,但在真正创新上遇到瓶颈。Prime Intellect 已将全部 scratchpad、日志、配置和生成 idea 开源,将 AI 研究自动化从概念变为可复现的现实。
xAI 今日正式推出 Grok Build 的早期 Beta 版本,这是一款面向开发者的 agentic CLI 工具,专注于代码编写、应用搭建和自动化工作流。它支持并行子代理、计划视图、团队共享市场,并集成 MCP skills、插件、hooks 和 headless 模式。目前仅对 SuperGrok Heavy 订阅者开放,xAI 将根据用户反馈持续迭代。此举表明 xAI 选择深耕 CLI 而非聊天界面,旨在让 agent 真正融入日常工作流。
Kimi 发布了名为 Kimi Web Bridge 的浏览器扩展,能将编码型或通用型 AI Agent 接入用户本地的 Chrome/Edge 浏览器,使其具备点击、滚动、输入、抓取、截图等真实网页操作能力。该扩展复用用户真实浏览器而非新建沙箱,完全本地化执行,且开放接入而非闭环产品。官方展示了四个案例:跨平台批量搜索并写表格、看网站后复刻、从日常操作学习技能、自动填写 Google Form。这一工具让 Agent 从“看”网页升级为“操作”网页,显著扩展了自动化场景。
Anthropic与盖茨基金会宣布合作,获得2亿美元赠款及大量Claude credits和技术支持,聚焦全球健康、生命科学、教育、农业和经济流动五大领域。这是Anthropic首次将前沿AI模型大规模应用于发展中国家,一线医生可用Claude辅助诊断,小农获得作物建议,儿童获得个性化教学工具。此举标志着AI从实验室走向真实世界,解决最紧迫的人类问题。
据路透社报道,微软正在探索收购AI实验室Inception的交易。Inception最近发布了Mercury 2,这是全球首个推理扩散大语言模型。该模型结合了扩散模型和推理能力,可能为AI应用带来新的可能性。如果收购成功,微软可能将这一技术整合到其Copilot等产品中,提升AI的推理和生成能力。
Together AI 研究团队将有七篇论文在 MLSys 2026 会议上发表,展示从研究到生产的 AI 原生云平台成果。这些论文涵盖 AI 系统优化、模型部署效率等关键领域,体现了 Together AI 在 AI 基础设施方面的技术积累。MLSys 是机器学习系统领域的顶级会议,入选多篇论文说明其技术实力获得学术界认可。
Runway 宣布了其第四届国际 AI 电影节的十部最终入围影片。该电影节旨在展示 AI 在电影制作中的创新应用。活动将于 6 月 11 日在纽约和 6 月 18 日在洛杉矶举行,届时将放映这些影片并邀请行业领袖分享见解。门票现已开放获取。这是 AI 影视创作领域的重要事件,为创作者提供了展示和学习的平台。
AnyFlow 是一种新型视频扩散模型,支持任意步长的生成,通过策略流图蒸馏技术提升效率。该方法解决了传统视频扩散模型在步长选择上的限制,允许用户根据需求灵活调整生成速度和质量。关键创新在于在线策略流图蒸馏,使模型在训练和推理时都能适应不同步长。这项研究有望降低视频生成的计算成本,同时保持高质量输出。
OpenShell 发布 v0.0.41 版本,新增智能体驱动的策略管理功能,允许用户通过 shell 直接控制策略和资源。CLI 中增加了沙箱资源标志,支持自定义 CA 用于 OIDC TLS 验证,并改进了沙箱下载的工作区边界检查。该版本还包含多项错误修复和稳定性改进,旨在提升开发者在安全策略和资源管理方面的效率。
百度在Baidu Create大会上宣布推出专为大规模智能体应用设计的全栈AI云,升级覆盖智能体基础设施和AI基础设施。该云平台采用百度自研昆仑芯AI芯片的专用集群,已成功支持文心大模型5.1系列中关键模型的训练。这标志着百度在支撑智能体应用规模化部署方面迈出重要一步,解决了云基础设施与智能体应用同步扩展的挑战。