全部 AI 动态 · AI 热点

6月27日

19:54

19:54IT之家（博客/媒体）

Linux内核开发者Hiroshi Nishida提交8个补丁，用于提升MD RAID5软件RAID的可扩展性与重建性能。在22核心主机、6块内存盘搭建的RAID6(4+2)测试中，4个工作线程(gtc=4)时4K随机写入性能提升17.4%。模拟数据库(8K,75%读)和OLTP(16K,70%读)负载分别提升10.3%和10.1%。补丁标注为低风险，正等待代码审查。

行业 Linux内核 RAID5 性能优化存储补丁

推荐理由：这个补丁能让你的大型RAID5阵列性能提升10%-17%，特别适合多核高负载场景，运维Linux服务器的同学值得跟进。

原文

6月24日

12:00

arXiv cs.AI@Adhitya Charan, Adwaid Suresh, Anuj Kumar, Aparna A, Dhanakumar K, Dharun M S, Dinesh G, Goutham Kumar Reddy K, Harshini V M, Jenifa D, Jona Delcy C A, Kathirvel S, Killi Uma Maheswara Rao, Kiruthik Kanna M, Kurra Vishnu Sai, Madhumithaa G K, Navin Kumar, Ram Charan Golla, Revathi T, Rishikkanth R, Sanjay Krishna M, Surendra Vendra

BluTrain是一个用标准C++和CUDA实现的AI训练框架。在8-GPU 6000 Ada系统上训练124M参数GPT-2模型（FP32），其吞吐量达407K tokens/s，比PyTorch的395K tokens/s高约3%。同时内存占用减少22%，且严格保持数值精度。框架包含原生实现的张量模块、反向模式自动微分、线性代数库、缓存分配器、分布式执行和MLIR编译器。

AI模型 BluTrain C++/CUDA GPT-2 训练框架性能优化

推荐理由：这个新框架用C++从头写，训练GPT-2比PyTorch快3%且省内存22%，适合追求极致性能的开发者。

原文

6月22日

10:25

shao__meng@shao__meng

Addy Osmani发布深度文章，以Chromium为主线解析现代浏览器内部机制。文章覆盖页面加载完整管线、V8 JavaScript引擎内部原理、模块加载与Import Maps、多进程架构与安全。对比三大引擎：Chromium、Gecko (Firefox)与WebKit (Safari)。面向开发者给出优化实践：减少网络往返、避免深度DOM、使用transform/opacity实现合成动画等。

技巧 Chromium V8 WebKit 浏览器架构性能优化

推荐理由：Addy Osmani写的浏览器底层指南，覆盖V8、多进程、三大引擎对比，还有实用的DevTools优化技巧，搞前端必读。

原文

6月19日

10:58

coderabbitai@coderabbitai

CodeRabbit 发布 CLI 更新，新增 light mode 模式，使代码审查运行速度提升 1.5 倍。用户可通过运行 `coderabbit --light` 命令启用该模式。该优化旨在减少 AI 代理循环中的代码审查瓶颈，提升开发效率。

AI产品 CodeRabbit 代码审查 CLI 性能优化

推荐理由：CodeRabbit 搞了个 light mode，代码审查快了 1.5 倍，跑 agent 流程时瓶颈少多了，直接用命令行就能开。

原文

6月18日

14:32

14:32IT之家（博客/媒体）

微软与Adobe合作，通过MSVC编译器和SPGO优化技术，提升了Windows 11上Photoshop的性能。在x64平台性能提升20%，在ARM64平台提升13%。优化主要针对CPU依赖的画笔绘制、文件打开等操作，使这些交互更流畅。Adobe高级开发者John Fitzgerald表示，用户绘图和滤镜处理速度明显加快。

AI产品 Photoshop Windows 11 Adobe 性能优化 MSVC

推荐理由：Adobe和微软给Photoshop做了底层优化，x64快20%、ARM快13%，画笔和文件打开都更顺滑了，用Win11的PS用户赶紧升级体验吧。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

13:22

Z.ai (智谱国际)@Zai_org

精选

行业 GLM-5 Scaling Pain 推理部署 KV Cache 性能优化

推荐理由：大模型从实验到生产，Scaling Pain 是绕不过的坎。做推理部署的工程师，这篇博客里的 KV Cache 竞态和 HiCache 同步问题很可能你也会遇到，建议直接收藏。

原文

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

22:51

Viking@vikingmute

针对 Codex GUI 性能差、容易卡顿的问题，有开发者分享了一个 skills 工具，核心思路是检查占用空间，将超大不用的 thread 归档，把旧 worktrees 移到 archive，并归档过大的日志。该工具可配置为定时任务，由 AI agent 自动执行检查和清理。用户反馈使用后 Codex 不再卡顿，保持可用状态。这个方案解决了 Codex 用户长期以来的性能痛点。

AI产品 Codex 性能优化自动清理 skills AI agent

推荐理由：Codex 重度用户被卡顿折磨的，这个 skills 能自动清理无用数据让 GUI 恢复流畅，值得一试。

原文

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

14:51

AI Will@FinanceYF5

83°

开发者 Victor Taelin 在优化 HVM5 交互网求值器时，让 Claude 的 Fable 模型在 2 小时内实现了最高 1770%（17 倍）的性能提升，远超他本人、Opus 4.8 以及一群 GPT-5.5 智能体的优化效果。Fable 不仅找到了一个高影响力的优化点（动态模式匹配节点的垃圾回收），还主动指出开发者自己代码中的一个隐蔽 bug，导致变量指针位被误用。Taelin 表示这让他既惊讶又担忧，认为世界正在改变，并呼吁关注 AI 带来的不平等问题。

AI模型 Claude Fable HVM5 性能优化 AGI

推荐理由：这个案例展示了 AI 不仅能优化代码，还能发现人类开发者自己都没意识到的 bug，做高性能计算或编译器优化的开发者看完会重新评估 AI 的能力边界。

原文

6月9日

22:30

22:30IT之家（博客/媒体）

摩尔线程向 MTT AIBOOK 用户推送了 AIOS 1.4.1 版本更新，通过 OTA 在线升级。本次更新在底层性能、跨系统生态、视觉交互、浏览器能力和操控体验五大维度进行了升级。核心场景流畅度提升 30%，GPU 综合性能提升 17%，并新增 CPU Boost 调度方案。虚拟机生态升级，支持铠大师 Windows 虚拟机方案，实现双向文件共享和 vGPU 硬件加速。系统 UI 焕新，包括灵动 Dock 栏、动态壁纸和全局高斯模糊特效，浏览器预装最新 Chromium 并支持 WebGL 和硬件视频解码。

AI产品摩尔线程 MTT AIBOOK AIOS 1.4.1 系统更新性能优化

推荐理由：MTT AIBOOK 用户终于迎来系统大版本，性能提升 30% 和虚拟机双系统互通解决了日常办公和开发痛点，做 AI 开发或重度办公的可以直接 OTA 升级试试。

原文

6月7日

14:44

宝玉@dotey

精选

Claude Design 与服务器通信时未使用常见的 JSON 文本协议，而是采用 Protocol Buffers（protobuf）二进制格式。这种设计能减少数据传输量、提升传输速度，同时由于缺少 schema，外部难以直接解析通信内容。不过，客户端 JavaScript 中包含了 schema，有心人稍加分析即可找到。这一细节反映了 Claude Design 在性能与安全性之间的权衡，对关注 AI 产品架构和逆向工程的开发者有参考价值。

AI产品 Claude Design Protocol Buffers 通信协议性能优化逆向工程

推荐理由：做 AI 产品架构或协议分析的开发者值得关注——protobuf 在节省流量和提升速度上有优势，但 schema 暴露在客户端也带来安全隐患，看完能帮你评估类似设计。

原文

6月2日

10:59

marktechpost@Sana Hassan

精选

本文介绍了如何通过NVIDIA Apex库中的FusedAdam优化器和FusedLayerNorm层，结合PyTorch原生的torch.amp混合精度训练，来加速Transformer模型的训练。作者从源码编译Apex，检测融合内核是否可用，并进行了基准测试。实验表明，这些优化可以显著提升训练速度，同时保持模型精度。对于需要高效训练Transformer的开发者，这是一份实用的性能优化指南。

技巧 Transformer NVIDIA Apex 混合精度训练性能优化 PyTorch

推荐理由：Transformer训练慢是很多开发者的痛点，这篇教程直接给出了用Apex和torch.amp加速的具体步骤和基准测试结果，做NLP或大模型训练的团队可以照着优化自己的代码。

原文

5月30日

23:59

Harrison Chase@hwchase17

LangChain 宣布与 GEPA 集成，用户现在可以优化 LangChain 链的性能。GEPA 是一个用于优化 AI 工作流的工具，此次集成由开发者 @bryonkuchML 贡献的 PR 实现。该集成允许开发者通过 GEPA 的文档教程，轻松优化 LangChain 链，提升效率。这对于使用 LangChain 构建复杂 AI 应用的团队来说，是一个重要的性能优化手段。

AI产品 LangChain GEPA 性能优化 AI工作流开源/仓库

推荐理由：LangChain 用户现在可以直接用 GEPA 优化链性能，省去手动调优的麻烦，做 AI 工作流的开发者值得一试。

原文

11:34

elvis@omarsar0

精选72°

一项新研究提出了有效反馈计算（EFC）指标，用于衡量智能体实际可用的反馈量，替代传统的原始token和工具调用计数。实验表明，原始计数只能解释33%-42%的智能体失败原因，而EFC的解释力达到99%。在相同计算预算下，仅通过按有效反馈重新分配资源，就能将智能体成功率从0.27提升至0.90。该研究将智能体框架设计从猜测转变为可预测的科学。

论文智能体有效反馈计算 Scaling Laws Agent Harness 性能优化

推荐理由：做智能体框架或Agent Harness的开发者，终于有了一个可量化的优化指标——EFC能让你用相同算力把成功率翻三倍，值得点开论文细读。

原文

5月29日

08:39

Together AI@togethercompute

精选

Together AI 的 DevRel 团队发布了一篇关于 LLM 推理引擎的入门指南，解释了 tokenization、调度、prefill、decode、KV 缓存、批处理和流式处理等关键组件如何影响 API 调用的速度、可扩展性和生产就绪性。这些底层系统决定了 AI 原生应用的体验质量。对于开发者而言，理解推理引擎有助于优化应用性能和成本。

AI产品推理引擎 LLM API Together AI 系统层性能优化

推荐理由：做 AI 原生应用开发的团队，理解推理引擎能帮你优化 API 调用成本和响应速度，建议点开这篇入门指南。

原文

5月28日

11:31

arXiv cs.AI@Xinle Deng, Ruobin Zhong, Hujin Peng, Xiaoben Lu, Yanzhe Wu, Guang Li, Buqiang Xu, Yunzhi Yao, Jizhan Fang, Haoliang Cao, Junjie Guo, Yuan Yuan, Ziqing Ma, Yuanqiang Yu, Rui Hu, Baohua Dong, Hangcheng Zhu, Ningyu Zhang

精选72°

MemTrace 提出了一种新框架，将大语言模型的记忆管道转化为可执行的记忆演化图，实现细粒度的操作信息流追踪。研究团队构建了 MemTraceBench 基准，涵盖长上下文、RAG、Mem0 和 EverMemOS 等代表性记忆系统，系统分析记忆失败模式。该方法通过迭代追踪操作子图自动归因错误根因，发现记忆失败源于操作级问题如信息丢失和检索错位。利用归因信号指导下游提示优化，形成闭环系统，自动修正错误并提升端任务性能最高达7.62%。代码已开源。

论文记忆系统错误归因 LLM 开源/仓库性能优化

推荐理由：做LLM记忆系统或长上下文推理的开发者，终于有了一个能自动定位记忆错误根因的工具，还能自动优化提示提升性能，值得试试这个开源方案。

原文

5月27日

23:55