6月24日
12:00
12:00arXiv cs.AI@Adhitya Charan, Adwaid Suresh, Anuj Kumar, Aparna A, Dhanakumar K, Dharun M S, Dinesh G, Goutham Kumar Reddy K, Harshini V M, Jenifa D, Jona Delcy C A, Kathirvel S, Killi Uma Maheswara Rao, Kiruthik Kanna M, Kurra Vishnu Sai, Madhumithaa G K, Navin Kumar, Ram Charan Golla, Revathi T, Rishikkanth R, Sanjay Krishna M, Surendra Vendra
BluTrain是一个用标准C++和CUDA实现的AI训练框架。在8-GPU 6000 Ada系统上训练124M参数GPT-2模型(FP32),其吞吐量达407K tokens/s,比PyTorch的395K tokens/s高约3%。同时内存占用减少22%,且严格保持数值精度。框架包含原生实现的张量模块、反向模式自动微分、线性代数库、缓存分配器、分布式执行和MLIR编译器。
推荐理由:这个新框架用C++从头写,训练GPT-2比PyTorch快3%且省内存22%,适合追求极致性能的开发者。
5月28日
11:31
11:31arXiv cs.AI@Xinle Deng, Ruobin Zhong, Hujin Peng, Xiaoben Lu, Yanzhe Wu, Guang Li, Buqiang Xu, Yunzhi Yao, Jizhan Fang, Haoliang Cao, Junjie Guo, Yuan Yuan, Ziqing Ma, Yuanqiang Yu, Rui Hu, Baohua Dong, Hangcheng Zhu, Ningyu Zhang
精选72°
MemTrace 提出了一种新框架,将大语言模型的记忆管道转化为可执行的记忆演化图,实现细粒度的操作信息流追踪。研究团队构建了 MemTraceBench 基准,涵盖长上下文、RAG、Mem0 和 EverMemOS 等代表性记忆系统,系统分析记忆失败模式。该方法通过迭代追踪操作子图自动归因错误根因,发现记忆失败源于操作级问题如信息丢失和检索错位。利用归因信号指导下游提示优化,形成闭环系统,自动修正错误并提升端任务性能最高达7.62%。代码已开源。
推荐理由:做LLM记忆系统或长上下文推理的开发者,终于有了一个能自动定位记忆错误根因的工具,还能自动优化提示提升性能,值得试试这个开源方案。