全部 AI 动态 · AI 热点

6月24日

12:00

12:00

arXiv cs.AI@Adhitya Charan, Adwaid Suresh, Anuj Kumar, Aparna A, Dhanakumar K, Dharun M S, Dinesh G, Goutham Kumar Reddy K, Harshini V M, Jenifa D, Jona Delcy C A, Kathirvel S, Killi Uma Maheswara Rao, Kiruthik Kanna M, Kurra Vishnu Sai, Madhumithaa G K, Navin Kumar, Ram Charan Golla, Revathi T, Rishikkanth R, Sanjay Krishna M, Surendra Vendra

BluTrain是一个用标准C++和CUDA实现的AI训练框架。在8-GPU 6000 Ada系统上训练124M参数GPT-2模型（FP32），其吞吐量达407K tokens/s，比PyTorch的395K tokens/s高约3%。同时内存占用减少22%，且严格保持数值精度。框架包含原生实现的张量模块、反向模式自动微分、线性代数库、缓存分配器、分布式执行和MLIR编译器。

AI模型 BluTrain C++/CUDA GPT-2 训练框架性能优化

推荐理由：这个新框架用C++从头写，训练GPT-2比PyTorch快3%且省内存22%，适合追求极致性能的开发者。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月28日

11:31

11:31

arXiv cs.AI@Xinle Deng, Ruobin Zhong, Hujin Peng, Xiaoben Lu, Yanzhe Wu, Guang Li, Buqiang Xu, Yunzhi Yao, Jizhan Fang, Haoliang Cao, Junjie Guo, Yuan Yuan, Ziqing Ma, Yuanqiang Yu, Rui Hu, Baohua Dong, Hangcheng Zhu, Ningyu Zhang

精选72°

MemTrace 提出了一种新框架，将大语言模型的记忆管道转化为可执行的记忆演化图，实现细粒度的操作信息流追踪。研究团队构建了 MemTraceBench 基准，涵盖长上下文、RAG、Mem0 和 EverMemOS 等代表性记忆系统，系统分析记忆失败模式。该方法通过迭代追踪操作子图自动归因错误根因，发现记忆失败源于操作级问题如信息丢失和检索错位。利用归因信号指导下游提示优化，形成闭环系统，自动修正错误并提升端任务性能最高达7.62%。代码已开源。

论文记忆系统错误归因 LLM 开源/仓库性能优化

推荐理由：做LLM记忆系统或长上下文推理的开发者，终于有了一个能自动定位记忆错误根因的工具，还能自动优化提示提升性能，值得试试这个开源方案。

5月11日

11:45

11:45arXiv cs.AI（学术论文）

Dooly是一种新型LLM推理模拟器，解决了传统模拟器因硬编码配置而需重新分析所有操作的高成本问题。它通过单次推理过程，利用污点传播标记输入维度来源，仅分析数据库中缺失的操作，并复用服务引擎初始化代码隔离有状态操作（如注意力机制）。在两种GPU平台、三种注意力后端和多种模型架构上，Dooly实现了TTFT 5%以内、TPOT 8%以内的模拟准确性，同时将12个模型的分析GPU小时数减少56.4%。这项工作降低了探索最优推理配置的计算成本，对部署效率提升有重要意义。

论文推理模拟 LLM推理性能优化配置搜索 GPU分析

推荐理由：Dooly通过结构感知的冗余消除，显著降低了LLM推理配置探索的开销，对需要评估多种硬件、引擎和模型组合的从业者具有实用价值。