16:45marktechpost@Sana Hassan本教程介绍了 NVIDIA cuTile Python,一个基于分块的 GPU 编程接口,允许在 Python 中编写类 CUDA 的内核。教程在 Google Colab 环境中逐步实现向量加法、矩阵加法和矩阵乘法的分块内核,并包含 PyTorch 回退以确保可执行性。每个阶段都通过 PyTorch 验证正确性并基准测试中位运行时间。该教程适合希望学习 GPU 编程但不想深入 CUDA C++ 的 Python 开发者。技巧GPU 编程NVIDIA cuTilePython 教程Colab分块内核7 个信源在谈推荐理由:想学 GPU 编程但被 CUDA C++ 劝退的 Python 开发者,这个教程让你直接在 Colab 里跑分块内核,还能对比 PyTorch 验证结果,值得动手试试。原文
08:48marktechpost@Sana Hassan精选72°AgentTrove 是目前最大的开源智能体交互轨迹数据集,包含 170 万条 ShareGPT 格式的记录。本文提供了一份详细的 Python 教程,演示如何在不完全下载的情况下流式读取数据集、标准化智能体对话轮次、提取命令、分析轨迹,并最终将成功的交互轨迹导出为干净的 SFT 微调数据集。这对于需要高质量智能体训练数据的开发者来说非常实用。技巧智能体数据集SFT 微调Python 教程开源/仓库推荐理由:做智能体微调的团队终于有了大规模、可流式处理的开源轨迹数据,不用再自己爬取或合成。想快速上手构建 ShareGPT 格式 SFT 数据集的开发者,这篇教程可以直接照着跑。原文