Recent Posts
-
2023-09-16
GPU 进阶笔记(一):高性能 GPU 服务器硬件拓扑与集群组网(2023)
记录一些平时接触到的 GPU 知识。由于是笔记而非教程,因此内容不会追求连贯,有基础的同学可作查漏补缺之用。水平有限,文中不免有错误之处,请酌情参考。 1 术语与基础 1.1 PCIe 交换芯片 1.2 NVLink 定义 演进:1/2/3/4 代 监控 1.3 NVSwitch 1.4 NVLink Switch 1.5 HBM (High Bandwidth Memor...
-
2023-09-01
[译] 如何训练一个企业级 GPT 助手(OpenAI,2023)
译者序本文来自 OpenAI 的 Andrej Karpathy 在 Microsoft Build 2023 大会的分享:State of GPT。原分享包括两部分, 如何训练一个 GPT 助手; 如何有效地将这些助手 apply 到应用程序中。本文翻译了其中第一部分。作者之前还有一篇“如何训练一个乞丐级 GPT”:GPT 是如何工作的:200 行 Python 代码实现一个极简 GPT(2023)译者水平有限,不免存在遗漏或错误之处。如有疑问,敬请查阅原文。以下是译文。 译者序 0 引言 1 预训练 ...
-
2023-08-27
Understanding NVIDIA GPU Performance: Utilization vs. Saturation (2023)
GPU performance metrics reported by tools like nvidia-smi may be misleading.This blog delves into the underlying issue to provide a deeper understanding. 1 NVIDIA "GPU util": a confusing phenomenon 2 GPU Util: a misleading term? 2.1 Definition from officia...
-
2023-08-06
[译][论文] LLaMA 2:开放基础和微调聊天模型(Meta/Facebook,2023)
译者序本文来自 2023 年 Meta(facebook)的大模型论文:Llama 2: Open Foundation and Fine-Tuned Chat Models。翻译了其中感兴趣的部分。LLaMA2 用了两个 GPU 集群进行训练: RSC 集群:200Gbps InfiniBand + 400W A100 GPU; 生产集群:200Gbps RoCE + 350W A100 GPU;RoCE + 350W GPU 的集群,经过优化的代码能达到IB + 400W GPU 集群性能的 90%。总共耗费 3.3M ...
-
2023-07-23
[译][论文] 大语言模型(LLM)综述与实用指南(Amazon,2023)
译者序本文来自 2023 年一篇大模型论文:Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond,翻译了其中感兴趣的部分。论文信息:@article{yang2023harnessing, title={Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond}, author={Jingfeng Yang and Hongye Jin and Ru...
-
2023-07-10
[译][论文] LLaMA:开放和高效的基础语言模型集(Meta/Facebook,2022)
译者序本文翻译自 2022 年 Meta(facebook)的大模型论文:LLaMA: Open and Efficient Foundation Language Models。作者阵容:Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet,Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, EricHambro, Faisal Azhar, Aurelien Rodri...
-
2023-06-22
[译] 长文写作的魔力(2022)
译者序本文翻译自 2022 年的一篇文章:Writing Is Magic。作者 Marc Brooker 在 AWS,是 databases, serverless, EC2, EBS 等多个领域的专家。译者水平有限,不免存在遗漏或错误之处。如有疑问,敬请查阅原文。以下是译文。 译者序 1 提升影响力的方式 2 写(文档和长文)的好处 2.1 让自己真正想透问题(clarity) 2.2 让受众思考更专注(attention) 2.3 让时间和空间影响力更大(scale) ...
-
2023-06-17
GPU Prices Quick Reference (2023)
This post lists some GPU node prices collected from several public cloudvendors, intended primarily for personal reference. Note that these prices aresubject to change over time, so if you are planning a serious budget, pleaseconsult each cloud vendor’s pricing page ...
-
2023-06-11
[译] 以图像识别为例,关于卷积神经网络(CNN)的直观解释(2016)
译者序本文翻译自 2016 年的一篇文章:An Intuitive Explanation of Convolutional Neural Networks。作者以图像识别为例,用图文而非数学公式的方式解释了卷积神经网络的工作原理,适合初学者和外行扫盲。译者水平有限,不免存在遗漏或错误之处。如有疑问,敬请查阅原文。以下是译文。 译者序 1 卷积神经网络(CNN) 1.1 应用场景 1.2 起源:LeNet, 1990s 1.3 现代架构 2 CNN:直观解释 ...
-
2023-06-06
[译] Transformer 是如何工作的:600 行 Python 代码实现两个(文本分类+文本生成)Transformer(2019)
译者序本文整理和翻译自 2019 年(最后更新 2023 年)的一篇文章:Transformers From Scratch。如果对 transformer 的使用场景和所处位置还不清楚,可以先看一下这篇: GPT 是如何工作的:200 行 Python 代码实现一个极简 GPT(2023)理解本文大部分内容只需要基本的高数知识(矩阵乘法)。原文代码见这里,不过训练代码用到的一些库更新非常快,因此跑起来可能有点困难。有兴趣有时间的可以考虑基于较新版本的库重构一下self-attention/transformer 及训练代码。...