ArthurChiao's Blog

Recent Posts

  • 2023-10-25

    GPU Performance (Data Sheets) Quick Reference (2023)

    This post provides a concise reference for the performance of popular GPUmodels from NVIDIA and Huawei/HiSilicon, primarily intended for personal use. 1 Introduction 1.1 Naming convention of NVIDIA GPUs 2 Comparison of L2/L4/T4/A10/V100 3 Comparison...

  • 2023-10-25

    GPU 进阶笔记(二):华为昇腾 910B GPU 相关(2023)

    记录一些平时接触到的 GPU 知识。由于是笔记而非教程,因此内容不求连贯,有基础的同学可作查漏补缺之用。 GPU 进阶笔记(一):高性能 GPU 服务器硬件拓扑与集群组网(2023) GPU 进阶笔记(二):华为昇腾 910B GPU 相关(2023) GPU 进阶笔记(三):华为 NPU (GPU) 演进(2024)水平及维护精力所限,文中不免存在错误或过时之处,请酌情参考。传播知识,尊重劳动,年满十八周岁,转载请注明出处。 1 术语 1.1 与 NVIDIA 术语对应关系 1.2 缩写 ...

  • 2023-10-14

    K8s 的核心是 API 而非容器(二):从开源项目看 k8s 的几种 API 扩展机制(2023)

    Fig. kube-apiserver internal flows when processing a request. Image source Programming Kubernetes, O'Reilly第一篇介绍了 k8s 的 API 设计。本文作为第二篇,通过具体开源项目来了解 k8s API 的几种扩展机制。 K8s 的核心是 API 而非容器(一):从理论到 CRD 实践(2022) K8s 的核心是 API 而非容器(二):从开源项目看 k8s 的几种 API 扩展机制(2023) 1 引言 ...

  • 2023-10-03

    Linux Load Average:算法、实现与实用指南(2023)

    借着遇到的一个问题,研究下 loadavg 的算法和实现。 1 一次 load spike 问题排查 1.1 现象 1.2 排查 1.2.1 宿主机监控:load 和 running 线程数量趋势一致 1.2.2 定位到进程(Pod) 1.2.3 Pod 监控:大量线程周期性状态切换 1.2.4 交叉验证 1.3 进一步排查方向 1.4 疑问 2 lo...

  • 2023-09-16

    GPU 进阶笔记(一):高性能 GPU 服务器硬件拓扑与集群组网(2023)

    记录一些平时接触到的 GPU 知识。由于是笔记而非教程,因此内容不求连贯,有基础的同学可作查漏补缺之用。 GPU 进阶笔记(一):高性能 GPU 服务器硬件拓扑与集群组网(2023) GPU 进阶笔记(二):华为昇腾 910B GPU 相关(2023) GPU 进阶笔记(三):华为 NPU (GPU) 演进(2024)水平及维护精力所限,文中不免存在错误或过时之处,请酌情参考。传播知识,尊重劳动,年满十八周岁,转载请注明出处。 1 术语与基础 1.1 PCIe 交换芯片 1.2 NVLink ...

  • 2023-09-01

    [译] 如何训练一个企业级 GPT 助手(OpenAI,2023)

    译者序本文来自 OpenAI 的 Andrej Karpathy 在 Microsoft Build 2023 大会的分享:State of GPT。原分享包括两部分, 如何训练一个 GPT 助手; 如何有效地将这些助手 apply 到应用程序中。本文翻译了其中第一部分。作者之前还有一篇“如何训练一个乞丐级 GPT”:GPT 是如何工作的:200 行 Python 代码实现一个极简 GPT(2023)。另外,InstructGPT:基于人类反馈训练语言模型遵从指令的能力(OpenAI,2022) 有助于深入理解本文。译者水平...

  • 2023-08-27

    Understanding NVIDIA GPU Performance: Utilization vs. Saturation (2023)

    GPU performance metrics reported by tools like nvidia-smi may be misleading.This blog delves into the underlying issue to provide a deeper understanding. 1 NVIDIA "GPU util": a confusing phenomenon 2 GPU Util: a misleading term? 2.1 Definition from officia...

  • 2023-08-06

    [译][论文] LLaMA 2:开放基础和微调聊天模型(Meta/Facebook,2023)

    译者序本文来自 2023 年 Meta(facebook)的大模型论文:Llama 2: Open Foundation and Fine-Tuned Chat Models。翻译了其中感兴趣的部分。LLaMA2 用了两个 GPU 集群进行训练: RSC 集群:200Gbps InfiniBand + 400W A100 GPU; 生产集群:200Gbps RoCE + 350W A100 GPU;RoCE + 350W GPU 的集群,经过优化的代码能达到IB + 400W GPU 集群性能的 90%。总共耗费 3.3M ...

  • 2023-07-23

    [译][论文] 大语言模型(LLM)综述与实用指南(Amazon,2023)

    译者序本文来自 2023 年一篇大模型论文:Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond,翻译了其中感兴趣的部分。论文信息:@article{yang2023harnessing, title={Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond}, author={Jingfeng Yang and Hongye Jin and Rui...

  • 2023-07-10

    [译][论文] LLaMA:开放和高效的基础语言模型集(Meta/Facebook,2022)

    译者序本文翻译自 2022 年 Meta(facebook)的大模型论文:LLaMA: Open and Efficient Foundation Language Models。作者阵容:Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet,Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, EricHambro, Faisal Azhar, Aurelien Rodri...