ArthurChiao's Blog

Recent Posts

  • 2023-11-29

    Virtual Machines on Kubernetes: Requirements and Solutions (2023)

    Fig. Running (full-feature) VMs inside containers, phasing out OpenStack. Solutions: kubevirt, etc 1 Introduction 1.1 Pratical reasons 1.2 Resource provision and orchestration 1.2.1 Cloud computing era 1.2.2 Cloud Native era ...

  • 2023-11-05

    [译] 100 行 C 代码创建一个 KVM 虚拟机(2019)

    译者序本文核心内容来自 2019 年的一篇英文博客:KVM HOST IN A FEW LINES OF CODE, 首先基于 KVM API 用 100 来行 C 代码实现一个极简虚拟机管理程序(类比 VirtualBox); 然后用 10 来行汇编代码编写一个极简内核,然后将其制作成虚拟机镜像(类比 Ubuntu/Linux); 然后把 2 作为输入传给 1,就能创建出一个虚拟机并运行。本文重新组织和注释了原文核心部分,并做了一些内容扩展,供个人学习参考。为尊重原作者劳动,本文仍以 [译] 作为标题开头,但注意内容和顺...

  • 2023-10-25

    GPU Performance (Data Sheets) Quick Reference (2023)

    This post provides a concise reference for the performance of popular GPUmodels from NVIDIA and Huawei/HiSilicon, primarily intended for personal use. 1 Introduction Naming convention of NVIDIA GPUs 2 Comparison of L2/L4/T4/A10/V100 3 Comparison of ...

  • 2023-10-25

    GPU 进阶笔记(二):华为昇腾 910B GPU 相关(2023)

    记录一些平时接触到的 GPU 知识。由于是笔记而非教程,因此内容不会追求连贯,有基础的同学可作查漏补缺之用。水平有限,文中不免有错误或过时之处,请酌情参考。 GPU 进阶笔记(一):高性能 GPU 服务器硬件拓扑与集群组网(2023) GPU 进阶笔记(二):华为昇腾 910B GPU 相关(2023) GPU 进阶笔记(三):华为 NPU (GPU) 演进(2024) 1 术语 1.1 与 NVIDIA 术语对应关系 1.2 缩写 2 产品与机器 2.1 GP...

  • 2023-10-14

    K8s 的核心是 API 而非容器(二):从开源项目看 k8s 的几种 API 扩展机制(2023)

    Fig. kube-apiserver internal flows when processing a request. Image source Programming Kubernetes, O'Reilly第一篇介绍了 k8s 的 API 设计。本文作为第二篇,通过具体开源项目来了解 k8s API 的几种扩展机制。 K8s 的核心是 API 而非容器(一):从理论到 CRD 实践(2022) K8s 的核心是 API 而非容器(二):从开源项目看 k8s 的几种 API 扩展机制(2023) 1 引言 ...

  • 2023-10-03

    Linux Load Average:算法、实现与实用指南(2023)

    借着遇到的一个问题,研究下 loadavg 的算法和实现。 1 一次 load spike 问题排查 1.1 现象 1.2 排查 1.2.1 宿主机监控:load 和 running 线程数量趋势一致 1.2.2 定位到进程(Pod) 1.2.3 Pod 监控:大量线程周期性状态切换 1.2.4 交叉验证 1.3 进一步排查方向 1.4 疑问 2 lo...

  • 2023-09-16

    GPU 进阶笔记(一):高性能 GPU 服务器硬件拓扑与集群组网(2023)

    记录一些平时接触到的 GPU 知识。由于是笔记而非教程,因此内容不会追求连贯,有基础的同学可作查漏补缺之用。水平有限,文中不免有错误或过时之处,请酌情参考。 GPU 进阶笔记(一):高性能 GPU 服务器硬件拓扑与集群组网(2023) GPU 进阶笔记(二):华为昇腾 910B GPU 相关(2023) GPU 进阶笔记(三):华为 NPU (GPU) 演进(2024) 1 术语与基础 1.1 PCIe 交换芯片 1.2 NVLink 定义 ...

  • 2023-09-01

    [译] 如何训练一个企业级 GPT 助手(OpenAI,2023)

    译者序本文来自 OpenAI 的 Andrej Karpathy 在 Microsoft Build 2023 大会的分享:State of GPT。原分享包括两部分, 如何训练一个 GPT 助手; 如何有效地将这些助手 apply 到应用程序中。本文翻译了其中第一部分。作者之前还有一篇“如何训练一个乞丐级 GPT”:GPT 是如何工作的:200 行 Python 代码实现一个极简 GPT(2023)译者水平有限,不免存在遗漏或错误之处。如有疑问,敬请查阅原文。以下是译文。 译者序 0 引言 1 预训练 ...

  • 2023-08-27

    Understanding NVIDIA GPU Performance: Utilization vs. Saturation (2023)

    GPU performance metrics reported by tools like nvidia-smi may be misleading.This blog delves into the underlying issue to provide a deeper understanding. 1 NVIDIA "GPU util": a confusing phenomenon 2 GPU Util: a misleading term? 2.1 Definition from officia...

  • 2023-08-06

    [译][论文] LLaMA 2:开放基础和微调聊天模型(Meta/Facebook,2023)

    译者序本文来自 2023 年 Meta(facebook)的大模型论文:Llama 2: Open Foundation and Fine-Tuned Chat Models。翻译了其中感兴趣的部分。LLaMA2 用了两个 GPU 集群进行训练: RSC 集群:200Gbps InfiniBand + 400W A100 GPU; 生产集群:200Gbps RoCE + 350W A100 GPU;RoCE + 350W GPU 的集群,经过优化的代码能达到IB + 400W GPU 集群性能的 90%。总共耗费 3.3M ...