ArthurChiao's Blog

Recent Posts

  • 2023-11-30

    Spawn a Virtual Machine in Kubernetes with kubevirt: A Deep Dive (2023)

    Fig. kubevirt architecture overviewAn introductory post before this deep dive:Virtual Machines on Kubernetes: Requirements and Solutions (2023)Based on kubevirt v1.0.0, v1.1.0. 1 virt-handler startup 1.1 Agent responsibilities 1.2 Start and initializat...

  • 2023-11-29

    Virtual Machines on Kubernetes: Requirements and Solutions (2023)

    Fig. Running (full-feature) VMs inside containers, phasing out OpenStack. Solutions: kubevirt, etc 1 Introduction 1.1 Pratical reasons 1.2 Resource provision and orchestration 1.2.1 Cloud computing era 1.2.2 Cloud Native era ...

  • 2023-11-05

    [译] 100 行 C 代码创建一个 KVM 虚拟机(2019)

    译者序本文核心内容来自 2019 年的一篇英文博客:KVM HOST IN A FEW LINES OF CODE, 首先基于 KVM API 用 100 来行 C 代码实现一个极简虚拟机管理程序(类比 VirtualBox); 然后用 10 来行汇编代码编写一个极简内核,然后将其制作成虚拟机镜像(类比 Ubuntu/Linux); 然后把 2 作为输入传给 1,就能创建出一个虚拟机并运行。本文重新组织和注释了原文核心部分,并做了一些内容扩展,供个人学习参考。为尊重原作者劳动,本文仍以 [译] 作为标题开头,但注意内容和顺...

  • 2023-10-25

    GPU Performance (Data Sheets) Quick Reference (2023)

    This post provides a concise reference for the performance of popular GPUmodels from NVIDIA and Huawei/HiSilicon, primarily intended for personal use. 1 Introduction 1.1 Naming convention of NVIDIA GPUs 2 Comparison of L2/L4/T4/A10/V100 3 Comparison...

  • 2023-10-25

    GPU 进阶笔记(二):华为昇腾 910B GPU 相关(2023)

    记录一些平时接触到的 GPU 知识。由于是笔记而非教程,因此内容不求连贯,有基础的同学可作查漏补缺之用。 GPU 进阶笔记(一):高性能 GPU 服务器硬件拓扑与集群组网(2023) GPU 进阶笔记(二):华为昇腾 910B GPU 相关(2023) GPU 进阶笔记(三):华为 NPU (GPU) 演进(2024) GPU 进阶笔记(四):NVIDIA GH200 芯片、服务器及集群组网(2024)水平及维护精力所限,文中不免存在错误或过时之处,请酌情参考。传播知识,尊重劳动,年满十八周岁,转载请注明出处。 1 术...

  • 2023-10-14

    K8s 的核心是 API 而非容器(二):从开源项目看 k8s 的几种 API 扩展机制(2023)

    Fig. kube-apiserver internal flows when processing a request. Image source Programming Kubernetes, O'Reilly第一篇介绍了 k8s 的 API 设计。本文作为第二篇,通过具体开源项目来了解 k8s API 的几种扩展机制。 K8s 的核心是 API 而非容器(一):从理论到 CRD 实践(2022) K8s 的核心是 API 而非容器(二):从开源项目看 k8s 的几种 API 扩展机制(2023) 1 引言 ...

  • 2023-10-03

    Linux Load Average:算法、实现与实用指南(2023)

    借着遇到的一个问题,研究下 loadavg 的算法和实现。 1 一次 load spike 问题排查 1.1 现象 1.2 排查 1.2.1 宿主机监控:load 和 running 线程数量趋势一致 1.2.2 定位到进程(Pod) 1.2.3 Pod 监控:大量线程周期性状态切换 1.2.4 交叉验证 1.3 进一步排查方向 1.4 疑问 2 lo...

  • 2023-09-16

    GPU 进阶笔记(一):高性能 GPU 服务器硬件拓扑与集群组网(2023)

    记录一些平时接触到的 GPU 知识。由于是笔记而非教程,因此内容不求连贯,有基础的同学可作查漏补缺之用。 GPU 进阶笔记(一):高性能 GPU 服务器硬件拓扑与集群组网(2023) GPU 进阶笔记(二):华为昇腾 910B GPU 相关(2023) GPU 进阶笔记(三):华为 NPU (GPU) 演进(2024) GPU 进阶笔记(四):NVIDIA GH200 芯片、服务器及集群组网(2024)水平及维护精力所限,文中不免存在错误或过时之处,请酌情参考。传播知识,尊重劳动,年满十八周岁,转载请注明出处。 1 术...

  • 2023-09-01

    [译] 如何训练一个企业级 GPT 助手(OpenAI,2023)

    译者序本文来自 OpenAI 的 Andrej Karpathy 在 Microsoft Build 2023 大会的分享:State of GPT。原分享包括两部分, 如何训练一个 GPT 助手; 如何有效地将这些助手 apply 到应用程序中。本文翻译了其中第一部分。作者之前还有一篇“如何训练一个乞丐级 GPT”:GPT 是如何工作的:200 行 Python 代码实现一个极简 GPT(2023)。另外,InstructGPT:基于人类反馈训练语言模型遵从指令的能力(OpenAI,2022) 有助于深入理解本文。译者水平...

  • 2023-08-27

    Understanding NVIDIA GPU Performance: Utilization vs. Saturation (2023)

    GPU performance metrics reported by tools like nvidia-smi may be misleading.This blog delves into the underlying issue to provide a deeper understanding. 1 NVIDIA "GPU util": a confusing phenomenon 2 GPU Util: a misleading term? 2.1 Definition from officia...