Recent Posts
K8s 的核心是 API 而非容器(二):从开源项目看 k8s 的几种 API 扩展机制(2023)
Fig. kube-apiserver internal flows when processing a request. Image source Programming Kubernetes, O'Reilly第一篇介绍了 k8s 的 API 设计。本文作为第二篇,通过具体开源项目来了解 k8s API 的几种扩展机制。 K8s 的核心是 API 而非容器(一):从理论到 CRD 实践(2022) K8s 的核心是 API 而非容器(二):从开源项目看 k8s 的几种 API 扩展机制(2023) 1 引言 ...
Linux Load Average:算法、实现与实用指南(2023)
借着遇到的一个问题,研究下 loadavg 的算法和实现。 1 一次 load spike 问题排查 1.1 现象 1.2 排查 1.2.1 宿主机监控:load 和 running 线程数量趋势一致 1.2.2 定位到进程(Pod) 1.2.3 Pod 监控:大量线程周期性状态切换 1.2.4 交叉验证 1.3 进一步排查方向 1.4 疑问 2 lo...
GPU 进阶笔记(一):高性能 GPU 服务器硬件拓扑与集群组网(2023)
记录一些平时接触到的 GPU 知识。由于是笔记而非教程,因此内容不求连贯,有基础的同学可作查漏补缺之用。 GPU 进阶笔记(一):高性能 GPU 服务器硬件拓扑与集群组网(2023) GPU 进阶笔记(二):华为昇腾 910B GPU 相关(2023) GPU 进阶笔记(三):华为 NPU (GPU) 演进(2024) GPU 进阶笔记(四):NVIDIA GH200 芯片、服务器及集群组网(2024)水平及维护精力所限,文中不免存在错误或过时之处,请酌情参考。传播知识,尊重劳动,年满十八周岁,转载请注明出处。 1 术...
[译] 如何训练一个企业级 GPT 助手(OpenAI,2023)
译者序本文来自 OpenAI 的 Andrej Karpathy 在 Microsoft Build 2023 大会的分享:State of GPT。原分享包括两部分, 如何训练一个 GPT 助手; 如何有效地将这些助手 apply 到应用程序中。本文翻译了其中第一部分。作者之前还有一篇“如何训练一个乞丐级 GPT”:GPT 是如何工作的:200 行 Python 代码实现一个极简 GPT(2023)。另外,InstructGPT:基于人类反馈训练语言模型遵从指令的能力(OpenAI,2022) 有助于深入理解本文。译者水平...
Understanding NVIDIA GPU Performance: Utilization vs. Saturation (2023)
GPU performance metrics reported by tools like nvidia-smi may be misleading.This blog delves into the underlying issue to provide a deeper understanding. 1 NVIDIA "GPU util": a confusing phenomenon 2 GPU Util: a misleading term? 2.1 Definition from officia...
[译][论文] LLaMA 2:开放基础和微调聊天模型(Meta/Facebook,2023)
译者序本文来自 2023 年 Meta(facebook)的大模型论文:Llama 2: Open Foundation and Fine-Tuned Chat Models。翻译了其中感兴趣的部分。LLaMA2 用了两个 GPU 集群进行训练: RSC 集群:200Gbps InfiniBand + 400W A100 GPU; 生产集群:200Gbps RoCE + 350W A100 GPU;RoCE + 350W GPU 的集群,经过优化的代码能达到IB + 400W GPU 集群性能的 90%。总共耗费 3.3M ...
[译][论文] 大语言模型(LLM)综述与实用指南(Amazon,2023)
译者序本文来自 2023 年一篇大模型论文:Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond,翻译了其中感兴趣的部分。论文信息:@article{yang2023harnessing, title={Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond}, author={Jingfeng Yang and Hongye Jin and Rui...
[译][论文] LLaMA:开放和高效的基础语言模型集(Meta/Facebook,2022)
译者序本文翻译自 2022 年 Meta(facebook)的大模型论文:LLaMA: Open and Efficient Foundation Language Models。作者阵容:Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet,Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, EricHambro, Faisal Azhar, Aurelien Rodri...
[译] 长文写作的魔力(2022)
译者序本文翻译自 2022 年的一篇文章:Writing Is Magic。作者 Marc Brooker 在 AWS,是 databases, serverless, EC2, EBS 等多个领域的专家。译者水平有限,不免存在遗漏或错误之处。如有疑问,敬请查阅原文。以下是译文。 译者序 1 提升影响力的方式 2 写(文档和长文)的好处 2.1 让自己真正想透问题(clarity) 2.2 让受众思考更专注(attention) 2.3 让时间和空间影响力更大(scale) ...
GPU Prices Quick Reference (2023)
This post lists some GPU node prices collected from several public cloudvendors, intended primarily for personal reference. Note that these prices aresubject to change over time, so if you are planning a serious budget, pleaseconsult each cloud vendor’s pricing page ...