ArthurChiao's Blog

Recent Posts

  • 2024-05-26

    Practical Storage Hierarchy and Performance: From HDDs to On-chip Caches(2024)

    This post summarizes bandwidths for local storage media, networkinginfra, as well as remote storage systems. Readers may find this helpful whenidentifying bottlenecks in IO-intensive applications(e.g. AI training and LLM inference).Fig. Peak bandwidth of storage medi...

  • 2024-05-12

    [译] 什么是 GPT?Transformer 工作原理的动画展示(2024)

    译者序本文翻译自 2024 年的一个视频(前半部分),这是原作者 Deep Learning 系列的第 5 章,强烈推荐原视频: Youtube:But what is a GPT? Visual intro to transformers; B 站:官方搬运。Transformer 预测下一个单词四部曲。MLP 也称为 feed-forward。作者以深厚的技术积累,将一些复杂系统以可视化的方式讲给普通人,这种能力是极其难得的。本译文希望通过“文字+动图”这种可视化又方便随时停下来思考的方式介绍 Transformer 的...

  • 2024-04-21

    [译] Meta/Facebook 超大规模 AI/GPU 基础设施设计(2024)

    本文翻译自 2024 年 Meta/Facebook 的一篇文章:Building Meta’s GenAI Infrastructure。 两个 GPU 集群,每个集群 2.4w H100,分别用 RoCE/InfiniBand 网络; LLaMA3 就是在这两个集群上训练出来的; 预计到 2024 年底,Meta AI 基础设施建设将拥有 35w 张 H100 GPU,总算力相当于约 60w 张 H100。由于译者水平有限,本文不免存在遗漏或错误之处。如有疑问,请查阅原文。以下是译文。 1 第一代 GPU 集群:1....

  • 2024-04-06

    [译] 大模型推理的极限:理论分析、数学建模与 CPU/GPU 实测(2024)

    译者序本文翻译自 2024 年的一篇文章:LLM inference speed of light,分析了大模型推理的速度瓶颈及量化评估方式,并给出了一些实测数据(我们在国产模型上的实测结果也大体吻合),对理解大模型推理内部工作机制和推理优化较有帮助。A100-80GB PICe 推理延迟与吞吐。Image Source译者水平有限,不免存在遗漏或错误之处。如有疑问,敬请查阅原文。以下是译文。 译者序 摘要 1 推理机制 1.1 transformer:逐 token 生成,无法并行 1.2 生...

  • 2024-03-24

    [译][论文] InstructGPT:基于人类反馈训练语言模型遵从指令的能力(OpenAI,2022)

    译者序本文翻译自 2022 年 OpenAI 的论文:Training language models to follow instructions with human feedback,整理翻译了其中感兴趣的部分。大模型进化树,可以看到 InstructGPT 所处的年代和位置。来自 大语言模型(LLM)综述与实用指南(Amazon,2023)。GPT -> InstructGPT -> ChatGPT 的过程,可参考如何训练一个企业级 GPT 助手(OpenAI,2023)。译者水平有限,不免存在遗漏或错误之处...

  • 2024-03-10

    [译][论文] BERT:预训练深度双向 Transformers 做语言理解(Google,2019)

    译者序本文翻译自 2019 年 Google 的论文:BETT: Pre-training of Deep Bidirectional Transformers for Language Understanding。@article{devlin2018bert, title={BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding}, author={Devlin, Jacob and Chang, Ming-Wei ...

  • 2024-02-25

    K8s 调度框架设计与 scheduler plugins 开发部署示例(2024)

    1 引言 1.1 调度框架(sceduling framework)扩展点 1.1.1 影响调度决策的扩展点 1.1.2 不影响调度决策的扩展点(informational) 1.2 调度插件分类 1.2.1 in-tree plugins 1.2.2 out-of-tree plugins 1.3 每个扩展点上分别有哪些内置插件...

  • 2024-02-15

    Linux 服务器功耗与性能管理(五):问题讨论(2024)

    整理一些 Linux 服务器性能相关的 CPU 硬件基础及内核子系统知识。水平有限,文中不免有错误或过时之处,请酌情参考。 Linux 服务器功耗与性能管理(一):CPU 硬件基础(2024) Linux 服务器功耗与性能管理(二):几个内核子系统的设计(2024) Linux 服务器功耗与性能管理(三):cpuidle 子系统的实现(2024) Linux 服务器功耗与性能管理(四):监控、配置、调优(2024) Linux 服务器功耗与性能管理(五):问题讨论(2024) 1 idle=poll 的潜在风险 ...

  • 2024-02-15

    Linux 服务器功耗与性能管理(四):监控、配置、调优(2024)

    整理一些 Linux 服务器性能相关的 CPU 硬件基础及内核子系统知识。水平有限,文中不免有错误或过时之处,请酌情参考。 Linux 服务器功耗与性能管理(一):CPU 硬件基础(2024) Linux 服务器功耗与性能管理(二):几个内核子系统的设计(2024) Linux 服务器功耗与性能管理(三):cpuidle 子系统的实现(2024) Linux 服务器功耗与性能管理(四):监控、配置、调优(2024) Linux 服务器功耗与性能管理(五):问题讨论(2024) 1 sysfs 相关目录 ...

  • 2024-02-15

    Linux 服务器功耗与性能管理(三):cpuidle 子系统的实现(2024)

    整理一些 Linux 服务器性能相关的 CPU 硬件基础及内核子系统知识。水平有限,文中不免有错误或过时之处,请酌情参考。 Linux 服务器功耗与性能管理(一):CPU 硬件基础(2024) Linux 服务器功耗与性能管理(二):几个内核子系统的设计(2024) Linux 服务器功耗与性能管理(三):cpuidle 子系统的实现(2024) Linux 服务器功耗与性能管理(四):监控、配置、调优(2024) Linux 服务器功耗与性能管理(五):问题讨论(2024) 1 结构体 1.1 s...