ArthurChiao's Blog

Recent Posts

  • 2023-08-27

    Understanding NVIDIA GPU Performance: Utilization vs. Saturation (2023)

    GPU performance metrics reported by tools like nvidia-smi may be misleading.This blog delves into the underlying issue to provide a deeper understanding. 1 NVIDIA "GPU util": a confusing phenomenon 2 GPU Util: a misleading term? 2.1 Definition from officia...

  • 2023-08-06

    [译][论文] LLaMA 2:开放基础和微调聊天模型(Meta/Facebook,2023)

    译者序本文来自 2023 年 Meta(facebook)的大模型论文:Llama 2: Open Foundation and Fine-Tuned Chat Models。翻译了其中感兴趣的部分。LLaMA2 用了两个 GPU 集群进行训练: RSC 集群:200Gbps InfiniBand + 400W A100 GPU; 生产集群:200Gbps RoCE + 350W A100 GPU;RoCE + 350W GPU 的集群,经过优化的代码能达到IB + 400W GPU 集群性能的 90%。总共耗费 3.3M ...

  • 2023-07-23

    [译][论文] 大语言模型(LLM)综述与实用指南(Amazon,2023)

    译者序本文来自 2023 年一篇大模型论文:Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond,翻译了其中感兴趣的部分。论文信息:@article{yang2023harnessing, title={Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond}, author={Jingfeng Yang and Hongye Jin and Rui...

  • 2023-07-10

    [译][论文] LLaMA:开放和高效的基础语言模型集(Meta/Facebook,2022)

    译者序本文翻译自 2022 年 Meta(facebook)的大模型论文:LLaMA: Open and Efficient Foundation Language Models。作者阵容:Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet,Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, EricHambro, Faisal Azhar, Aurelien Rodri...

  • 2023-06-22

    [译] 长文写作的魔力(2022)

    译者序本文翻译自 2022 年的一篇文章:Writing Is Magic。作者 Marc Brooker 在 AWS,是 databases, serverless, EC2, EBS 等多个领域的专家。译者水平有限,不免存在遗漏或错误之处。如有疑问,敬请查阅原文。以下是译文。 译者序 1 提升影响力的方式 2 写(文档和长文)的好处 2.1 让自己真正想透问题(clarity) 2.2 让受众思考更专注(attention) 2.3 让时间和空间影响力更大(scale) ...

  • 2023-06-17

    GPU Prices Quick Reference (2023)

    This post lists some GPU node prices collected from several public cloudvendors, intended primarily for personal reference. Note that these prices aresubject to change over time, so if you are planning a serious budget, pleaseconsult each cloud vendor’s pricing page ...

  • 2023-06-11

    [译] 以图像识别为例,关于卷积神经网络(CNN)的直观解释(2016)

    译者序本文翻译自 2016 年的一篇文章:An Intuitive Explanation of Convolutional Neural Networks。作者以图像识别为例,用图文而非数学公式的方式解释了卷积神经网络的工作原理,适合初学者和外行扫盲。译者水平有限,不免存在遗漏或错误之处。如有疑问,敬请查阅原文。以下是译文。 译者序 1 卷积神经网络(CNN) 1.1 应用场景 1.2 起源:LeNet, 1990s 1.3 现代架构 2 CNN:直观解释 ...

  • 2023-06-06

    [译] Transformer 是如何工作的:600 行 Python 代码实现 self-attention 和两类 Transformer(2019)

    译者序本文整理和翻译自 2019 年(最后更新 2023 年)的一篇文章:Transformers From Scratch,由浅入深地解释了 transformer/self-attention 背后的工作原理。如果对 transformer 的使用场景和所处位置还不清楚,可以先看一下这篇: GPT 是如何工作的:200 行 Python 代码实现一个极简 GPT(2023)理解本文大部分内容只需要基本的高数知识(矩阵乘法)和一点耐心。原文代码见这里,不过 AI 相关的库更新非常快,因此现在让跑起来可能有点困难。有兴趣有时间...

  • 2023-05-21

    [译] GPT 是如何工作的:200 行 Python 代码实现一个极简 GPT(2023)

    译者序本文整理和翻译自 2023 年 Andrej Karpathy 的 twitter 和一篇文章:GPT as a finite-state markov chain。Andrej Karpathy 博士 2015 毕业于斯坦福,之后先在 OpenAI 待了两年,是 OpenAI的创始成员和研究科学家,2017 年加入 Tesla,带领 Tesla Autopilot 团队,2022 年离职后在 Youtube 上科普人工智能相关技术,2023 年重新回归 OpenAI。本文实际上是基于 PyTorch,并不是完全只用基础 ...

  • 2023-03-19

    TCP Retransmission May Be Misleading (2023)

    TL; DRModern kernels by default enable a TCP option called Tail Loss Probe (TLP),which actively sends the so-called “probe” packets to achieve TCP fastrecovery. A side effect is that a large part of those probe packets isclassified into TCP retransmissions (in good q...