ArthurChiao's Blog

Recent Posts

  • 2023-07-23

    [译][论文] 大语言模型(LLM)综述与实用指南(Amazon,2023)

    译者序本文来自 2023 年一篇大模型论文:Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond,翻译了其中感兴趣的部分。论文信息:@article{yang2023harnessing, title={Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond}, author={Jingfeng Yang and Hongye Jin and Ru...

  • 2023-07-10

    [译][论文] LLaMA:开放和高效的基础语言模型集(Meta/Facebook,2022)

    译者序本文翻译自 2022 年 Meta(facebook)的大模型论文:LLaMA: Open and Efficient Foundation Language Models。作者阵容:Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet,Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, EricHambro, Faisal Azhar, Aurelien Rodri...

  • 2023-06-22

    [译] 长文写作的魔力(2022)

    译者序本文翻译自 2022 年的一篇文章:Writing Is Magic。作者 Marc Brooker 在 AWS,是 databases, serverless, EC2, EBS 等多个领域的专家。译者水平有限,不免存在遗漏或错误之处。如有疑问,敬请查阅原文。以下是译文。 译者序 1 提升影响力的方式 2 写(文档和长文)的好处 2.1 让自己真正想透问题(clarity) 2.2 让受众思考更专注(attention) 2.3 让时间和空间影响力更大(scale) ...

  • 2023-06-17

    GPU Prices Quick Reference (2023)

    This post lists some GPU node prices collected from several public cloudvendors, intended primarily for personal reference. Note that these prices aresubject to change over time, so if you are planning a serious budget, pleaseconsult each cloud vendor’s pricing page ...

  • 2023-06-11

    [译] 以图像识别为例,关于卷积神经网络(CNN)的直观解释(2016)

    译者序本文翻译自 2016 年的一篇文章:An Intuitive Explanation of Convolutional Neural Networks。作者以图像识别为例,用图文而非数学公式的方式解释了卷积神经网络的工作原理,适合初学者和外行扫盲。译者水平有限,不免存在遗漏或错误之处。如有疑问,敬请查阅原文。以下是译文。 译者序 1 卷积神经网络(CNN) 1.1 应用场景 1.2 起源:LeNet, 1990s 1.3 现代架构 2 CNN:直观解释 ...

  • 2023-06-06

    [译] Transformer 是如何工作的:600 行 Python 代码实现两个(文本分类+文本生成)Transformer(2019)

    译者序本文整理和翻译自 2019 年(最后更新 2023 年)的一篇文章:Transformers From Scratch。如果对 transformer 的使用场景和所处位置还不清楚,可以先看一下这篇: GPT 是如何工作的:200 行 Python 代码实现一个极简 GPT(2023)理解本文大部分内容只需要基本的高数知识(矩阵乘法)。原文代码见这里,不过训练代码用到的一些库更新非常快,因此跑起来可能有点困难。有兴趣有时间的可以考虑基于较新版本的库重构一下self-attention/transformer 及训练代码。...

  • 2023-05-21

    [译] GPT 是如何工作的:200 行 Python 代码实现一个极简 GPT(2023)

    译者序本文整理和翻译自 2023 年 Andrej Karpathy 的 twitter 和一篇文章:GPT as a finite-state markov chain。Andrej Karpathy 博士 2015 毕业于斯坦福,之后先在 OpenAI 待了两年,是 OpenAI的创始成员和研究科学家,2017 年加入 Tesla,带领 Tesla Autopilot 团队,2022 年离职后在 Youtube 上科普人工智能相关技术,2023 年重新回归 OpenAI。本文实际上是基于 PyTorch,并不是完全只用基础 ...

  • 2023-03-19

    TCP Retransmission May Be Misleading (2023)

    TL; DRModern kernels by default enable a TCP option called Tail Loss Probe (TLP),which actively sends the so-called “probe” packets to achieve TCP fastrecovery. A side effect is that a large part of those probe packets isclassified into TCP retransmissions (in good q...

  • 2023-03-02

    [译] Borg、Omega、K8s:Google 十年三代容器管理系统的设计与思考(ACM, 2016)

    译者序本文翻译自 Borg, Omega, and Kubernetes,acmqueue Volume 14,issue 1(2016),原文副标题为 Lessons learned from three container-management systems over a decade。作者 Brendan Burns, Brian Grant, David Oppenheimer, Eric Brewer, and John Wilkes,均来自 Google。文章介绍了 Google 在过去十多年设计和使用前后三代容器...

  • 2023-02-05

    Linux CFS 调度器:原理、设计与内核实现(2023)

    整理一些 Linux 默认调度器 CFS 相关的东西。CFS、cgroup 等内核技术合力实现了进程的CPU 资源限额(CPU 带宽控制),这是容器的基础之一。 1 概念及关系 1.1 CFS:进程(task)的公平调度 1.2 CFS 扩展 1.2.1 前提:CONFIG_CGROUPS 1.2.2 前提:CONFIG_CGROUP_SCHED 1.2.3 扩展:支持实时进程组(CONFIG_RT_GROUP_SCHED) ...