ArthurChiao's Blog

Recent Posts

  • 2020-04-25

    Monitoring Linux Network Stack

    This post shows how to collecte metrics from your Linux network stack (withbash scripts), and monitoring the stack status with Prometheus and Grafana.This post assumes you have read through the following posts (kernel 3.13 + intel 1Gbps NIC driver): Monitoring and T...

  • 2020-04-10

    L4LB for Kubernetes: Theory and Practice with Cilium+BGP+ECMP

    1. Problem Definition 2. Requirement Analysis 2.1 L4LB Model 2.2 Special Considerations 2.3 Technical Requirements Summary 3. A L4LB Solution 3.1. BIRD - BGP agent 3.2. Cilium - Networking agent 3.3. ECMP - Physical lin...

  • 2020-03-22

    [译] BGP 泄露和加密货币(2018)

    译者序本文翻译自 2018 年 Cloudflare 的一篇博客BGP leaks and cryptocurrencies。由于译者水平有限,本文不免存在遗漏或错误之处。如有疑问,请查阅原文。以下是译文。 译者序 1. BGP 是什么? 2. 什么是 BGP 泄露? 3. 今天发生了什么? 4. 正常和被劫持状态下的路由示意图 5. 受影响区域 6. 责任在谁? 7. 有办法避免这种问题吗?CC BY 2.0 image by elhombredenegro过去几个小时涌现出很多报导同一故事的新闻:某个黑客如何...

  • 2020-03-21

    [译] Verizon 和一个 BGP Optimizer 如何导致了全球大面积断网(2019)

    译者序本文翻译自 2019 年的 Cloudflare 的一篇博客How Verizon and a BGP Optimizer Knocked Large Parts of the Internet OfflineToday。互联网是一个真正的全球分布式网络,来自不同网络提供商(ISP)的自治域(AS)基于BGP 交换路由,最终整张网络收敛到一致状态。ISP 负责向用户提供稳定的网络服务,但这需要所有 ISP 的密切配合,仅仅做好自家的工作是不够的,因为这个世界永远有猪队友。此次故障的根源是一家小公司的 BGP Optimiz...

  • 2020-02-28

    [译] 云原生时代,是否还需要 VPC 做应用安全?(2020)

    译者序本文翻译自 2020 年的一篇英文文章 DO I REALLY NEED AVPC?。由于译者水平有限,本文不免存在遗漏或错误之处。如有疑问,请查阅原文。以下是译文。 从安全的角度来说,VPC 非但不是一种超能力,反而是另一层责任(another layerof responsibility)。准备在 AWS 上部署应用?那你需要一个 VPC:这种虚拟私有网络(virtual private network)能够保护你的应用免受来自公网的攻击,就像它们部署在老式数据中心一样。这是“虚拟机为王” —— 即所谓的 Cloud...

  • 2020-02-16

    [笔记]《Site Reliability Engineering》(OReilly, 2016)

    编者按本文是阅读 Site Reliability Engineering: How Google Runs Production Systems一书时所做的一些笔记。这本书其实是以 SRE 为主题串联起来的一本 Google 技术合辑,涵盖了 Google 的大部分技术栈,各章都是由不同团队或个人撰写的(其中很多篇都是在收录到本书之前就发表了的)。除了综述性质的前两章开篇,后面各章都可以独立阅读。本文内容仅供学习交流,如有侵权立即删除。目录 前言 第一部分:概览 1. 引言:何为 SRE 2. ...

  • 2020-02-01

    [译] 操作系统是什么?1954-1964 历史调查(2019)

    译者序本文内容来自一篇调查综述 What is an Operating System? A historical investigation (1954–1964)。论文引用信息: Maarten Bullynck. What is an Operating System? A historical investigation(1954–1964). Reflections on Programming Systems. Historical and PhilosophicalAspects, 2019. halshs-01...

  • 2020-01-26

    [译] 一切系统都是分布式的(OReilly, 2015)

    译者序本文内容来自 2015 年的一本小册子 Everything is distributed(下载Free-OReilly-Books),其中集合了 5篇与性能和运维相关的文章,本文翻译其中第二篇 Everything isdistributed。这篇文章思考有一定深度,但部分观点恐怕失之颇偏,比如作者认为分布式系统中的故障没有根本原因(There is no root cause)、查找 root cause 多半是徒劳等等。本文内容仅供学习交流,如有侵权立即删除。由于译者水平有限,本文不免存在遗漏或错误之处。如有疑问,请...

  • 2020-01-19

    Trip.com: First Step towards Cloud Native Networking

    Update [2020-04-25]: This post was summarized by Cilium official blog:User Story - How Trip.com uses Cilium. 1. Problems and requirements 1.1 Limitations of current networking scheme 1.2 Re-examine current solution 2. Cloud-native L3 network ...

  • 2020-01-17

    [译] OKR 极简史(OReilly, 2016)

    译者序本文内容来自 2016 年的一本免费电子书:Introduction toOKRs。本文翻译原书第二章 Chapter 2: An Extremely Short History of OKRs。如果以上链接打不开,可以从这里下载:Free-OReilly-Books 。本文内容仅供学习交流,如有侵权立即删除。由于译者水平有限,本文不免存在遗漏或错误之处。如有疑问,请查阅原文。以下是译文。Index 什么是 OKR? 1.1 Objectives(目标) 1.2 Key Results(关键成...