Recent Posts
-
2024-09-12
JuiceFS 元数据引擎再探:开箱解读 TiKV 中的 JuiceFS 元数据(2024)
Fig. JuiceFS upload/download data bandwidth control. JuiceFS 元数据引擎初探:高层架构、引擎选型、读写工作流(2024) JuiceFS 元数据引擎再探:开箱解读 TiKV 中的 JuiceFS 元数据(2024) JuiceFS 元数据引擎三探:从实践中学习 TiKV 的 MVCC 和 GC(2024) JuiceFS 元数据引擎四探:元数据大小评估、限流与限速的设计思考(2024) JuiceFS 元数据引擎五探:元数据备份与恢复(2024)水平及维护精力...
-
2024-09-12
JuiceFS 元数据引擎初探:高层架构、引擎选型、读写工作流(2024)
Fig. JuiceFS cluster initialization, and how POSIX file operations are handled by JuiceFS. JuiceFS 元数据引擎初探:高层架构、引擎选型、读写工作流(2024) JuiceFS 元数据引擎再探:开箱解读 TiKV 中的 JuiceFS 元数据(2024) JuiceFS 元数据引擎三探:从实践中学习 TiKV 的 MVCC 和 GC(2024) JuiceFS 元数据引擎四探:元数据大小评估、限流与限速的设计思考(2024) ...
-
2024-08-19
GPU 进阶笔记(四):NVIDIA GH200 芯片、服务器及集群组网(2024)
记录一些平时接触到的 GPU 知识。由于是笔记而非教程,因此内容不求连贯,有基础的同学可作查漏补缺之用。 GPU 进阶笔记(一):高性能 GPU 服务器硬件拓扑与集群组网(2023) GPU 进阶笔记(二):华为昇腾 910B GPU 相关(2023) GPU 进阶笔记(三):华为 NPU (GPU) 演进(2024) GPU 进阶笔记(四):NVIDIA GH200 芯片、服务器及集群组网(2024)水平及维护精力所限,文中不免存在错误或过时之处,请酌情参考。传播知识,尊重劳动,年满十八周岁,转载请注明出处。 1 传...
-
2024-08-04
大模型 RAG 基础:信息检索、文本向量化及 BGE-M3 embedding 实践(2024)
本文整理一些文本向量化(embedding)和信息检索的知识,它们是如今大模型生成文本时常用的技术 —— “增强检索生成”(RAG)—— 的基础:Fig. Similarity score based on BERT embedding. Image source水平及维护精力所限,文中不免存在错误或过时之处,请酌情参考。传播知识,尊重劳动,年满十八周岁,转载请注明出处。 1 信息检索(information retrieval)技术三大发展阶段 1.1 基于统计信息和关键词匹配(1970s-2010s) ...
-
2024-07-28
Linux 时钟源之 TSC:软硬件原理、使用场景、已知问题(2024)
本文整理了一些 Linux 时钟源 tsc 相关的软硬件知识,在一些故障排查场景可能会用到。Fig. Scaling up crystal frequency for different components of a computer.Image source Youtube水平及维护精力所限,文中不免存在错误或过时之处,请酌情参考。传播知识,尊重劳动,年满十八周岁,转载请注明出处。 1 计算机组件的运行频率 1.1 时钟源:~20MHz 的石英晶体谐振器(quartz crystal resonator)...
-
2024-07-13
图解 JuiceFS CSI 工作流:K8s 创建带 PV 的 Pod 时,背后发生了什么(2024)
JuiceFS 是一个架设在对象存储(S3、Ceph、OSS 等)之上的分布式文件系统,简单来说, 对象存储:只能通过 key/value 方式使用; 文件系统:日常看到的文件目录,能执行 ls/cat/find/truncate 等等之类的文件读写操作。本文从 high-level 梳理了 JuiceFS CSI 方案中,当创建一个带 PV 的 pod 以及随后 pod 读写 PV 时,k8s/juicefs 组件在背后都做了什么,方便快速了解 K8s CSI 机制及 JuiceFS 的基本工作原理。水平及维护精力所限,文...
-
2024-06-26
TCP Requests Stuck After Connection Established(2024)
This post describes a kernel & BPF networking problemand the trouble shooting steps, which is an interesting case for delving intoLinux kernel networking intricacies.Fig. Phenomenon of a reported issue. 1 Trouble report 1.1 Phenomenon: probabilistic hea...
-
2024-05-26
Practical Storage Hierarchy and Performance: From HDDs to On-chip Caches(2024)
This post summarizes bandwidths for local storage media, networkinginfra, as well as remote storage systems. Readers may find this helpful whenidentifying bottlenecks in IO-intensive applications(e.g. AI training and LLM inference).Fig. Peak bandwidth of storage medi...
-
2024-05-12
[译] 什么是 GPT?Transformer 工作原理的动画展示(2024)
译者序本文翻译自 2024 年的一个视频(前半部分),这是原作者 Deep Learning 系列的第 5 章,强烈推荐原视频: Youtube:But what is a GPT? Visual intro to transformers; B 站:官方搬运。Transformer 预测下一个单词四部曲。MLP 也称为 feed-forward。作者以深厚的技术积累,将一些复杂系统以可视化的方式讲给普通人,这种能力是极其难得的。本译文希望通过“文字+动图”这种可视化又方便随时停下来思考的方式介绍 Transformer 的...
-
2024-04-21
[译] Meta/Facebook 超大规模 AI/GPU 基础设施设计(2024)
本文翻译自 2024 年 Meta/Facebook 的一篇文章:Building Meta’s GenAI Infrastructure。 两个 GPU 集群,每个集群 2.4w H100,分别用 RoCE/InfiniBand 网络; LLaMA3 就是在这两个集群上训练出来的; 预计到 2024 年底,Meta AI 基础设施建设将拥有 35w 张 H100 GPU,总算力相当于约 60w 张 H100。水平及维护精力所限,译文不免存在错误或过时之处,如有疑问,请查阅原文。传播知识,尊重劳动,年满十八周岁,转载请注明...