Recent Posts

2024-08-04
大模型 RAG 基础：信息检索、文本向量化及 BGE-M3 embedding 实践（2024）

本文整理一些文本向量化（embedding）和信息检索的知识，它们是如今大模型生成文本时常用的技术 —— “增强检索生成”（RAG）—— 的基础：Fig. Similarity score based on BERT embedding. Image source水平及维护精力所限，文中不免存在错误或过时之处，请酌情参考。传播知识，尊重劳动，年满十八周岁，转载请注明出处。 1 信息检索（information retrieval）技术三大发展阶段 1.1 基于统计信息和关键词匹配（1970s-2010s） ...
2024-07-28
Linux 时钟源之 TSC：软硬件原理、使用场景、已知问题（2024）

本文整理了一些 Linux 时钟源 tsc 相关的软硬件知识，在一些故障排查场景可能会用到。Fig. Scaling up crystal frequency for different components of a computer.Image source Youtube水平及维护精力所限，文中不免存在错误或过时之处，请酌情参考。传播知识，尊重劳动，年满十八周岁，转载请注明出处。 1 计算机组件的运行频率 1.1 时钟源：~20MHz 的石英晶体谐振器（quartz crystal resonator）...
2024-07-13
图解 JuiceFS CSI 工作流：K8s 创建带 PV 的 Pod 时，背后发生了什么（2024）

JuiceFS 是一个架设在对象存储（S3、Ceph、OSS 等）之上的分布式文件系统，简单来说，对象存储：只能通过 key/value 方式使用；文件系统：日常看到的文件目录，能执行 ls/cat/find/truncate 等等之类的文件读写操作。本文从 high-level 梳理了 JuiceFS CSI 方案中，当创建一个带 PV 的 pod 以及随后 pod 读写 PV 时，k8s/juicefs 组件在背后都做了什么，方便快速了解 K8s CSI 机制及 JuiceFS 的基本工作原理。水平及维护精力所限，文...
2024-06-26
TCP Requests Stuck After Connection Established（2024）

This post describes a kernel & BPF networking problemand the trouble shooting steps, which is an interesting case for delving intoLinux kernel networking intricacies.Fig. Phenomenon of a reported issue. 1 Trouble report 1.1 Phenomenon: probabilistic hea...
2024-05-26
Practical Storage Hierarchy and Performance: From HDDs to On-chip Caches（2024）

This post summarizes bandwidths for local storage media, networkinginfra, as well as remote storage systems. Readers may find this helpful whenidentifying bottlenecks in IO-intensive applications(e.g. AI training and LLM inference).Fig. Peak bandwidth of storage medi...
2024-05-12
[译] 什么是 GPT？Transformer 工作原理的动画展示（2024）

译者序本文翻译自 2024 年的一个视频（前半部分），这是原作者 Deep Learning 系列的第 5 章，强烈推荐原视频： Youtube：But what is a GPT? Visual intro to transformers； B 站：官方搬运。Transformer 预测下一个单词四部曲。MLP 也称为 feed-forward。作者以深厚的技术积累，将一些复杂系统以可视化的方式讲给普通人，这种能力是极其难得的。本译文希望通过“文字+动图”这种可视化又方便随时停下来思考的方式介绍 Transformer 的...
2024-04-21
[译] Meta/Facebook 超大规模 AI/GPU 基础设施设计（2024）

本文翻译自 2024 年 Meta/Facebook 的一篇文章：Building Meta’s GenAI Infrastructure。两个 GPU 集群，每个集群 2.4w H100，分别用 RoCE/InfiniBand 网络； LLaMA3 就是在这两个集群上训练出来的；预计到 2024 年底，Meta AI 基础设施建设将拥有 35w 张 H100 GPU，总算力相当于约 60w 张 H100。水平及维护精力所限，译文不免存在错误或过时之处，如有疑问，请查阅原文。传播知识，尊重劳动，年满十八周岁，转载请注明...
2024-04-06
[译] 大模型推理的极限：理论分析、数学建模与 CPU/GPU 实测（2024）

译者序本文翻译自 2024 年的一篇文章：LLM inference speed of light，分析了大模型推理的速度瓶颈及量化评估方式，并给出了一些实测数据（我们在国产模型上的实测结果也大体吻合），对理解大模型推理内部工作机制和推理优化较有帮助。A100-80GB PICe 推理延迟与吞吐。Image Source译者水平有限，不免存在遗漏或错误之处。如有疑问，敬请查阅原文。以下是译文。译者序摘要 1 推理机制 1.1 transformer：逐 token 生成，无法并行 1.2 生...
2024-03-24
[译][论文] InstructGPT：基于人类反馈训练语言模型遵从指令的能力（OpenAI，2022）

译者序本文翻译自 2022 年 OpenAI 的论文：Training language models to follow instructions with human feedback，整理翻译了其中感兴趣的部分。大模型进化树，可以看到 InstructGPT 所处的年代和位置。来自大语言模型（LLM）综述与实用指南（Amazon，2023）。GPT -> InstructGPT -> ChatGPT 的过程，可参考如何训练一个企业级 GPT 助手（OpenAI，2023）。译者水平有限，不免存在遗漏或错误之处...
2024-03-10
[译][论文] BERT：预训练深度双向 Transformers 做语言理解（Google，2019）

译者序本文翻译自 2019 年 Google 的论文：BETT: Pre-training of Deep Bidirectional Transformers for Language Understanding。@article{devlin2018bert, title={BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding}, author={Devlin, Jacob and Chang, Ming-Wei ...

Newer Posts Older Posts