ArthurChiao's Blog

Recent Posts

  • 2025-07-06

    [笔记] 关于 AI 下半场的思考:商业/应用篇(2025)

    本篇笔记整理自 2025 年真格基金的一篇长文从「没必要付费」到「非用不可」,AI 正在冲击人类历史上最快的增长纪录。拆分了一些章节并增加标题,方便个人学习理解。近日,真格基金展开了一场关于 AI 创业的深度对谈,核心点: 真正的技术突破,不依赖营销也能实现自发传播。DeepSeek 是个例子。 AI 正在把我们带回那个凭产品力打动用户的时代。 新产品正在快速验证:只要创造了真实价值,就有机会跨越鸿沟(从少数走向大众)。水平及维护精力所限,文中不免存在错误或过时之处,如有疑问,请查阅原文。传播知识,尊重劳动,年满十八周岁,...

  • 2025-07-06

    [译] 关于 AI 下半场的思考:技术/模型篇(2025)

    本文翻译自 2025 年的一篇英文博客The Second Half。拆分了一些章节并增加标题,方便个人学习理解。文章几个核心点: Agent + Reasoning + prior knowledge,使得强化学习终于能泛化,一套组合拳能完成所有场景的任务, 因此专攻算法和模型变得没以前那么重要; 针对特定任务的新算法可能只能提高 5%, 而得益于预训练、强化学习和良好的泛化能力,下一代推理模型可以在不明确针对这个任务的情况下直接提高 30%。 模型已经在大多数任务上超越人类选手,但还并未对真实...

  • 2025-03-23

    But What Is MCP (Model Context Protocol)? (2025)

    There are already some good documents for MCP, Model Context Protocol documentation Model Context Protocol specification Officially supported serversbut developers and architects may still feel confusing on how it works in theunderlying, and this post try to fill ...

  • 2025-03-20

    图解神经网络和强化学习:400 行 C 代码训练一个井字棋高手(2025)

    本文解读 2025 年的一个练手项目Tic Tac Toe with Reinforcement Learning。这个项目实现了一个非常简单的神经网络(Neural Network),然后通过强化学习(Reinforcement Learning)训练它玩井字棋,训练好之后就可以人机对战,效果很不错。整个项目只用了400 行左右 C 代码,没有任何外部依赖。由于代码足够简单,非常适合用来理解神经网络和强化学习。Fig. A simple neural network for reinforcement learning in ...

  • 2025-03-01

    [译][论文] Attention paper | 神经机器翻译:联合学习对齐和翻译(2014)

    译者序本文翻译自 2014 年提出 Attention 机制的论文Neural Machine Translation by Jointly Learning to Align and Translate。Attention 机制当时是针对机器翻译场景提出的。基于神经网络的机器翻译工作过程,举个具体例子:输入一个英文句子,要求将其翻译成德文, 首先,整个句子作为输入,因此在开始翻译之前,已经能知道这个句子的完整意思; 翻译时,每次翻译一个德文单词; 在翻译下一个德文单词时,除了源句子,还可以利用前面已经翻译的德文单词信息。...

  • 2025-02-23

    [译][论文] Transformer paper | Attention Is All You Need(Google,2017)

    译者序本文翻译自 2017 年 Google 提出 Transformer 的论文:Attention Is All You Need。Figure 1: Transformer 架构:encoder/decoder 内部细节。摘录一段来自 Transformer 是如何工作的:600 行 Python 代码实现两个(文本分类+文本生成)Transformer(2019)的介绍,说明 Transformer 架构相比当时主流的 RNN/CNN 架构的创新之处: 在 transformer 之前,最先进的架构是 RNN(通常是 ...

  • 2025-02-15

    [译][论文] DeepSeek-R1:通过强化学习激励大模型的推理能力(DeepSeek,2024)

    译者序本文翻译自 2024 年 DeepSeek AI 的 paper DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning。介绍了 DeepSeek 第一代推理模型(reasoning models)(所以缩写为 R1)的设计和训练过程:Fig. How DeepSeek-R1-series models were trained.要理解 DeepSeek-R1 的创新之处,可以先阅读 如何训练一个企业级 GPT 助...

  • 2025-01-14

    [译] AI Workflow & AI Agent:架构、模式与工程建议(Anthropic,2024)

    译者序本文翻译自 2024 年 Anthropic(开发 Claude 大模型的公司)的一篇文章 Building Effective Agents。 Agents 只是一些“在一个循环中,基于环境反馈来选择合适的工具,最终完成其任务”的大模型。水平及维护精力所限,译文不免存在错误或过时之处,如有疑问,请查阅原文。传播知识,尊重劳动,年满十八周岁,转载请注明出处。以下是译文。 译者序 1 什么是 AI Agent/Workflow? 1.1 Workflow vs. Agent 1.2 何时使用...

  • 2025-01-07

    [译] AI Agent(智能体)技术白皮书(Google,2024)

    译者序本文翻译自 2024 年 Google 团队的一份 Agents 白皮书,作者 Julia Wiesinger, Patrick Marlow, Vladimir Vuskovic。Agent 可以理解为是一个扩展了大模型出厂能力的应用程序。工具的使用,是人类区别于动物的标志 —— 也是 Agent 区别于大模型的标志。水平及维护精力所限,译文不免存在错误或过时之处,如有疑问,请查阅原文。传播知识,尊重劳动,年满十八周岁,转载请注明出处。以下是译文。 译者序 1 引言 1.1 人类的先验知识与工具的使...

  • 2024-12-15

    存储进阶笔记(二):Linux 存储栈:从 Device Mapper、LVM 到文件系统(2024)

    记录一些平时接触到的存储知识。由于是笔记而非教程,因此内容不求连贯,有基础的同学可作查漏补缺之用。Fig. LVM concepts, and how userspace file operations traverse the Linux storage stack. 水平及维护精力所限,文中不免存在错误或过时之处,请酌情参考。传播知识,尊重劳动,年满十八周岁,转载请注明出处。 ...