Recent Posts

2025-10-07
[笔记]《人工智能简史（第二版）》（2025）

尼克的《人工智能简史（第二版）》从人和流派传承的角度介绍了人工智能作为计算科学一个分支的发展过程，内容和风格有点偏学术史，用作者的话说，“写法比较偏重基础和方法论，而不太注重应用”。作为一本不太“常规”的人工智能入门读物，适合领域内的部分专业读者，或者想从科学、哲学、伦理学等更高角度理解和看待人工智能的读者。本文整理一些个人阅读笔记和思考。水平及维护精力所限，文中不免存在错误或过时之处，请酌情参考。传播知识，尊重劳动，年满十八周岁，转载请注明出处。 0 前言 0.1 哈代：一等智力 vs. 二等智力 ...
2025-09-14
[译] 从 OpenDeepResearch 背后的设计演进，解读 AI 领域反复学到的一课（2025）

本文翻译自 2025 年的一篇文章Learning the Bitter Lesson。来自 github.com/langchain-ai/open_deep_research 作者。过去 70 年 AI research 领域学到的最大经验是：以计算作为支撑的通用方法（general methods that leverage computation）是终极方案（ultimately the most effective），而且大幅领先其他方式。水平及维护精力所限，译文不免存在错误或过时之处，如有疑问，请查阅原文。传播知...
2025-07-20
[译] Anthropic 是如何构建 Multi-Agent Research 系统的（2025）

本文翻译自 2025 年 Anthropic 的一篇文章Built a Multi-Agent Research System。文章介绍了他们的 Research 功能背后的 multi-agent 系统，以及在构建该系统的过程中遇到的工程挑战与学到的经验。这套 Multi-Agent 系统最核心的部分之一 —— Agent prompts —— 也开源出来了，见本文附录部分，对学习理解 agent planning & task delegation 非常有用，甚至比文章本身还实用。水平及维护精力所限，译文不免存在错...
2025-07-06
[笔记] 关于 AI 下半场的思考：商业/应用篇（2025）

本篇笔记整理自 2025 年真格基金的一篇长文从「没必要付费」到「非用不可」，AI 正在冲击人类历史上最快的增长纪录。拆分了一些章节并增加标题，方便个人学习理解。近日，真格基金展开了一场关于 AI 创业的深度对谈，核心点：真正的技术突破，不依赖营销也能实现自发传播。DeepSeek 是个例子。 AI 正在把我们带回那个凭产品力打动用户的时代。新产品正在快速验证：只要创造了真实价值，就有机会跨越鸿沟（从少数走向大众）。水平及维护精力所限，文中不免存在错误或过时之处，如有疑问，请查阅原文。传播知识，尊重劳动，年满十八周岁，...
2025-07-06
[译] 关于 AI 下半场的思考：技术/模型篇（2025）

本文翻译自 2025 年的一篇英文博客The Second Half。拆分了一些章节并增加标题，方便个人学习理解。文章几个核心点： Agent + Reasoning + prior knowledge，使得强化学习终于能泛化，一套组合拳能完成所有场景的任务，因此专攻算法和模型变得没以前那么重要；针对特定任务的新算法可能只能提高 5%，而得益于预训练、强化学习和良好的泛化能力，下一代推理模型可以在不明确针对这个任务的情况下直接提高 30%。模型已经在大多数任务上超越人类选手，但还并未对真实...
2025-03-23
But What Is MCP (Model Context Protocol)? (2025)

There are already some good documents for MCP, Model Context Protocol documentation Model Context Protocol specification Officially supported serversbut developers and architects may still feel confusing on how it works in theunderlying, and this post try to fill ...
2025-03-20
图解神经网络和强化学习：400 行 C 代码训练一个井字棋高手（2025）

本文解读 2025 年的一个练手项目Tic Tac Toe with Reinforcement Learning。这个项目实现了一个非常简单的神经网络（Neural Network），然后通过强化学习（Reinforcement Learning）训练它玩井字棋，训练好之后就可以人机对战，效果很不错。整个项目只用了400 行左右 C 代码，没有任何外部依赖。由于代码足够简单，非常适合用来理解神经网络和强化学习。Fig. A simple neural network for reinforcement learning in ...
2025-03-01
[译][论文] Attention paper | 神经机器翻译：联合学习对齐和翻译（2014）

译者序本文翻译自 2014 年提出 Attention 机制的论文Neural Machine Translation by Jointly Learning to Align and Translate。Attention 机制当时是针对机器翻译场景提出的。基于神经网络的机器翻译工作过程，举个具体例子：输入一个英文句子，要求将其翻译成德文，首先，整个句子作为输入，因此在开始翻译之前，已经能知道这个句子的完整意思；翻译时，每次翻译一个德文单词；在翻译下一个德文单词时，除了源句子，还可以利用前面已经翻译的德文单词信息。...
2025-02-23
[译][论文] Transformer paper | Attention Is All You Need（Google，2017）

译者序本文翻译自 2017 年 Google 提出 Transformer 的论文：Attention Is All You Need。Figure 1: Transformer 架构：encoder/decoder 内部细节。摘录一段来自 Transformer 是如何工作的：600 行 Python 代码实现两个（文本分类+文本生成）Transformer（2019）的介绍，说明 Transformer 架构相比当时主流的 RNN/CNN 架构的创新之处：在 transformer 之前，最先进的架构是 RNN（通常是 ...
2025-02-15
[译][论文] DeepSeek-R1：通过强化学习激励大模型的推理能力（DeepSeek，2024）

译者序本文翻译自 2024 年 DeepSeek AI 的 paper DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning。介绍了 DeepSeek 第一代推理模型（reasoning models）（所以缩写为 R1）的设计和训练过程：Fig. How DeepSeek-R1-series models were trained.要理解 DeepSeek-R1 的创新之处，可以先阅读如何训练一个企业级 GPT 助...

Older Posts