AIWords 6127Read time16 min

AI 学习路线:从 LLM 到 AI Agent,再到 Skills

一篇面向初学者的 AI 学习路线:先理解 LLM 基础,再学习模型应用与 Agent,最后把重复任务沉淀为 Skills 和工作流。

AI 学习路线:从 LLM 到 AI Agent,再到 Skills

很多人学习 AI 时,会直接从工具使用开始:ChatGPT、Claude、Gemini、Cursor、Claude Code、Codex、OpenRouter,各种工具轮流试一遍。这样当然有用,至少能快速感受到 AI 的能力。

但如果只停留在“会用工具”,很快就会遇到瓶颈:知道 AI 很强,却不知道它为什么强;知道 Agent 很火,却不知道它到底如何执行任务;看到 Skills、MCP、工作流自动化,也不知道它们之间是什么关系。

我更推荐把 AI 学习拆成一条清晰路线:

理解 LLM → 学会调用模型 → 学习 Agent → 掌握工具调用 → 建立工作流 → 沉淀 Skills。

这条路线的重点不是追热点,而是把能力一层一层搭起来。你不一定要训练自己的大模型,也不一定要一上来手搓复杂框架,但至少要知道每一层解决什么问题。

这篇文章整理一条适合普通学习者的路线:从 LLM 基础,到模型应用,再到 AI Agent,最后到 Skills 和可复用工作流。

一、先分清几个核心概念

在正式学习之前,先把几个容易混在一起的概念讲清楚。

1. LLM 是底层能力

LLM 是 Large Language Model,也就是大语言模型。ChatGPT、Claude、Gemini、Qwen、DeepSeek 这类产品,本质上都建立在大语言模型能力之上。

学习 LLM,不是让你一开始就训练千亿参数模型,而是至少要理解:

  • 文本为什么要切成 token;
  • Transformer 和 attention 大致在解决什么问题;
  • 模型为什么能续写、总结、翻译和写代码;
  • 上下文窗口为什么会限制模型记忆;
  • 预训练、微调、RAG、推理分别是什么意思;
  • 幻觉为什么会出现,为什么不能把模型当搜索引擎。

你可以暂时不懂所有数学细节,但要建立基本地图。否则后面学习 Agent、工具调用、上下文管理时,很容易只记住名词,看不懂本质。

2. 模型应用是把 LLM 接入真实任务

理解 LLM 之后,下一步不是立刻研究复杂 Agent,而是先学会怎么调用模型。

最基础的模型应用包括:

  • 调用 API;
  • 设置 system prompt;
  • 控制 temperature、max tokens 等参数;
  • 处理输入输出;
  • 做文本分类、摘要、翻译、信息抽取;
  • 使用 tokenizer 估算 token;
  • 使用开源模型库加载模型和运行推理。

这一层看起来简单,但非常重要。很多 Agent 问题,本质上不是 Agent 多高级,而是最基础的输入输出、上下文、格式约束没有做好。

3. Agent 是带目标和工具的执行系统

普通聊天机器人主要是回答问题,而 AI Agent 更强调“围绕目标执行任务”。

一个最简单的 Agent 循环通常包括:

1. 接收用户任务; 2. 理解目标; 3. 选择工具; 4. 执行动作; 5. 观察结果; 6. 根据结果继续调整; 7. 直到完成任务或判断无法继续。

Tool Calling、函数调用、ReAct、规划、记忆、上下文压缩、多 Agent 协作,都是围绕这个循环展开的。

你可以把 Agent 理解为:LLM 不再只是“说话”,而是开始“看文件、调用工具、运行命令、修改代码、生成结果”。

4. Skills 是把经验沉淀为可复用能力

Skills 可以理解为“给 AI 使用的专门说明、脚本、模板和资源”。

如果 Tool Calling 解决的是“模型如何调用一个工具”,Agent 解决的是“模型如何围绕目标持续行动”,那么 Skills 解决的是“如何让 AI 在某一类任务上长期复用一套成熟流程”。

例如:

  • 写简历可以有一个 resume skill;
  • 做 PPT 可以有一个 slides skill;
  • 处理 Excel 可以有一个 spreadsheet skill;
  • 润色 MDX 文章可以有一个 content editing skill;
  • 整理网页资料可以有一个 research skill;
  • 分析命理案例、生成结构化报告,也可以沉淀为自己的专用 skill。

一个好 Skill 不一定复杂,但必须足够具体。它应该解决一类明确任务,而不是把所有东西都塞进一个万能说明里。

二、第一阶段:学习 LLM 基础

第一阶段的目标,不是成为模型训练专家,而是建立对大语言模型的基础认知。

你至少要知道:模型不是数据库,生成答案不是查表;上下文窗口不是长期记忆;token 不是普通字符;模型输出不是天然可靠结论,而是基于概率生成的文本。

1. 推荐资料:Happy-LLM

Happy-LLM 是 Datawhale 开源的系统性 LLM 学习教程,适合中文读者入门。它从 NLP 基础开始,逐步讲到 LLM 架构、训练过程、主流框架和应用方向。

它的优点是中文资料完整,路径比较清楚,不会一开始就把初学者扔进论文和英文文档里。

适合重点学习:

  • NLP 和 Transformer 基础;
  • LLM 的架构与训练过程;
  • tokenizer、embedding、attention 等核心概念;
  • 微调、RAG、Agent 等应用方向;
  • 从理论理解过渡到代码实践。

如果你是初学者,可以先不追求全部看完,而是先建立整体框架。第一遍看懂 60% 就够了,后面做项目时再回头查。

2. 推荐资料:minGPT

minGPT 是 Andrej Karpathy 写的极简 GPT 实现项目。它不是为了工程性能,而是为了让学习者看懂 GPT 的核心结构。

相比大型框架,minGPT 的代码更短、更干净,适合用来理解 Transformer、attention、训练循环和文本生成的基本过程。

适合重点学习:

  • GPT 的最小实现;
  • Transformer block 的代码结构;
  • token 输入如何变成下一个 token 的概率分布;
  • 训练循环和推理生成过程;
  • 模型不是魔法,而是一套可以拆开的计算结构。

如果你已经学过一点 Python 和 PyTorch,minGPT 很值得看。你不一定要完全复现训练,但至少要知道 GPT 的核心代码长什么样。

3. 这一阶段的练习任务

这一阶段不要只收藏资料,可以做几个小练习:

  • 用自己的话解释什么是 token;
  • 画一张 Transformer 的简化流程图;
  • 跑通一个最小文本生成 demo;
  • 修改一次 temperature,观察输出变化;
  • 比较同一个问题在短上下文和长上下文中的表现;
  • 整理一篇笔记:为什么 LLM 会产生幻觉。

学 AI 最怕只看概念,不动手。哪怕只是跑一个小 demo,也比连续收藏十个教程更有用。

三、第二阶段:学习模型应用与工程调用

理解 LLM 基础之后,第二阶段要学习如何把模型接入真实任务。

这里的重点不是“训练模型”,而是“使用模型”。对大多数普通开发者、内容创作者和独立站作者来说,真正有用的是:如何调用模型、约束输出、接入工具、处理文件、完成业务流程。

1. 推荐资料:Hugging Face Transformers

Hugging Face Transformers 是非常常用的开源模型库,覆盖文本生成、文本分类、问答、翻译、语音、视觉等大量模型。它适合学习如何加载模型、使用 tokenizer、调用 pipeline,以及把开源模型接入自己的项目。

适合重点学习:

  • tokenizer 与模型加载;
  • pipeline 快速推理;
  • 本地模型运行;
  • 模型输入输出格式;
  • 微调与部署的基础概念。

Hugging Face 官方文档中,pipeline 被设计成一种比较简单的推理接口,适合初学者快速完成文本分类、问答、摘要等任务。tokenizer 文档也值得看,因为很多上下文长度、成本估算和截断问题,本质上都和 token 处理有关。

2. 先学会 API,再谈 Agent

很多人一上来就想做全能 Agent,但连最基础的 API 调用、消息格式、结构化输出都没有搞清楚。这样很容易变成“看起来很复杂,实际很脆弱”的玩具项目。

这一阶段至少要掌握:

  • 如何发送一条模型请求;
  • 如何设置 system、user、assistant 消息;
  • 如何让模型输出 JSON;
  • 如何处理模型输出不符合格式的问题;
  • 如何计算 token 成本;
  • 如何保存对话历史;
  • 如何在长文本任务中做分段、摘要和合并。

这些东西很基础,但非常关键。Agent 的本质不是玄学,它依然建立在一次次模型调用之上。

3. 这一阶段的练习任务

可以做几个很实用的小项目:

  • 写一个文章摘要器;
  • 写一个 Markdown 标题生成器;
  • 写一个网页内容结构化提取器;
  • 写一个把岗位 JD 转成简历优化建议的小工具;
  • 写一个把长文章拆分、总结、合并的脚本;
  • 写一个简单的成本统计器,记录每次调用消耗了多少 token。

这些项目不炫技,但非常实用。做完这些,再去看 Agent,你会更容易理解为什么上下文、状态、工具和结构化输出这么重要。

四、第三阶段:学习 AI Agent

当你会调用模型之后,就可以进入 Agent 阶段。

Agent 的难点不在于“让模型说得更聪明”,而在于让模型稳定地完成任务。它要知道什么时候调用工具,什么时候读取文件,什么时候继续,什么时候停止,什么时候向用户确认,什么时候承认失败。

1. 推荐资料:Hello-Agents

Hello-Agents 是 Datawhale 开源的智能体学习教程,目标是帮助学习者从零开始理解并构建 AI Agent。它强调 Agent 的核心原理、架构范式和动手实现,而不是只教你使用现成平台。

适合重点学习:

  • Agent 的基本概念;
  • 工具调用与任务执行;
  • ReAct 思维与行动循环;
  • 记忆与上下文管理;
  • 多智能体协作;
  • 从 demo 到应用系统的构建路径。

如果你想真正理解 Agent,而不是只会拖拽几个节点,这类教程比单纯使用平台更有价值。

2. 推荐资料:OpenAI Agents SDK

OpenAI Agents SDK 是 OpenAI 提供的 Agent 开发框架,适合学习如何用更工程化的方式组织 Agent、工具、handoff、guardrails、tracing 和结构化输出。

其中几个概念非常重要:

  • handoffs:让一个 Agent 把任务交给另一个更专门的 Agent;
  • guardrails:给输入、输出或工具调用增加安全与格式约束;
  • tracing:记录模型调用、工具调用、handoff 和其他执行事件,方便调试和观察;
  • structured output:让模型输出更稳定的数据结构。

这类框架的意义,不是让你少写几行代码,而是让 Agent 的执行过程更容易调试、维护和扩展。

3. 推荐资料:LangGraph

LangGraph 是 LangChain 生态中的 Agent 编排框架,适合构建有状态、可循环、可分支的复杂 Agent 工作流。它把 Agent 执行过程抽象成图结构,适合处理多步骤任务、长期状态、人工介入和复杂自动化流程。

适合重点学习:

  • graph-based workflow;
  • state management;
  • node 与 edge;
  • 循环、条件分支与中断恢复;
  • 多 Agent 协作流程。

如果说简单 Agent 是一个循环,那么 LangGraph 更适合把复杂任务拆成多个节点:搜索、读取、分析、写作、检查、修改、输出。每个节点负责一件事,状态在节点之间传递。

4. Agent 学习时最容易踩的坑

学习 Agent 时,最容易犯几个错误:

  • 一上来就做全能 Agent;
  • 不记录工具调用结果;
  • 不做错误处理;
  • 不限制工具权限;
  • 不设计停止条件;
  • 不管理上下文长度;
  • 不区分规划、执行和检查;
  • 不做日志和 tracing;
  • 把 prompt 写得很长,却没有结构化流程。

真正有用的 Agent,通常不是“什么都能干”,而是“在一个明确任务范围内稳定完成工作”。

5. 这一阶段的练习任务

建议从小 Agent 开始:

  • 文件整理 Agent:读取文件名,按规则分类;
  • 网页总结 Agent:搜索资料,整理要点,输出摘要;
  • 代码检查 Agent:读取一个文件,找出明显问题;
  • 简历优化 Agent:读取 JD 和简历,输出修改建议;
  • 文章编辑 Agent:按固定规则润色 MDX 文章;
  • 资料研究 Agent:搜索、摘取、归纳、生成参考来源。

每个 Agent 都应该明确输入、输出、工具、限制和停止条件。不要一开始就追求多 Agent 协作,先把单 Agent 的基本循环跑稳。

五、第四阶段:学习 Skills 和工作流沉淀

当你已经能做一些小 Agent,就会发现一个问题:很多任务其实会反复出现。

例如你每次写文章,都要检查 frontmatter、标题层级、SEO 描述、参考链接、正文格式;每次处理简历,都要检查岗位匹配、项目表达、关键词、量化结果;每次处理表格,都要检查字段、格式、统计口径和输出模板。

这些重复经验,如果每次都靠临时 prompt 描述,就会很累。Skills 的价值就在这里:把一类任务沉淀成固定能力,让 AI 下次遇到相似任务时自动使用更成熟的流程。

1. 推荐资料:Anthropic Skills

Anthropic 官方公开了 Agent Skills 相关资料和示例。公开资料显示,Skills 通常以文件夹形式组织,可以包含说明文档、脚本、模板和其他资源,让 Claude 在特定任务中加载相关能力。

Anthropic 对 Skills 的解释重点在于:Skills 不只是提示词,而是可以包含 instructions、代码和资源的能力包。它适合让 AI 在文档处理、数据分析、品牌规范、专业工作流等任务上表现得更稳定。

适合重点学习:

  • Skill 如何被触发;
  • SKILL.md 或 instructions 应该怎么写;
  • 如何写清楚适用场景;
  • 如何把脚本、模板、参考资料放进 Skill;
  • 如何避免 Skill 过大、过泛;
  • 如何处理安全和权限问题。

2. 推荐资料:awesome-skills-cn

awesome-skills-cn 是一个中文 Skills 资源整理项目,收集和整理了与 Claude Skills、OpenClaw Skills、通用 Agent Skills 相关的内容。

它适合用来观察别人如何设计 Skill:目录怎么放、说明怎么写、任务边界怎么定义、脚本和模板怎么组织。

但不要只收藏。真正有效的学习方式,是参考别人的结构,然后给自己的真实任务写一个 Skill。

3. 一个好 Skill 应该长什么样

一个好的 Skill 通常应该包含:

  • 明确的适用场景:什么时候使用它;
  • 明确的输入:用户需要提供什么;
  • 明确的输出:最终应该生成什么;
  • 稳定的步骤:先做什么,再做什么;
  • 格式要求:标题、表格、JSON、Markdown、文件命名等;
  • 约束条件:不能做什么,哪些信息必须保留;
  • 示例:给 AI 一个参考样板;
  • 必要脚本:把重复、确定性的工作交给代码。

Skill 最忌讳写成“万能工作流”。越万能,越容易失控。一个真正好用的 Skill,通常是小而专。

4. 这一阶段的练习任务

可以从自己的真实工作流里选一个任务:

  • MDX 文章润色 Skill;
  • 简历优化 Skill;
  • SEO 标题生成 Skill;
  • 网页资料整理 Skill;
  • Excel 数据清洗 Skill;
  • 项目 README 生成 Skill;
  • 命理案例结构化报告 Skill;
  • 求职邮件撰写 Skill。

建议先写一个最小版本,只解决一个明确问题。等它跑顺以后,再逐步增加模板、脚本和检查规则。

六、推荐学习顺序

如果你是初学者,可以按下面的顺序走。

1. 第一周:建立 LLM 地图

先用 Happy-LLM 建立整体认知,重点看 NLP、Transformer、token、训练和推理这些基础内容。

不要试图第一周就把所有细节吃透。第一周的目标是知道整个领域有哪些模块,以及它们之间是什么关系。

2. 第二周:看一个最小 GPT 实现

用 minGPT 观察 GPT 的核心结构。重点不是背代码,而是理解:输入如何变成 embedding,attention 大致做了什么,模型如何输出下一个 token 的概率。

如果看不懂全部代码,也没关系。先看整体结构,再逐步补 PyTorch 基础。

3. 第三周:练习模型调用

用 Hugging Face Transformers 或模型 API 做几个小任务,例如摘要、分类、翻译、信息抽取、标题生成。

这一周要重点理解输入输出、token、上下文长度、结构化输出和错误处理。

4. 第四周:学习 Agent 基本循环

用 Hello-Agents 理解 Agent 的任务执行流程。重点看工具调用、观察结果、继续决策、停止条件。

这时可以自己写一个最小 Agent:让它读取一个文本文件,总结内容,再生成一个 Markdown 输出。

5. 第五周:学习工程化 Agent 框架

学习 OpenAI Agents SDK 或 LangGraph。前者适合理解 Agent、工具、handoff、guardrails、tracing 这些工程概念;后者适合理解状态机、图结构、多步骤任务编排。

不要两个框架同时深挖。先选一个跑通,再看另一个。

6. 第六周:把重复任务写成 Skill

选择一个你经常做的任务,把流程写成 Skill。比如把“MDX 文章润色规则”沉淀成一个固定说明:frontmatter 怎么写、标题怎么编号、正文怎么排版、参考来源怎么放。

这一步会让你真正理解:AI 能力不是只靠临时聊天,而是可以被组织、复用和标准化。

七、我个人更推荐的入门组合

如果只选几个项目开始,我会推荐下面这个组合:

阶段推荐项目学习目标
LLM 基础Happy-LLM建立大语言模型整体知识框架
LLM 源码minGPT看懂 GPT 的最小实现
模型应用Hugging Face Transformers学会加载模型、运行推理、理解 tokenizer
Agent 入门Hello-Agents理解智能体的基本循环与工具调用
Agent 工程OpenAI Agents SDK学习 handoff、guardrails、tracing 与结构化输出
Agent 编排LangGraph学习状态管理、多节点流程与复杂任务编排
SkillsAnthropic Skills / awesome-skills-cn把重复任务沉淀为可复用能力

如果你完全没有基础,可以先按 Happy-LLM → Hugging Face Transformers → Hello-Agents 的顺序走。等你有一点代码和 API 经验后,再补 minGPT、OpenAI Agents SDK、LangGraph 和 Skills。

八、不要把学习路线走偏

最后讲几个现实判断。

1. 普通人没必要一开始训练自己的大模型

训练模型当然重要,但对大多数学习者来说,最先应该掌握的是调用、组合和工程化应用。你真正能马上用起来的能力,是把大模型接入自己的工作流,而不是一开始就幻想训练一个属于自己的 ChatGPT。

2. 不要沉迷玩具项目

AI 时代有很多看起来很酷的 demo:自动写书、自动赚钱、全自动公司、全能 Agent。它们有些有启发,但很多并不稳定,也不适合普通人投入太多时间。

判断一个项目值不值得学,可以看三点:

  • 是否能解释核心原理;
  • 是否能跑通真实任务;
  • 是否能迁移到你的工作流里。

如果一个项目只能截图装酷,不能沉淀能力,就不值得花太多时间。

3. 最重要的是形成自己的工作流

真正有价值的 AI 学习,不是收藏多少模型榜单,也不是记住多少新名词,而是逐步形成自己的工作流。

比如:

  • 写文章时,AI 帮你查资料、整理结构、润色表达;
  • 学编程时,AI 帮你解释代码、生成测试、修复 bug;
  • 做网站时,AI 帮你写组件、检查 SEO、整理内容;
  • 求职时,AI 帮你分析 JD、优化简历、准备面试;
  • 做研究时,AI 帮你搜集资料、归纳观点、生成引用清单。

当这些流程稳定下来,你就不只是“会用 AI”,而是在建立自己的 AI 工作系统。

九、结语:从使用者到构建者

这条学习路线的核心,可以总结为一句话:

先理解模型,再调用模型;先做简单工具,再做 Agent;先跑通任务,再沉淀 Skills。

不要急着追所有新概念。AI 领域变化很快,但底层能力链其实很清楚:理解 LLM、会用 API、会做工具调用、会管理上下文、会设计工作流、会把经验沉淀成 Skill。

沿着这条路线走,你会从单纯的 AI 使用者,逐步变成 AI 应用构建者。

参考来源

评论

Share

分享这篇文章