跳到主要内容

学前导读:LLM 概览这一章到底在学什么

这一章解决的是:第一次系统接触大模型时,先把地图建立起来。你不需要一上来追所有模型名称,也不需要立刻陷入参数规模、榜单和框架对比,而是要先知道大模型从哪里来、核心概念是什么、能力边界在哪里,以及它为什么会成为 AI 应用开发的新底座。

这一章在整个课程里的位置

你已经在前面学过 NLP 速成和 Transformer 基础。到这一章,课程开始把 token、embedding、attention、预训练这些概念放进“大模型时代”的完整图景中。

这一章不是在讲某一个具体模型,而是在帮你建立一个判断框架:当你看到 GPT、Claude、Gemini、LLaMA、Qwen、DeepSeek 或其他模型时,你知道应该从训练方式、上下文能力、推理能力、工具能力、部署方式和应用生态去理解它,而不是只看名字和参数量。

这一章真正要解决的问题

这一章要先解决四个问题:大模型为什么会从传统 NLP 和预训练模型一路发展出来;参数量、上下文窗口、token、embedding、推理、对齐这些词分别放在哪里;开源模型、闭源模型、本地部署和云端 API 有什么差异;大模型应用为什么不只是聊天,而是会继续走向 RAG、工具调用和 Agent。

对于新人来说,这一章最重要的不是记住每个模型的发布时间,而是建立“看模型的坐标系”。只有坐标系建立起来,后面学 Prompt、微调、对齐、RAG 和 Agent 时才不会混乱。

新人推荐学习顺序

建议先看发展历史,理解大模型不是突然出现的,而是从统计 NLP、词向量、Transformer、预训练、指令微调和人类反馈对齐一步步演进出来的。然后看核心概念,把参数、token、上下文、embedding、推理、幻觉、对齐这些词放到正确位置。最后看产业格局,理解开源/闭源、云端/本地、通用/垂直模型之间的取舍。

学这一章时要抓住的主线

这一章的主线可以概括为:大模型是把大规模数据、Transformer 结构、预训练目标、指令对齐和应用接口组合起来形成的新型能力底座。

这条线能帮助你分清“模型本身的能力”和“应用系统补上的能力”。例如,模型参数里有一部分通用知识,但最新企业文档通常需要 RAG;模型可以生成文本,但可靠执行任务通常需要工具调用和状态管理;模型会回答问题,但生产系统还需要评估、监控、权限和成本控制。

这一章和后面章节的关系

这一章是第八 A 阶段的地图页。后面的 Transformer 深入会解释底层结构,预训练章节会解释能力从哪里来,Prompt 章节会解释怎样更好地调用能力,微调章节会解释怎样改变模型行为,对齐章节会解释为什么模型需要更符合人类意图。

如果这一章没学稳,后面容易出现的问题是:把 Prompt、微调、RAG、Agent 都当成“让模型变强”的同一类东西;只看模型榜单,不知道自己的应用到底需要知识更新、格式稳定、推理能力还是工具执行;过早纠结开源闭源,却没有先定义场景需求。

新人和进阶学习者怎么读

新人第一次学这一章时,先抓住主线和最小可运行例子。你不需要一次理解所有细节,只要能说清楚这一章解决什么问题、输入输出是什么、最小项目怎么跑起来,就可以继续往后走。

有经验的学习者可以把这一章当成查漏补缺和工程化练习:关注边界条件、失败案例、评估方式、代码可复现性,以及它和前后阶段的连接。读完后最好能把本章内容沉淀到自己的作品 README 或实验记录里。

学习时间与难度建议

学习方式建议投入目标
快速浏览20~30 分钟看懂本章解决什么问题,知道后面会用到哪里
最小通关1~2 小时跑通一个最小例子,完成本章小项目出口
深入练习半天~1 天补充错误分析、对比实验或项目 README 记录

本章自测问题

自测问题通过标准
这一章解决什么问题?能用一句话说明它在整门课里的位置
最小输入输出是什么?能说清楚例子需要什么输入,会产生什么结果
常见失败点在哪里?能列出至少一个报错、效果差或理解偏差的原因
学完后能沉淀什么?能把本章产出写进项目 README、实验记录或作品集

本章小项目出口

学完这一章后,建议做一张“模型选择小卡片”。选择三个你常听到的大模型,从模型类型、调用方式、上下文长度、适合场景、限制和成本角度做对比。这个小项目不追求绝对完整,而是训练你用统一坐标系看模型。

你也可以写一个最小 LLM API 调用示例,记录输入 prompt、输出结果、token 或成本信息,并说明这个调用只是“大模型应用系统”的模型层,而不是完整产品。

过关标准

这一章结束时,你应该能说清楚 LLM 和传统 NLP 模型的差异,能解释 token、上下文窗口、参数量、预训练、指令微调和对齐的大致含义,能区分开源模型、闭源模型、本地部署和云端 API 的基本取舍。

如果你还能判断一个问题更适合用 Prompt、微调、RAG 还是 Agent 去解决,说明你已经开始建立大模型应用的系统视角。