跳到主要内容

AI 全栈术语表

这份术语表不是用来背诵的,而是在你阅读课程时遇到陌生词,可以快速查“它是什么意思、第一次应该在哪里理解、容易和什么混淆”。如果一个概念暂时看不懂,先知道它解决什么问题,再回到对应章节补细节。

开发基础

术语简明解释第一次推荐理解位置
终端用命令和系统交互的入口开发者工具基础
当前目录命令执行时所在的位置,很多路径错误都和它有关终端与命令行
包管理器安装和管理依赖的工具,例如 pip、npm、conda开发环境配置
虚拟环境为项目隔离 Python 依赖的环境Python 环境
Git记录代码版本变化的工具Git 与版本管理
Commit一次可回溯的代码变更记录Git 基础流程
README项目说明文件,告诉别人项目是什么、怎么运行、怎么验证阶段项目与作品集
API程序之间交换数据和调用能力的接口Python 项目、LLM API 调用
JSON常见结构化数据格式,适合接口、配置和日志Python 文件与 API 章节

数据与机器学习

术语简明解释容易混淆点
数据集用于分析、训练或评估的一组数据数据集不等于训练集,训练集只是其中一部分
特征模型用来预测或判断的输入信息特征不是越多越好,质量和泄漏风险更重要
标签监督学习中希望模型预测的目标分类标签和回归目标不同
训练集用来让模型学习的数据不能用它代表最终效果
测试集用来评估泛化能力的数据不应该反复拿来调参
验证集用来选择模型或调参数的数据和测试集职责不同
Baseline最简单的可比较起点模型或规则不是低级做法,而是判断改进是否有效的基准
数据泄漏模型训练时看到了本不该知道的信息会让离线指标虚高,真实效果变差
过拟合模型记住训练数据,却不能泛化到新数据训练分数高不代表模型好
召回率真正相关的样本中被找回的比例RAG 检索和分类任务里都常见
F1精确率和召回率的综合指标类别不平衡时比准确率更有参考价值

深度学习与大模型基础

术语简明解释第一次推荐理解位置
张量多维数组,是深度学习框架的基本数据结构PyTorch 基础
Loss模型预测和真实目标之间的差距神经网络训练闭环
反向传播根据损失计算参数应该如何调整的过程神经网络基础
Optimizer根据梯度更新参数的算法PyTorch 训练循环
Embedding把文本、图片或类别映射成向量表示NLP、RAG、向量检索
Attention让模型判断输入中哪些部分更重要的机制Transformer 基础
Transformer现代大模型的重要基础架构深度学习与 Transformer
Token模型处理文本时的基本片段大模型原理与 Prompt
Context Window模型一次能看到的上下文长度LLM 应用开发
Pretraining在大规模数据上预先学习通用能力大模型预训练
Fine-tuning用特定数据继续训练模型以适配任务微调章节
Alignment让模型输出更符合人类意图、安全和规范对齐章节

LLM、Prompt 与 RAG

术语简明解释容易混淆点
LLM大语言模型,能理解和生成文本LLM 不是完整应用,只是能力核心之一
Prompt交给模型的任务说明、输入、约束和输出格式Prompt 不是咒语,而是任务设计
System Prompt给模型设定角色、规则和边界的高优先级提示不应把安全边界只寄托在普通用户提示里
Structured Output让模型按 JSON、表格或固定字段输出需要配合校验和重试
Function Calling让模型按工具 schema 生成调用参数它不是直接执行工具,执行仍由程序控制
RAG检索增强生成,把外部资料检索后交给模型回答RAG 不等于向量数据库,向量库只是常见组件
Chunk文档切分后的片段太大影响精确度,太小容易丢上下文
Vector Database存储和检索向量的数据库不负责判断答案是否正确
Hybrid Search结合关键词检索和向量检索适合兼顾精确词和语义相似
Rerank对初步检索结果重新排序常用于提高最终上下文质量
Citation答案引用的来源有引用不代表引用真的支持答案,需要检查
Hallucination模型生成看似合理但不可靠的内容RAG 可以降低但不能完全消除幻觉

Agent 与工程化

术语简明解释容易混淆点
Agent能围绕目标进行规划、调用工具、记录状态的 AI 工作流Agent 不是更会聊天的 LLM,而是系统设计
ToolAgent 可调用的外部能力,例如检索、计算、文件操作工具权限必须受控
MemoryAgent 保存短期或长期上下文的机制记忆不是越多越好,污染会带来风险
Planning把目标拆成步骤的过程计划需要可执行、可停止、可回退
Trace记录 Agent 每一步输入、输出、工具和状态没有 trace 的 Agent 很难排障
Replay根据历史轨迹复现执行过程用于调试和评估
Guardrails对输入、输出、工具和权限设置保护边界不能只靠模型自觉遵守
Human-in-the-loop在关键步骤加入人工确认适合高风险操作和不可逆操作
Observability对系统日志、指标、trace 和错误的可观察能力不是上线后才加,而应从项目中期开始
Deployment把项目部署到可访问环境部署成功不等于生产可用,还需要监控和回滚
Evaluation用样本、指标和人工标准判断系统好坏AI 应用评估通常需要自动指标和人工复核结合

怎么使用术语表

遇到陌生词时,先看它属于哪一类,再回到对应阶段阅读。不要因为一个术语暂时不懂就中断整条主线。第一次学习只需要知道它解决什么问题、输入输出是什么、和当前项目有什么关系;等你在项目里真正用到它,再补更细的原理和实现。