メインコンテンツへスキップ

7.1.1 NLP 速習ロードマップ:テキストから token、ベクトルへ

LLM を理解しやすくするには、まずテキストがモデルの処理できる形へ変わる流れを見ます。text -> tokens -> IDs -> vectors -> model output です。

まず流れを見る

NLP 速習章フローチャート

用語最初の意味
tokenモデルが使うテキストの一部
tokenizerテキストを分け、ID に対応させる道具
embeddingtoken やテキストの密なベクトル
pretrained model広いテキストで先に学習されたモデル
Hugging Faceモデル、データセット、ツールのエコシステム

小さな token ラボを動かす

text = "RAG retrieves evidence before answering"
tokens = text.lower().split()
vocab = {token: index for index, token in enumerate(sorted(set(tokens)))}
ids = [vocab[token] for token in tokens]

print("tokens:", tokens)
print("ids:", ids)
print("unique_tokens:", len(vocab))

出力:

tokens: ['rag', 'retrieves', 'evidence', 'before', 'answering']
ids: [3, 4, 2, 1, 0]
unique_tokens: 5

本物の tokenizer はもっと賢いですが、主な考え方は同じです。テキストは安定した部品と ID になってから、ベクトルやモデルへ進みます。

この順番で学ぶ

順番読む練習すること
17.1.2 Tokenizertext -> tokens -> IDs
27.1.3 Embeddingstoken/text -> vectors
37.1.4 事前学習済みモデルモデル能力をロードして再利用する
47.1.5 Hugging Face クイックスタートpipeline、model card、ローカル実行
57.1.6 Tokenizer と Embedding ラボtoken とベクトルを確認する

合格ライン

生テキストに tokenization が必要な理由、embedding がベクトルである理由、事前学習済みモデルをゼロからではなく再利用する理由を説明できれば合格です。