コンテキストウィンドウとは?LLMの記憶の仕組みを初心者向けに解説【2026年版】
オープンソースラボ編集部 ・ 2026年6月13日
「このAI、なんで会話の最初のことを忘れるの?」——それはコンテキストウィンドウの制限が原因です。本記事でLLMの「記憶の仕組み」を初心者向けに解説します。
コンテキストウィンドウとは
LLM(大規模言語モデル)が一度に処理できるテキストの量をコンテキストウィンドウといいます。単位は「トークン」です。
「こんにちは」 = 約2〜3トークン
「Hello World」 = 約3トークン
日本語は英語より1文字あたりのトークン数が多い傾向がある
ウィンドウを超えると、古い会話は自動的に削除(「忘れ」)されます。
主要モデルのコンテキストウィンドウ比較表
| モデル | コンテキスト上限 | おおよその文字数(日本語) |
|---|---|---|
| Claude Opus 4.8 | 200,000 tokens | 約15万文字 |
| Claude Sonnet 4.6 | 200,000 tokens | 約15万文字 |
| GPT-4o | 128,000 tokens | 約9万文字 |
| Gemini 1.5 Pro | 1,000,000 tokens | 約75万文字 |
| Llama 3.1 70B | 128,000 tokens | 約9万文字 |
| GPT-3.5 Turbo | 16,385 tokens | 約1.2万文字 |
トークン数の数え方
import anthropic
client = anthropic.Anthropic()
# トークン数を確認(Anthropic API)
response = client.beta.messages.count_tokens(
model="claude-sonnet-4-6",
messages=[{"role": "user", "content": "長い文書をここに貼り付ける"}]
)
print(f"トークン数: {response.input_tokens}")
OpenAI用はtiktoken↗を使います。
長いコンテキストの活用テクニック
1. コンテキストに全ドキュメントを入れる(RAGの前段階)
Claudeの200Kトークンなら、PDF50〜100ページ相当を丸ごと渡せます。
2. RAGでトークンを節約
全文を渡さず、関連する断片だけ検索して渡す方式。詳しくはRAGとファインチューニング比較記事を参照。
3. ローカルLLMで節約
LocalAIなどのローカルLLMはAPIコストがなく、大量のトークンを処理してもコスト増なし。
コンテキストが長くなると何が起きる?
- コスト増加:多くのAPIはトークン数で課金
- 速度低下:大きなコンテキストは応答が遅くなる
- Lost in the Middle問題:長い文書では中間部分の情報を見落としやすい
LLMツール全体はLLMツールカテゴリから探せます。
まとめ
コンテキストウィンドウはLLMの「短期記憶」です。Claudeは200K・Geminiは1Mと拡大が続いています。使い方に応じてRAGとの使い分けでコストと精度のバランスを取りましょう。
よくある質問(FAQ)
Q. 会話の途中で忘れないようにするには?
重要な情報を「最初に箇条書きでまとめて毎回渡す」「システムプロンプトに書き込む」のが実践的な対策です。長期記憶にはMemory(永続記憶)ツールとの組み合わせが有効です。
Q. トークン数が多いほど賢くなりますか?
コンテキストが広いほど参照できる情報は増えますが、モデルの頭の良さはパラメータ数に依存します。長いコンテキストを使いこなすモデルの能力も重要です。
Q. 無料で大きなコンテキストを使えますか?
Gemini 1.5 Proは無料枠でも1Mトークンのコンテキストが使えます。Claudeの無料プランは制限があります。ローカルLLM(Ollama・LocalAI)はAPIコスト不要です。
関連リンク・公式情報
ここで紹介したツールの一次情報(公式サイト・ソースコード)と、オープンソースラボ内の関連ページをまとめました。導入検討の際にご活用ください。
公式サイト・ソースコード(外部リンク)
オープンソースラボの関連ページ(内部リンク)
