AI
コンテキストウィンドウとは?LLMの記憶の仕組みを初心者向けに解説【2026年版】

コンテキストウィンドウとは?LLMの記憶の仕組みを初心者向けに解説【2026年版】

オープンソースラボ編集部2026年6月13日

「このAI、なんで会話の最初のことを忘れるの?」——それはコンテキストウィンドウの制限が原因です。本記事でLLMの「記憶の仕組み」を初心者向けに解説します。

コンテキストウィンドウとは

LLM(大規模言語モデル)が一度に処理できるテキストの量をコンテキストウィンドウといいます。単位は「トークン」です。

「こんにちは」 = 約2〜3トークン
「Hello World」 = 約3トークン
日本語は英語より1文字あたりのトークン数が多い傾向がある

ウィンドウを超えると、古い会話は自動的に削除(「忘れ」)されます。

主要モデルのコンテキストウィンドウ比較表

モデルコンテキスト上限おおよその文字数(日本語)
Claude Opus 4.8200,000 tokens約15万文字
Claude Sonnet 4.6200,000 tokens約15万文字
GPT-4o128,000 tokens約9万文字
Gemini 1.5 Pro1,000,000 tokens約75万文字
Llama 3.1 70B128,000 tokens約9万文字
GPT-3.5 Turbo16,385 tokens約1.2万文字

トークン数の数え方

import anthropic

client = anthropic.Anthropic()

# トークン数を確認(Anthropic API)
response = client.beta.messages.count_tokens(
    model="claude-sonnet-4-6",
    messages=[{"role": "user", "content": "長い文書をここに貼り付ける"}]
)
print(f"トークン数: {response.input_tokens}")

OpenAI用はtiktokenを使います。

長いコンテキストの活用テクニック

1. コンテキストに全ドキュメントを入れる(RAGの前段階)

Claudeの200Kトークンなら、PDF50〜100ページ相当を丸ごと渡せます

2. RAGでトークンを節約

全文を渡さず、関連する断片だけ検索して渡す方式。詳しくはRAGとファインチューニング比較記事を参照。

3. ローカルLLMで節約

LocalAIなどのローカルLLMはAPIコストがなく、大量のトークンを処理してもコスト増なし。

コンテキストが長くなると何が起きる?

  • コスト増加:多くのAPIはトークン数で課金
  • 速度低下:大きなコンテキストは応答が遅くなる
  • Lost in the Middle問題:長い文書では中間部分の情報を見落としやすい

LLMツール全体はLLMツールカテゴリから探せます。

まとめ

コンテキストウィンドウはLLMの「短期記憶」です。Claudeは200K・Geminiは1Mと拡大が続いています。使い方に応じてRAGとの使い分けでコストと精度のバランスを取りましょう。

よくある質問(FAQ)

Q. 会話の途中で忘れないようにするには?

重要な情報を「最初に箇条書きでまとめて毎回渡す」「システムプロンプトに書き込む」のが実践的な対策です。長期記憶にはMemory(永続記憶)ツールとの組み合わせが有効です。

Q. トークン数が多いほど賢くなりますか?

コンテキストが広いほど参照できる情報は増えますが、モデルの頭の良さはパラメータ数に依存します。長いコンテキストを使いこなすモデルの能力も重要です。

Q. 無料で大きなコンテキストを使えますか?

Gemini 1.5 Proは無料枠でも1Mトークンのコンテキストが使えます。Claudeの無料プランは制限があります。ローカルLLM(Ollama・LocalAI)はAPIコスト不要です。

関連リンク・公式情報

ここで紹介したツールの一次情報(公式サイト・ソースコード)と、オープンソースラボ内の関連ページをまとめました。導入検討の際にご活用ください。

公式サイト・ソースコード(外部リンク)

オープンソースラボの関連ページ(内部リンク)

この記事で紹介したOSS

他の記事も読む

Let's Build Together

OSS導入、自社だけで悩まない。

ツール選定から構築・運用・AI活用まで、オープンソースラボ運営元のClasslessが伴走します。初回のご相談は無料です。