コンテキストウィンドウ(AI)

公開日：2026/04/18　更新日：2026/05/26　

※本ページにはプロモーション(広告)が含まれています

一般IT用語

読みコンテキストウィンドウ
英語Context Window

ひとことでいうと

LLMが1回の応答で処理できるトークンの総量。入力と出力の合計に上限があり、長文処理の可否を決める重要仕様。

詳しい解説

コンテキストウィンドウは、LLMが1回のやり取りで扱える入力＋出力トークンの上限量で、モデル選定時の最重要スペックの1つです。『モデルが一度に覚えていられる範囲』と言い換えることができ、この値を超えるとそれ以前の内容は忘却され、応答品質が急激に低下します。2026年時点では、モデルごとに4Kから200万トークンまで大きな差があり、用途によって適切なモデル選択が必要です。

主要モデルのコンテキストウィンドウ比較（2026年4月時点）は、①Gemini 3 Pro: 200万トークン（単行本約15冊分）、②Claude 4.7 Opus: 100万トークン（約10冊分、1Mコンテキスト版）、③GPT-5: 50万トークン、④Claude 4.7 Sonnet: 20万トークン、⑤GPT-5 Mini: 12.8万トークン、⑥Llama 4: 10万トークン、⑦ローカル軽量モデル: 4K〜3.2万トークン、となっています。長文処理でClaude／Gemini、軽量高速でGPT Mini系、という棲み分けです。

理論上のウィンドウサイズと実用的な性能は必ずしも一致しません。『Lost in the Middle』現象と呼ばれ、ウィンドウの中盤に置かれた情報が冒頭・末尾より参照されにくくなる傾向が古くから指摘されています。2024年のNeedle In A Haystackベンチマーク、2025年のMRCR（長文推論）評価で、Claude・Geminiの最新モデルはこの問題をほぼ克服しましたが、ウィンドウをフルに使うほど遅延とコストが増大するトレードオフは残ります。

コンテキストウィンドウ不足のトラブル例としては、①長文を要約しようとして途中で切られる、②チャット履歴が古い発言から忘却されて矛盾した返答、③複数ファイルを読ませると一部しか読まない、④プログラムコード全体を解析できない、などがあります。対策としては、①より大きなコンテキスト対応モデルへ切り替え、②RAGで必要部分だけ取り出して渡す、③文書を要約してから渡す、④プロンプトキャッシュを活用、⑤セッションを区切って小さく渡す、の5パターンが定番です。

2026年のトレンドとして、1Mトークン超の『超長文コンテキスト』が実用化され、書籍1冊丸ごと・ソースコードリポジトリ全体・企業の全マニュアルを一括投入する使い方が広がっています。コスト・遅延が許容できれば、RAGを使わずコンテキストに全部入れる『コンテキストストレッチ』派と、RAGで必要最小限を渡す『コンテキストミニマル』派のベストプラクティス議論が続いている状況です。

具体的な場面

300ページの契約書をAIに読み込ませて『リスク箇所を指摘して』と依頼する場面を想像してください。GPT-4（128Kトークン）では一部の章しか同時に把握できず、章をまたいだ矛盾を見逃します。これをClaude 4.7 Opus（1Mトークン）で実行すると、300ページ全体を同時に把握したうえで『第5章と第12章の条項が矛盾しています』という章横断のチェックが可能になります。コンテキストウィンドウの差が、実用的な処理能力の差として直接現れる好例です。