ここが生成AI の本質的な性質の話です。ネット上では色々なテクニックが転がっていますが、物事には必ず原理原則があります。そしてそれが発生するメカニズムがあります。生成AIに関する原理原則を知っておくと色々な現象がスッと腑に落ちます。
第3部 — 高コストの裏にある仕組み AI は会話を「覚えていない」
図4. AIは1回ごとに完結している(ステートレス) 入力 AI(LLM) 出力 内部に記憶を持たない。1回の応答ごとに完結し、前後と独立している。 前のやり取りを「覚えている」ように見えるのは、毎回履歴を読み直しているから。 図4. AIは1回ごとに完結している(ステートレス)
身も蓋もない話ですが、現在の AI(LLM)は 会話を覚えていません 。
入力 → 思考 → 出力で完結 内部に記憶を持たない 1回の応答ごとに完結する(前後と独立) 「いやでも、ちゃんと前のやり取り覚えてるよね?」と思うかもしれません。あれは、毎回履歴を読み直しているから、覚えているように見えている だけです。
専門用語ではこの性質を「ステートレス(状態を持たない)」と呼びます。これは設計の選択じゃなくて、現在の AI の仕組み上の本質です。
だから、毎回「過去を渡し直す」仕組みになっている
図5. 履歴を毎回渡し直す(エージェントの基本動作) 入力に過去の履歴が積み上がっていく。AI 自体は何も覚えていない。 ターン1 [ 入力 ] LLM [ 出力1 ] 履歴として保存 ターン2 [ 入力 ] [ 履歴1 ] LLM [ 出力2 ] さらに履歴として積み上がる ⋮ ターンN [ 入力 ] [ 履歴1 ] … [ 履歴N-1 ] LLM [ 出力N ] 入力 履歴(過去) AI(LLM) 出力 図5. 履歴を毎回渡し直す
AI が記憶を持たないなら、どうやって会話が成り立つのか。答えはシンプルで、過去のやり取りを丸ごと毎回くっつけて渡している んです。
ターン1:[入力] → LLM → [出力1] ターン2:[入力 + 履歴1] → LLM → [出力2] ターンN:[入力 + 履歴1 … 履歴N-1] → LLM → [出力N] これがエージェントの基本動作。なお、これは 記憶の代わり であって、本物の記憶ではない、というのが大事なポイントです。
履歴は減らせない、まとめられない
図6. 履歴は減らせない、まとめられない 履歴 = やり取り₁ + やり取り₂ + やり取り₃ + … + やり取りₙ + 足していく 可能 − 削っていく 不可 ≈ まとめる 不可 図6. 履歴は減らせない、まとめられない
生成AI は、過去のやり取りを 自分自身で要約する機能を持っていません 。だから履歴は積み上がる一方になります。
足していく → 可能(普通にどんどん溜まる)削っていく → 不可(AI が自発的に整理してくれない)まとめる → 不可(AI が自発的に圧縮してくれない)履歴を要約させることはできますが、それは外から指示してやらせるのであって、AI 自身が自然にやってくれるわけではありません。
情報は増えるが、「役に立つ情報」の濃度は薄まる
図7. コンテキストの「中身の濃度」は時間とともに薄まる 重要情報の絶対量は変わらない。積み上がっていくのはノイズの方 重要 情報 初期 100% 重要情報 全部が役に立つ情報 中期 33% ノイズ(過去の失敗・冗長) 重要情報 ノイズの方が積み上がる 後期 17% ノイズ(過去の失敗・冗長) 重要情報 大事な情報の比率が薄まる 図7. コンテキストの中身の濃度は薄まる
履歴がどんどん積み上がると、見かけの情報量は増えます。でも、そのうち本当に役に立つ情報の比率(濃度)は下がっていく 。
初期 中期 後期 重要情報の濃度 100% 33% 17% 中身 全部役に立つ 過去の失敗・冗長が増える 大事な情報が埋もれる
役に立つ情報の割合 = 必要な情報 ÷ 全体の情報量、というイメージです。
これが、業界で言う 「コンテキスト汚染」 の正体です。
だから「たくさん考えさせる」ほど賢くなるわけじゃない これが、現象B(料金と精度のミスマッチ)の正体です。
これまでの常識 実際に観測されたこと 情報を増やすほど賢くなる(右肩上がり) 途中で頭打ち、その後は逆に劣化
「もっと文脈を渡せば、もっと良い答えが返ってくるはず」 — じゃないんですよね。
モデルの進化が、汚染の規模も大きくした ちょっと皮肉な話です。
STEP 1 — モデルが進化した:コンテキストウィンドウが大幅に拡大(4K → 32K → 200K → 1M トークン以上)STEP 2 — 業界が「もっと詰め込める」に流れた:ドキュメント全体を投入、履歴を全部保持、ツール出力を無制限追加…STEP 3 — 結果、汚染も桁違いに拡大:重要情報の絶対量は変わらず、ノイズだけが膨らんでいくつまり、容量の拡大が 意味密度低下のリスクに直結している 。
解決策は、容量を使い切ることじゃなくて、容量の中で 「何を選ぶか(=何を残すか)」 。