論文が示した内容は私とっては「驚きの内容」ではなく、「実体験で感じてきた事の言語化」でした。それ故により真実味を持って受け止めました。
第2部 — 研究が示した3つの事実
ここからは、論文と現場の観測から見える3つの現象を順番に見ていきます。
現象A:エージェントは「通常のチャットの 1000倍」消費する
普通のチャット(数往復のやり取り)を基準にすると、エージェント — つまり「AI が自分で考えながら手を動かす」場合 — は、消費量がケタ違いです。だいたい 1000倍規模になります。
しかも、研究で分かったポイントはここ。
AI が出した答え(出力)よりも、AI に渡している情報(入力)の方が、料金の大半を占めている
つまり、課金の主役は「AI が頑張って考えて吐き出した結果」ではなく、「AI に毎回読み込ませている文脈」の方なんです。
現象B:使えば使うほど料金は膨らむ。しかも賢くはならない
直感的には「情報を多く渡す = AI がより賢く答える」と思いますよね。実際はそうなってなかった、というのがこの論文の発見です。
- 料金は青天井(渡せば渡すほど、消費トークンは増える)
- でも、精度は途中で頭打ちになる
- それどころか、その後は逆に 劣化 することがある
「お金を積めば賢くなる」が成立しない、という話です。
現象C:同じ仕事を頼んでも、料金は毎回バラバラ
同じタスクを何回かエージェントに投げて、消費トークンを記録するとどうなるか。最大で 30倍 くらいの差が出ます。
しかも、
- どれだけ消費するかは、やってみるまで分からない
- AI 自身に「どれくらい使う?」と聞いても、正確には答えられない
- しかも見積もりは、たいてい実際より少なく出る
予算管理する側からすると、これは結構しんどい性質です。
3つの事実は、すべて同じ原因から来ている
ここまでの3つ — 「1000倍消費」「料金と精度のミスマッチ」「実行ごとのばらつき」— は、それぞれバラバラの問題に見えます。でも実は、ひとつの構造的な原因 から来ている、というのが次の章の話です。





.jpg)
.jpg)
.jpg)
.jpg)