2026年5月6日水曜日

今日から使える3つの原則

第5部 — 今日から使える3つの原則

よくある誤解と、正しいアプローチ

✗ よくある誤解✓ 正しいアプローチ
「最強のプロンプトを作れば、一発で正解が出るはず」段階を踏みつつ、修正の往復を起こさせない
段階を踏む過程そのものを飛ばしている段階を踏むこと自体が AI への「設計図」
最初の指示が重くなりすぎるやり取りの "質" を見極める
結局、別の形で品質が落ちるやり取りを減らすのが正解じゃない

ポイントは、「どんな」やり取りをするかが、すべて ということ。

やり取りには「前進する」ものと「空回りする」ものがある

前進するやり取り空回りするやり取り
何の話か仕事そのものの話過去の失敗の話
積み重ねた結果進歩混乱
品質への影響良くなる、または変わらない急激に悪くなる
仕様の段階的な詰め、レビューと確定やり直し指示、感情的な反応、補足の補足

やり取りの 「数」 ではなく、「種類」 で品質が決まる。

3つの設計原理

図9. 3つの設計原理良質なインプット最初に与える情報を厳選する無駄な情報を入れない→ そもそもノイズを入れない設計健全なコンテキスト良質なインプットのみ履歴に残す修正の往復を起こさせない→ 「空回り」を作らない明確なアウトプット出力フォーマットも指示に含める出力項目を規定して揺らぎを抑える→ 出力の揺らぎを減らす
図9. 3つの設計原理

① 良質なインプット

  • 最初に与える情報を厳選する
  • 無駄な情報を入れない
  • → そもそもノイズを入れない設計

② 健全なコンテキスト

  • 良質なインプットだけ履歴に残す
  • 修正の往復を起こさせない
  • → 「空回り」を作らない

③ 明確なアウトプット

  • アウトプットのフォーマットも指示に含める
  • 出力項目を規定して、揺らぎを抑える
  • → 出力の揺らぎを減らす

これは経験から得た原則ですが、ここまでで見てきた AI の性質とちゃんと整合しているはずです。

前進するやり取りを作るための4つのコツ

最後に、現場で意識しているコツを4つ。

  • ✅ 完璧なプロンプト(一発指示出し)は必要ない。会話で十分
  • ✅ 指示(ゴール)だけじゃなく、それが必要な状況(文脈)も伝える
  • ✅ 指示内容は段階的に詳細化する(良質なインプットを履歴に積む)
  • ✅ 苛立ちや「違う、それじゃない」「なぜこうなった?」を AI に投げない

この4つを守れば、やり取りは「前進」したまま、「空回り」に転落しにくくなります。

2026年5月5日火曜日

良い結果を出すのも、悪い結果を出すのも、結局は自分次第

 

第4部 — 品質が悪化する本当の理由

ここまでで分かったこと

履歴が積もる → 大事な情報が薄まる → 品質が落ちる

これは分かりますよね。でも、現場で観測される品質低下って、もっとひどいんですよね。

品質低下は、加速度的 に進む

なぜそうなるのか。

品質劣化は「雪だるま式」に進む

図8. 品質劣化は「雪だるま式」に進むそして、その雪だるまを大きくしているのは「私たち」です情報を詰め込みすぎるAI の出力品質が落ちるユーザーが「違う、もっとこう」と指摘指摘のやり取りも履歴に積もる次の出力はさらにブレるさらに厳しく指摘するループ加速同じ構造が他分野にもある化学自己触媒反応制御工学発振生態系正のフィードバック
図8. 雪だるま式の品質劣化ループ

実際に起きるのは、こういう加速ループです。

  1. 情報を詰め込みすぎる
  2. AI の出力品質が落ちる
  3. ユーザーが「違う、もっとこう」と指摘
  4. 指摘のやり取りも履歴に積もる
  5. 次の出力はさらにブレる
  6. さらに厳しく指摘する

…で、1 に戻る。

ちなみに、この構造は AI 特有の話じゃなくて、他の分野にも同じものがあります。

  • 化学:自己触媒反応
  • 制御工学:発振
  • 生態系:正のフィードバック

要は、放置すると勝手に大きくなる現象です。

雪だるまの「核」は、修正のやり取り

雪だるまの中心 — 加速のエネルギー源になっているのは、実は 修正・やり直しのやり取り です。

ふつうの指示やり直し・修正のやり取り
仕事の話過去の失敗を蒸し返す話
AI が前進する材料になるAI を混乱させる材料になる
品質に貢献 / 中立品質を急落させる

過去の失敗の話が混ざるほど、AI は「結局、いま何をすべきか」を見失っていきます。

つまり、品質を決めているのは AI じゃなくて「人間の振る舞い」なのです。

AI の調子が悪くなる原因の半分は、私たちの「付き合い方」にある

しかも、悪循環がきれいにできあがっています。

出力が悪い → 苛立ち・焦り → 過剰な再指示 → さらに出力悪化

ということで、これは AI 側を変える話じゃなくて、私たちの使い方を変える話 です。

私も仕事として実際にコーディングする事は少なくて、指示出しなどマネジメントが殆どですが、感覚的には人に指示してプログラムを作成して貰うのも、生成AIに指示してプログラムを作成するのも、変わらない印象です。結局は「相手を見て何を伝えるか? どう伝えるか?」を考え続けています。


2026年5月4日月曜日

生成AIのコストはトークン消費量に比例するが、精度は比例しない

ここが生成AI の本質的な性質の話です。ネット上では色々なテクニックが転がっていますが、物事には必ず原理原則があります。そしてそれが発生するメカニズムがあります。生成AIに関する原理原則を知っておくと色々な現象がスッと腑に落ちます。




第3部 — 高コストの裏にある仕組み

AI は会話を「覚えていない」

図4. AIは1回ごとに完結している(ステートレス)入力AI(LLM)出力内部に記憶を持たない。1回の応答ごとに完結し、前後と独立している。前のやり取りを「覚えている」ように見えるのは、毎回履歴を読み直しているから。
図4. AIは1回ごとに完結している(ステートレス)

身も蓋もない話ですが、現在の AI(LLM)は 会話を覚えていません

  • 入力 → 思考 → 出力で完結
  • 内部に記憶を持たない
  • 1回の応答ごとに完結する(前後と独立)

「いやでも、ちゃんと前のやり取り覚えてるよね?」と思うかもしれません。あれは、毎回履歴を読み直しているから、覚えているように見えている だけです。

専門用語ではこの性質を「ステートレス(状態を持たない)」と呼びます。これは設計の選択じゃなくて、現在の AI の仕組み上の本質です。

だから、毎回「過去を渡し直す」仕組みになっている

図5. 履歴を毎回渡し直す(エージェントの基本動作)入力に過去の履歴が積み上がっていく。AI 自体は何も覚えていない。ターン1[ 入力 ]LLM[ 出力1 ]履歴として保存ターン2[ 入力 ][ 履歴1 ]LLM[ 出力2 ]さらに履歴として積み上がるターンN[ 入力 ][ 履歴1 ][ 履歴N-1 ]LLM[ 出力N ]入力履歴(過去)AI(LLM)出力これは「記憶の代わり」であって、本物の記憶ではない
図5. 履歴を毎回渡し直す

AI が記憶を持たないなら、どうやって会話が成り立つのか。答えはシンプルで、過去のやり取りを丸ごと毎回くっつけて渡している んです。

  • ターン1:[入力] → LLM → [出力1]
  • ターン2:[入力 + 履歴1] → LLM → [出力2]
  • ターンN:[入力 + 履歴1 … 履歴N-1] → LLM → [出力N]

これがエージェントの基本動作。なお、これは 記憶の代わり であって、本物の記憶ではない、というのが大事なポイントです。

履歴は減らせない、まとめられない

図6. 履歴は減らせない、まとめられない履歴 = やり取り₁ + やり取り₂ + やり取り₃ + … + やり取りₙ+足していく可能削っていく不可まとめる不可
図6. 履歴は減らせない、まとめられない

生成AI は、過去のやり取りを 自分自身で要約する機能を持っていません。だから履歴は積み上がる一方になります。

  • 足していく → 可能(普通にどんどん溜まる)
  • 削っていく → 不可(AI が自発的に整理してくれない)
  • まとめる → 不可(AI が自発的に圧縮してくれない)

履歴を要約させることはできますが、それは外から指示してやらせるのであって、AI 自身が自然にやってくれるわけではありません。

情報は増えるが、「役に立つ情報」の濃度は薄まる

図7. コンテキストの「中身の濃度」は時間とともに薄まる重要情報の絶対量は変わらない。積み上がっていくのはノイズの方重要情報初期100%重要情報全部が役に立つ情報中期33%ノイズ(過去の失敗・冗長)重要情報ノイズの方が積み上がる後期17%ノイズ(過去の失敗・冗長)重要情報大事な情報の比率が薄まる
図7. コンテキストの中身の濃度は薄まる

履歴がどんどん積み上がると、見かけの情報量は増えます。でも、そのうち本当に役に立つ情報の比率(濃度)は下がっていく

初期中期後期
重要情報の濃度100%33%17%
中身全部役に立つ過去の失敗・冗長が増える大事な情報が埋もれる

役に立つ情報の割合 = 必要な情報 ÷ 全体の情報量、というイメージです。

これが、業界で言う 「コンテキスト汚染」 の正体です。

だから「たくさん考えさせる」ほど賢くなるわけじゃない

これが、現象B(料金と精度のミスマッチ)の正体です。

これまでの常識実際に観測されたこと
情報を増やすほど賢くなる(右肩上がり)途中で頭打ち、その後は逆に劣化

「もっと文脈を渡せば、もっと良い答えが返ってくるはず」 — じゃないんですよね。

モデルの進化が、汚染の規模も大きくした

ちょっと皮肉な話です。

  • STEP 1 — モデルが進化した:コンテキストウィンドウが大幅に拡大(4K → 32K → 200K → 1M トークン以上)
  • STEP 2 — 業界が「もっと詰め込める」に流れた:ドキュメント全体を投入、履歴を全部保持、ツール出力を無制限追加…
  • STEP 3 — 結果、汚染も桁違いに拡大:重要情報の絶対量は変わらず、ノイズだけが膨らんでいく

つまり、容量の拡大が 意味密度低下のリスクに直結している

解決策は、容量を使い切ることじゃなくて、容量の中で 「何を選ぶか(=何を残すか)」


2026年5月3日日曜日

AIエージェントはあなたのお金をどのように使うのか

論文が示した内容は私とっては「驚きの内容」ではなく、「実体験で感じてきた事の言語化」でした。

例えば、バイブコーディングでプロト開発をするような場合は特に問題なく速攻で出来てしまいますが、業務システムの様に画面やテーブルが数百もある規模のコーディングを前提とした場合、作る機能は様々でも各レイヤーでは同じ様なコーディングを繰り返し繰り返し行う事になりますが、このようなロングラン状態でも同じ結果を出力し続ける事は確率論的な生成AIではかなり難しい事でした。

第2部 — 研究が示した3つの事実

ここからは、論文と現場の観測から見える3つの現象を順番に見ていきます。

現象A:エージェントは「通常のチャットの 1000倍」消費する

図1. トークン消費量の比較(概念図)コードチャット基準(× 1)コード推論基準の数倍〜十数倍自律エージェント通常チャットの 1000倍規模× 1000
図1. トークン消費量の比較

普通のチャット(数往復のやり取り)を基準にすると、エージェント — つまり「AI が自分で考えながら手を動かす」場合 — は、消費量がケタ違いです。だいたい 1000倍規模になります。

しかも、研究で分かったポイントはここ。

AI が出した答え(出力)よりも、AI に渡している情報(入力)の方が、料金の大半を占めている

つまり、課金の主役は「AI が頑張って考えて吐き出した結果」ではなく、「AI に毎回読み込ませている文脈」の方なんです。

現象B:使えば使うほど料金は膨らむ。しかも賢くはならない

図2. 情報量と「賢さ」の関係 ― 常識と現実これまでの常識情報を増やすほど、賢くなるはず情報量 →賢さ →実際に観測されたこと途中で頭打ち、その後は逆に劣化頭打ち劣化情報量 →賢さ →
図2. 情報量と賢さの関係

直感的には「情報を多く渡す = AI がより賢く答える」と思いますよね。実際はそうなってなかった、というのがこの論文の発見です。

  • 料金は青天井(渡せば渡すほど、消費トークンは増える)
  • でも、精度は途中で頭打ちになる
  • それどころか、その後は逆に 劣化 することがある

「お金を積めば賢くなる」が成立しない、という話です。

現象C:同じ仕事を頼んでも、料金は毎回バラバラ

図3. 同じタスクを6回実行したときのトークン消費量(概念図)実行1実行2実行3実行4実行5実行6最大30倍の差同じ仕事でも、毎回どれだけ消費するかはやってみるまで分からない
図3. 同じタスクを6回実行したときの消費量

同じタスクを何回かエージェントに投げて、消費トークンを記録するとどうなるか。最大で 30倍 くらいの差が出ます。

しかも、

  • どれだけ消費するかは、やってみるまで分からない
  • AI 自身に「どれくらい使う?」と聞いても、正確には答えられない
  • しかも見積もりは、たいてい実際より少なく出る

予算管理する側からすると、これは結構しんどい性質です。

3つの事実は、すべて同じ原因から来ている

ここまでの3つ — 「1000倍消費」「料金と精度のミスマッチ」「実行ごとのばらつき」— は、それぞれバラバラの問題に見えます。でも実は、ひとつの構造的な原因 から来ている、というのが次の章の話です。


2026年5月2日土曜日

生成AIの静かなるターニングポイント

 こんにちは、横井です。

昨年(2025年)の年末からこの4ヶ月くらいは、生成AI及びエージェントツールに関しての状況が激変でした。LLMのモデルの進化以上に、エージェントツールの進化がもの凄く、毎日アップデート版がリリースされてきました。

特に、Claude Coworkがリリースされた時、Anthropic社の人は「Claude CoworkはClaude Codeを使って10日間で完成させた。100%AIコーディング」とコメントして我々を驚かせました。もはや、製品やサービスを提供する側はAIコーディングによって開発をしないと、スピードが追いつかない状況に突入したのです。

そんな中で、私の状況としては既存資産(大規模なソースコード)の解析だったり、AIコーディングを実戦レベルで重ねてきました。色々な経験値が貯まってきましたので、新たに発見した事、今の状況に思う事などを、つらつらと纏めてみました。



第1部 — AI を「定額で使い放題」の時代は、静かに終わりつつある

ここ数ヶ月、料金まわりで大きい動きが続いています。

  • 2026年4月 — Anthropic が Claude Code の Pro プランからの除外を一時テスト(撤回後も方針自体は継続)
  • 2026年4月 — GitHub が Copilot の全プランを 6月1日から従量課金制に変更すると発表
  • 他社含めて、サブスク利用枠の段階的な引き締めが続いている

ざっくり言うと、これまでの「定額で重く使える」状態から「使った分だけ払う」体系へ、業界全体が動いています。

これは値上げの話じゃなくて、構造的な転換のサインだと思っています。

きっかけになった研究

ちょうど良いタイミングで、こんな研究論文が出ました。

How Do AI Agents Spend Your Money? Analyzing and Predicting Token Consumption in Agentic Coding Tasks Longju Bai et al. / ミシガン大学・スタンフォード大学他 / arXiv:2604.22750

主要な発見は3つ。

  1. エージェントが消費するトークンは、通常のチャットの 1000倍規模
  2. 消費量の中身は、AI の出力よりも「入力(渡された情報)」の方が大半
  3. 高い料金を払ったからといって、AI が賢くなるわけではない(精度は途中で頭打ち)

…なかなか衝撃的じゃないでしょうか。

このブログで考えたいこと

最初の問いはシンプルに

「なぜ AI エージェントは、こんなに高くつくのか?」

ただ、調べていくうちに、本当に向き合うべき問いはこっちなんじゃないかと思うようになりました。

記憶を持たない AI に、複雑な仕事をさせるには何が必要か?

このブログは、後者の問いの答えを探す話です。


2026年5月1日金曜日

イノベーティブ・ソリューションズは本社を田町に移転しました

 ご無沙汰しています、横井です。

2026年も気が付けば4ヶ月が過ぎました。このブログも5月になって今年初めての投稿です。

さて、株式会社イノベーティブ・ソリューションズは2026年3月末で本社(横浜)及びワーキングオフィス(大崎)から田町に引っ越しをしました。これは2024年に株式会社パワーソリューションズにグループインしましたが、グループシナジーを高めるために親会社とグループ会社併せて5社が同一拠点にオフィスを集約する事になりました。

【新住所】
〒108-0023
東京都港区芝浦三丁目1番1号msb Tamachi 田町ステーションタワーN 31F







2026年2月17日火曜日

【GeneXus Day 2026講演動画】サンロジスティックス様「ベンダー依存からの脱却と内製化による業務変革」

 2026年2月5日に、ジェネクサス・ジャパン株式会社主催「GeneXus Day 2026」が開催されました。

本イベントでは、「ベンダー依存からの脱却と内製化による業務変革」と題し、弊社が内製化支援を行った株式会社サンロジスティックス様にご講演いただきました。

サンロジスティックス様は、複数の食品メーカーから複数の納品先へ届ける“共同配送サービス”のパイオニアです。システム・業務改革の一環として、基幹システムを含む開発の内製化に取り組み、GeneXusを活用されています。

本講演では、内製化に踏み切った背景となる課題、GeneXus採用の理由、そして内製化の成果と今後の展望についてお話しされています。


講演動画は、弊社YouTubeチャンネルにて公開しております。
見逃してしまった方も、もう一度見たいという方も、この機会にぜひご確認ください。

イベントアーカイブページはこちら(ジェネクサス・ジャパン株式会社)