AIの答えは、どこから推論になるのか

調べものをしていて、AIに聞く。数秒で、すぐに使えそうな答えが返ってくる。
文章はなめらかで、口調は迷いがない。そのまま資料に貼りたくなる。

でも、ふと止まる。

この答えは、本当に正しい答えなのだろうか。どこかに書いてあったことなのか。
それとも、その場で組み立てられたものなのか。

見た目では、区別がつかない。出典に支えられた一文も、誰も書いたことのない一文も、同じ落ち着いた調子で返ってくる。

AIの答えは、どこから「推論」になるのか。
その境目は、答えを受け取る私たちには見えるのか。

同じ口調で、違うものが返ってくる

AIの答えには、少なくとも三つの由来が混ざります。

引用してくる答え 外部の資料を検索し、それを参照しながら書く答え。

再構成される答え 過去に学習した情報をもとに、その場の問いに合う形で作られる答え。

組み立てられる答え 複数の事実や概念をつないで、もっともらしい形にする答え。

外から見ると、この三つは同じ顔をしています。

何を読めたか

ここで読めたのは、AIの答えがひとつの動きではない、ということです。

覚えた知識から答える。 学習で重みに圧縮された知識を、その場で取り出して書く。

外部資料を参照して答える。 答える前に文書を検索し、その文書を下敷きにして書く。

その場で組み立てて答える。 複数の事実を結合し、もっともらしい一文を作る。

この三つは、内部では違う動きです。でも、出てくる文章では、同じ口調に見えます。

文章を作る基本の動き

大規模言語モデルは、「次に来る言葉」を一語ずつ予測して文章を伸ばしていく仕組みで動いています。一語出すと、それを含めて次の一語を予測する。これを繰り返す。

学習の段階で、文法も、事実らしきものも、推論のパターンも、まとめてパラメータ（モデルの重み）の中に圧縮されていきます（Retrieval-augmented generation — Wikipedia ほか、入門解説で確認）。

ここで一つ、構造的なことが分かります。学習で覚えた知識は、重みの中に溶け込んでいて、「どの文書に書いてあったか」は原則として取り出せない。だから、覚えた知識だけで答えるとき、AIは「どこで読んだか」を示せません。

外部資料を参照する方式（RAG）

一方で、RAG、検索拡張生成と呼ばれる方式があります。簡単に言えば、AIが答える前に外部の文書を検索し、その文書を参照しながら答えを作る仕組みです（Lewis et al. 2020, “Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks”, arXiv:2005.11401。NeurIPS 2020 採録）。

この方式なら「この文書を元にした」と出典を示せます。覚えた知識から答えるのと、いま参照した文書から答えるのは、別の動きだということです。

内部の回路で起きていること

では、AIが答えるとき、頭の中（に相当する内部の回路）で何が起きているのか。Anthropicが2025年に公開した内部回路の調査がここに踏み込んでいます（Tracing the thoughts of a large language model — Anthropic）。読めたのは三つです。

答えを組み立てている。 「ダラスがある州の州都は?」と聞かれたとき、モデルはまず「ダラスはテキサスにある」という概念を活性化させ、それを「テキサスの州都はオースティン」という別の概念につないでいた、と報告されています。単なる丸暗記の再生ではなく、複数の事実をその場で結合していた、という観察です。

「答えられない」が初期設定になっている。 モデルには「情報が足りないので答えられない」と言う回路が、もともと「オン」で待っている（記事では refusal が the default behavior と書かれています）。よく知っている対象（記事中の例はバスケットボール選手のマイケル・ジョーダン）について聞かれると、「知っている対象だ」という別の回路が働いて、この「答えられない」回路を抑え込む。問題は、この「知っている」判定が誤って発火したときで、抑え込みが外れたまま、もっともらしい内容を作ってしまう。これが幻覚（hallucination）の一つの起き方だと説明されています。「嘘をつく意図」ではなく、抑制の誤作動として描かれているのが要点です。

答えから逆算することがある。 答えのヒントを先に与えられると、モデルは「その答えにたどり着くような途中の手順」を後から作ることがある、と報告されています（記事では a form of motivated reasoning と表現）。つまり、推論の手順が示されていても、それが本当に計算された道筋とはかぎらない。

覚えていることと、推論できることは別

加えて、「覚えている」ことと「それを使って推論できる」ことが別だ、という実験もあります（Memorization vs. Reasoning: Updating LLMs with New Knowledge, arXiv:2504.12523、2025年・プレプリント）。

新しい事実をモデルに学習させると、その事実を直接そのまま問えば、かなりの精度で答える。けれど、その事実を使って一歩ふみこんで考えさせる問い方をすると、更新前の古い知識のまま答えてしまう——直接問いと「使わせる問い」とで、正答率が大きく開いた、と報告されています。

覚えさせたはずなのに、推論の場面では更新前の知識が出てくる。

確信度の問題

そして、確信度の問題。

カーネギーメロン大学の2025年の研究は、お絵描き当て（ピクショナリー風）などの課題でAIに自己評価をさせました（CMU Dietrich — AI Chatbots Remain Overconfident）。あるモデル（Gemini）は20問中ほとんど正解できなかった（正解は1問に満たなかった）のに、終わったあとで「14.40問正解した」と振り返った、と報告されています。

人間は出来が悪いと事後に自己評価を下げますが、モデルはむしろ自信を強めることさえあった。研究者は、モデルが自分自身をうまく内省できていないようだ、と述べています。

何が変わったのか

少し前まで、「AIの答えが正しいかどうか」は、答えの中身（事実かどうか）を照合する話でした。いま変わりつつあるのは、問いの場所です。

照合の前に、もう一つ手前の問いが立つようになった。この答えは、そもそも何由来なのか。 資料を引いて書かれたものか、覚えた知識から再構成されたものか、複数の事実をその場で結合したものか、更新前の古い記憶か。Anthropicの内部回路の調査が示したのは、これらが内部では違う動きとして起きている、ということでした。

ところが、その違いは、出てくる文章の表面には乗ってきません。流暢さと正確さは、別々に動く。なめらかな文章ほど、由来の違いが見えにくくなる。

「迷いのない口調」は、正しさの証拠ではなかった——ここが、以前と変わったところです。

ここから考えたこと

ここから先は、読めた事実そのものではなく、それをどう読むか、という解釈です。事実と分けて書きます。

読めた事実を並べると、一つの像が浮かびます。AIの答えには「由来のラベル」が付いていない。 資料に裏づけられた一文と、その場で組み立てられた一文と、自信ありげに外した一文が、同じ調子で並んで出てくる。受け取る私たちが普通に読むかぎり、その三つを見分ける手がかりは、文章の中にはほとんど無いように見えます。

もしそうだとすると、「AIの答えを信じてよいか」という問いは、たぶん答えの中身だけでは閉じません。中身が正しく見えることと、それが確かな由来を持つことは、別のことだからです。確からしさは、答えの外——どの資料に当たれるか、どこで検証できるか——の側にあるように読めます。いまのところ、私はそう読んでいます。

それと、確信度の話を重ねると、もう一つ見えてくる。モデルが自分の出来を正しく振り返れないなら、AIの「自信」は、こちらが信頼度として読み取ってよい信号ではなさそうだ、ということです。強い断定が、正しさではなく、ただ口調であることがある。

残った問い

ここまで読んでも、まだはっきり分かれていないところがあります。

「組み立てた」は、どこから「推論」と呼べるのか。 内部回路の調査は「複数の事実を結合していた」ことを示しましたが、それが人間の言う推論と同じ意味なのかは、まだ分かっていません。

RAGで「出典を示せる」とき、本当にその文書から答えているのか。 文書を検索して付けながら、中身は覚えた知識で書き、出典だけ後付けする——という可能性は残ります。出力が参照文書にどれだけ忠実か（faithfulness）は、研究の途中にあるテーマで、今回その一次研究の本体までは到達できていません。

由来のラベルは、外から付けられるようになるのか。 いまは、ある一文が資料由来か生成かを、受け取る側が確実に見分ける公開された方法を、私は確認できていません。これが出てくるかどうかが、この問い全体の分かれ目になりそうです。

AIの確信度は、どこまで当てにならないのか。 カーネギーメロンの研究は「当てにならない」方向を示しましたが、どの場面で・どの程度ずれるのかの地図は、まだ描かれ始めたばかりに見えます。

次に読みたい問い

この問いは、もう一つの問いに横へつながっています。

AIが由来のラベルなしに、迷いのない口調で答えるとして——では、なぜ私たちは、それをそのまま信じてしまうのか。答えを作る側の仕組みから、答えを受け取る側の心理へ。

→ 人は、なぜAIの答えを信じてしまうのか

読んだ痕跡

この記事で読めた範囲と、読めなかったところを残しておきます。

英語の研究・英語圏のソースに寄っています。Anthropic、arXiv、カーネギーメロン大学、英語の入門解説を中心に読みました。日本語の一次研究にはほとんど当たれていません。「AIの答えの由来」という問いが、いまどの言語圏でどう議論されているのかは、まだ十分に読めていません。

一次資料まで読めたものと、紹介記事や解説にとどまったものがあります。Anthropicの内部回路の記事、RAGの原論文、カーネギーメロン大学の研究紹介、「覚えること」と「推論すること」の違いを扱った論文には、本体ページまで当たりました。ただし、2025年のプレプリントや大学の研究紹介も含まれます。現時点で読めた資料として扱っています。

幻覚の発生率の数字は、本文では扱いませんでした。モデル別・分野別の率は、二次的な集計サイトでの確認にとどまったためです。測る課題が違えば数字も変わるため、率だけが一人歩きしないようにしました。

これは、2026年6月24日時点での情報にもとづく読みです。新しい資料に出会えば、また読み直します。

World Reading Note

Notes