調べものをしていて、AIに聞く。数秒で、すぐに使えそうな答えが返ってくる。
文章はなめらかで、口調は迷いがない。そのまま資料に貼りたくなる。
でも、ふと止まる。
この答えは、本当に正しい答えなのだろうか。どこかに書いてあったことなのか。
それとも、その場で組み立てられたものなのか。
見た目では、区別がつかない。出典に支えられた一文も、誰も書いたことのない一文も、同じ落ち着いた調子で返ってくる。
AIの答えは、どこから「推論」になるのか。
その境目は、答えを受け取る私たちには見えるのか。
同じ口調で、違うものが返ってくる
AIの答えには、少なくとも三つの由来が混ざります。
引用してくる答え 外部の資料を検索し、それを参照しながら書く答え。
再構成される答え 過去に学習した情報をもとに、その場の問いに合う形で作られる答え。
組み立てられる答え 複数の事実や概念をつないで、もっともらしい形にする答え。
外から見ると、この三つは同じ顔をしています。
何を読めたか
ここで読めたのは、AIの答えがひとつの動きではない、ということです。
覚えた知識から答える。 学習で重みに圧縮された知識を、その場で取り出して書く。
外部資料を参照して答える。 答える前に文書を検索し、その文書を下敷きにして書く。
その場で組み立てて答える。 複数の事実を結合し、もっともらしい一文を作る。
この三つは、内部では違う動きです。でも、出てくる文章では、同じ口調に見えます。
文章を作る基本の動き
大規模言語モデルは、「次に来る言葉」を一語ずつ予測して文章を伸ばしていく仕組みで動いています。一語出すと、それを含めて次の一語を予測する。これを繰り返す。
学習の段階で、文法も、事実らしきものも、推論のパターンも、まとめてパラメータ(モデルの重み)の中に圧縮されていきます(Retrieval-augmented generation — Wikipedia ほか、入門解説で確認)。
ここで一つ、構造的なことが分かります。学習で覚えた知識は、重みの中に溶け込んでいて、「どの文書に書いてあったか」は原則として取り出せない。だから、覚えた知識だけで答えるとき、AIは「どこで読んだか」を示せません。
外部資料を参照する方式(RAG)
一方で、RAG、検索拡張生成と呼ばれる方式があります。簡単に言えば、AIが答える前に外部の文書を検索し、その文書を参照しながら答えを作る仕組みです(Lewis et al. 2020, “Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks”, arXiv:2005.11401。NeurIPS 2020 採録)。
この方式なら「この文書を元にした」と出典を示せます。覚えた知識から答えるのと、いま参照した文書から答えるのは、別の動きだということです。
内部の回路で起きていること
では、AIが答えるとき、頭の中(に相当する内部の回路)で何が起きているのか。Anthropicが2025年に公開した内部回路の調査がここに踏み込んでいます(Tracing the thoughts of a large language model — Anthropic)。読めたのは三つです。
答えを組み立てている。 「ダラスがある州の州都は?」と聞かれたとき、モデルはまず「ダラスはテキサスにある」という概念を活性化させ、それを「テキサスの州都はオースティン」という別の概念につないでいた、と報告されています。単なる丸暗記の再生ではなく、複数の事実をその場で結合していた、という観察です。
「答えられない」が初期設定になっている。 モデルには「情報が足りないので答えられない」と言う回路が、もともと「オン」で待っている(記事では refusal が the default behavior と書かれています)。よく知っている対象(記事中の例はバスケットボール選手のマイケル・ジョーダン)について聞かれると、「知っている対象だ」という別の回路が働いて、この「答えられない」回路を抑え込む。問題は、この「知っている」判定が誤って発火したときで、抑え込みが外れたまま、もっともらしい内容を作ってしまう。これが幻覚(hallucination)の一つの起き方だと説明されています。「嘘をつく意図」ではなく、抑制の誤作動として描かれているのが要点です。
答えから逆算することがある。 答えのヒントを先に与えられると、モデルは「その答えにたどり着くような途中の手順」を後から作ることがある、と報告されています(記事では a form of motivated reasoning と表現)。つまり、推論の手順が示されていても、それが本当に計算された道筋とはかぎらない。
覚えていることと、推論できることは別
加えて、「覚えている」ことと「それを使って推論できる」ことが別だ、という実験もあります(Memorization vs. Reasoning: Updating LLMs with New Knowledge, arXiv:2504.12523、2025年・プレプリント)。
新しい事実をモデルに学習させると、その事実を直接そのまま問えば、かなりの精度で答える。けれど、その事実を使って一歩ふみこんで考えさせる問い方をすると、更新前の古い知識のまま答えてしまう——直接問いと「使わせる問い」とで、正答率が大きく開いた、と報告されています。
覚えさせたはずなのに、推論の場面では更新前の知識が出てくる。
確信度の問題
そして、確信度の問題。
カーネギーメロン大学の2025年の研究は、お絵描き当て(ピクショナリー風)などの課題でAIに自己評価をさせました(CMU Dietrich — AI Chatbots Remain Overconfident)。あるモデル(Gemini)は20問中ほとんど正解できなかった(正解は1問に満たなかった)のに、終わったあとで「14.40問正解した」と振り返った、と報告されています。
人間は出来が悪いと事後に自己評価を下げますが、モデルはむしろ自信を強めることさえあった。研究者は、モデルが自分自身をうまく内省できていないようだ、と述べています。
何が変わったのか
少し前まで、「AIの答えが正しいかどうか」は、答えの中身(事実かどうか)を照合する話でした。いま変わりつつあるのは、問いの場所です。
照合の前に、もう一つ手前の問いが立つようになった。この答えは、そもそも何由来なのか。 資料を引いて書かれたものか、覚えた知識から再構成されたものか、複数の事実をその場で結合したものか、更新前の古い記憶か。Anthropicの内部回路の調査が示したのは、これらが内部では違う動きとして起きている、ということでした。
ところが、その違いは、出てくる文章の表面には乗ってきません。流暢さと正確さは、別々に動く。なめらかな文章ほど、由来の違いが見えにくくなる。
「迷いのない口調」は、正しさの証拠ではなかった——ここが、以前と変わったところです。
ここから考えたこと
ここから先は、読めた事実そのものではなく、それをどう読むか、という解釈です。事実と分けて書きます。
読めた事実を並べると、一つの像が浮かびます。AIの答えには「由来のラベル」が付いていない。 資料に裏づけられた一文と、その場で組み立てられた一文と、自信ありげに外した一文が、同じ調子で並んで出てくる。受け取る私たちが普通に読むかぎり、その三つを見分ける手がかりは、文章の中にはほとんど無いように見えます。
もしそうだとすると、「AIの答えを信じてよいか」という問いは、たぶん答えの中身だけでは閉じません。中身が正しく見えることと、それが確かな由来を持つことは、別のことだからです。確からしさは、答えの外——どの資料に当たれるか、どこで検証できるか——の側にあるように読めます。いまのところ、私はそう読んでいます。
それと、確信度の話を重ねると、もう一つ見えてくる。モデルが自分の出来を正しく振り返れないなら、AIの「自信」は、こちらが信頼度として読み取ってよい信号ではなさそうだ、ということです。強い断定が、正しさではなく、ただ口調であることがある。
残った問い
ここまで読んでも、まだはっきり分かれていないところがあります。
「組み立てた」は、どこから「推論」と呼べるのか。 内部回路の調査は「複数の事実を結合していた」ことを示しましたが、それが人間の言う推論と同じ意味なのかは、まだ分かっていません。
RAGで「出典を示せる」とき、本当にその文書から答えているのか。 文書を検索して付けながら、中身は覚えた知識で書き、出典だけ後付けする——という可能性は残ります。出力が参照文書にどれだけ忠実か(faithfulness)は、研究の途中にあるテーマで、今回その一次研究の本体までは到達できていません。
由来のラベルは、外から付けられるようになるのか。 いまは、ある一文が資料由来か生成かを、受け取る側が確実に見分ける公開された方法を、私は確認できていません。これが出てくるかどうかが、この問い全体の分かれ目になりそうです。
AIの確信度は、どこまで当てにならないのか。 カーネギーメロンの研究は「当てにならない」方向を示しましたが、どの場面で・どの程度ずれるのかの地図は、まだ描かれ始めたばかりに見えます。
次に読みたい問い
この問いは、もう一つの問いに横へつながっています。
AIが由来のラベルなしに、迷いのない口調で答えるとして——では、なぜ私たちは、それをそのまま信じてしまうのか。答えを作る側の仕組みから、答えを受け取る側の心理へ。
読んだ痕跡
この記事で読めた範囲と、読めなかったところを残しておきます。
英語の研究・英語圏のソースに寄っています。Anthropic、arXiv、カーネギーメロン大学、英語の入門解説を中心に読みました。日本語の一次研究にはほとんど当たれていません。「AIの答えの由来」という問いが、いまどの言語圏でどう議論されているのかは、まだ十分に読めていません。
一次資料まで読めたものと、紹介記事や解説にとどまったものがあります。Anthropicの内部回路の記事、RAGの原論文、カーネギーメロン大学の研究紹介、「覚えること」と「推論すること」の違いを扱った論文には、本体ページまで当たりました。ただし、2025年のプレプリントや大学の研究紹介も含まれます。現時点で読めた資料として扱っています。
幻覚の発生率の数字は、本文では扱いませんでした。モデル別・分野別の率は、二次的な集計サイトでの確認にとどまったためです。測る課題が違えば数字も変わるため、率だけが一人歩きしないようにしました。
これは、2026年6月24日時点での情報にもとづく読みです。新しい資料に出会えば、また読み直します。