朝、ニュースアプリを開いて、見出しを目で追っていく。「○○のリスクが 70% 増加」「支持率が前月から 3 ポイント下落」「新しい治療法で死亡率が 25% 低下」。数字は静かに並んでいて、ほとんどの数字は読み流される。

ときどき、ひとつだけ目に止まる数字があって、その日の判断が少し変わる。何を食べるか、誰に投票するか、どの検査を受けるか。

ひとつ前の記事で考えたのは、なぜ AI の答えを信じてしまうのか、だった。今回考えたいのは、それより少し前の場面に近い。ニュースの数字を読むとき、私たちは何を受け取っているのか。同じ事象から、見出しは何通りもの異なる数字を取り出せる。どの数字が選ばれるかで、読み手の中に残るものは違ってくる。

同じ事象から、違う数字が取り出されている

2015 年に世界保健機関 (WHO) の付属組織が、加工肉と大腸がんの関連について報告を出した。新聞の見出しは「ベーコンを毎日 50g 食べると、大腸がんリスクが 18% 増える」と書いた。

統計学者の David Spiegelhalter は、同じ事象を別の窓から見せた。生涯の大腸がんリスクは、ベーコンを食べない人で 100 人あたり 6 人、毎日食べる人で 100 人あたり 7 人。100 人のうち 1 人増える、という話だった (Significance, 2015)。

「18% 増」と「100 人に 1 人増」。どちらも正しい。どちらも嘘ではない。けれど、読み手の中に残る輪郭は別物になる。

数字は「数字そのもの」として届いているように見えて、実際には枠取りとセットで届いている。相対なのか絶対なのか。分母は何で、誰が答えたのか。基準率はいくつか。枠取りが見出しから落ちると、同じ事象が違うニュースになる。

「18% 増」と「100 人に 1 人増」の距離

相対リスクと絶対リスクの距離は、医療の領域で繰り返し問題になってきた。

1995 年、英国の医薬品安全委員会が、第三世代の経口避妊薬で血栓症のリスクが「2 倍」になると発表した。新聞・ラジオ・テレビが一斉に報じた。実際の数字は、7000 人に 1 人が、7000 人に 2 人になる、というものだった。

Gerd Gigerenzer らの整理によれば、この騒動の余波で英国では翌年、推計で約 13,000 件の追加的な中絶が起きたとされる (Gigerenzer et al., Psychological Science in the Public Interest, 2007)。「2 倍」という相対の言葉が、現実の判断を動かした。

別の例。Cancer Research UK は、ある研究について「リスクが 70% 増加」という見出しが出回ったとき、自分たちで読み替えを書いた。絶対値では、生涯リスクは 0.77% から 1.29% へ動いていた。約 0.5 ポイントの増加だった (Cancer Research UK, 2013)。

研究機関自身が、自分たちの研究の見出しを読み替えに来ている、というのが、この問題の深さを示している。

Gigerenzer らはさらに踏み込んで、医学誌の慣行そのものを指摘している。便益 (有効性) は相対で大きく見せ、害 (副作用) は絶対で小さく見せる、という非対称な書き方がプレスリリースの段階で起き、報道に流れていく。マンモグラフィー検診の「乳がん死亡率 25% 低下」という見出しを、医師の 3 分の 1 が誤って「100 人検診すれば 25 人が救われる」の意味に取った、という調査もある。

分母が消えると、数字は反転する

もうひとつ、相対/絶対と並んで、数字を反転させるものがある。基準率 (base rate) と呼ばれてきたものだ。

1978 年、Casscells らがハーバードの医学生・研修医・主治医 60 人にこう尋ねた。有病率 1000 人に 1 人の病気がある。検査の偽陽性率は 5%。あなたの患者が陽性だった。この患者が本当にその病気である確率はいくつか。

最頻回答は 95% で、回答者のおよそ半数がそう答えた。平均は 56%。正解にたどり着いたのは 11 人だった。正解は、約 2%。Tversky と Kahneman が 1981 年のテクニカルレポートで、この結果を引いている (Tversky & Kahneman, 1981)。

なぜこうなるかは、数字を並べてみればわかる。10,000 人のうち、本当に罹患しているのは 10 人。残りの 9,990 人のうち 5% = 約 500 人が偽陽性になる。陽性者は合計 510 人で、そのうち本当の罹患者は 10 人。10 / 510 ≒ 2%。

基準率 (1/1000) が分母として効いていて、検査の精度 (95%) は分子側にしかかかっていない。けれど、見出しから基準率が消えると、「陽性なら 95%」という直観だけが残る。

Maya Bar-Hillel は同じ現象を別の問題で示している。タクシー会社が二つあり、85% が青、15% が緑。夜間のひき逃げの目撃者が「緑だった」と証言した。目撃者の色判別精度は 80%。本当に緑だった確率はいくつか。ベイズ則で計算すると 41%。ほとんどの回答者は 80% に近い値を答えた (Bar-Hillel, Acta Psychologica, 1980)。

基準率の無視は、Kahneman・Tversky・Bar-Hillel が 1970-80 年代に何度も記述している、半世紀近く知られた現象だった。

相対リスク (relative risk) ── 「○%増」「○倍」。比率で表される。小さな絶対値の変化も大きく見える。

絶対リスク (absolute risk) ── 「100人あたり何人」「1000人あたり何人」。実際に何人に何が起きるかが見える。

基準率 (base rate) ── 母集団全体での発生頻度。これが見出しから落ちると、検査の精度や証言の確からしさだけが残り、結論が反転する。

「±3%」は誤差全体ではない、と Pew が書いている

世論調査の数字にも、同じ構造の枠取りがある。

選挙報道で「支持率 ±3% の誤差」と書かれるとき、その ±3% は標本誤差 (sampling error) しか含んでいない。Pew Research が自分たちで明記している。質問文の違い、無回答、回答者が本音を言わないこと、誰を「投票に行きそうな人」と見なすかのモデル ── これらの誤差は ±3% の中に入っていない (Pew Research, 2016)。

2020 年の米大統領選では、AAPOR の事後検証タスクフォースが、最終 2 週間の全国調査平均で Biden に有利方向に 3.9 ポイント、州レベルで 4.3 ポイントずれた、と報告した。過去 40 年で最大規模の誤差だった (AAPOR Task Force, 2021)。

報告書で印象に残るのは、AAPOR 自身の言い方だった。誤差の原因として無回答バイアス (調査に応じる人と応じない人の構成の違い) が消去法で最有力だが、なぜそうなったかは特定できなかった、と書いている。業界が自分たちで「±3% は全誤差ではない」と書き、なぜずれたかも完全には言えない、と書いている。

日本でも、土台が動いている。世論調査の回答率は 1984 年に 80% を超えていたが、2021 年時点では 40-55% 台に下がっている、と J-CAST が整理している (J-CAST, 2021)。社別の最新数値には今回は到達できていないので、ここは幅をもって読みたいけれど、傾向としては、電話に出る人と出ない人の構成は、もう同じではない、というほうへ向かっている。

±3% の数字が変わったのではない。±3% の外側にあるものの大きさが、変わってきた、という話だった。

何を読めたか

ここまでで、いくつかのことが手元に残った。

同じ事象から複数の数字が取り出せる ── ベーコンの「18% 増」と「100 人に 1 人増」は、どちらも同じ研究の同じ数字から作れる。

枠取りは見出しの段で落ちる ── 相対か絶対か、基準率はいくつか、誤差に何が含まれているか。これらは記事本文や脚注には残っても、見出しからは落ちやすい。

業界自身が認めている ── Pew は「±3% は全誤差ではない」と書き、AAPOR は「2020 年はなぜずれたか特定できなかった」と書き、Cancer Research UK は自前の見出しを自前で読み替えている。

半世紀前から知られている ── 基準率の無視は、Kahneman・Tversky が 1970 年代に記述している。新しい話ではない。

これらは「数字に騙されるな」という話ではないと思った。数字は枠取りなしには成立しない。枠取りなしの「裸の数字」というものは、たぶん存在しない。

何が変わったのか

書きながら一度立ち止まったのは、自己適用の問題だった。

この記事自身が「率の一人歩き」をしていないか。「医師の 3 分の 1 が誤読」「平均 56%」「13,000 件の追加中絶」── これらの数字を、私は枠取りなしに置いていないか。

ひとつずつ点検すると、いくつか正直に書き直すべきところがあった。Casscells らの 1978 年の研究は、サンプル数 60 人で、ハーバードの限定された集団の話だ。これを「医師は基準率を無視する」と一般化すると、それ自体が基準率の無視になる。

英国の 1995 年ピル騒動の「追加中絶 13,000 件」も、Gigerenzer らが二次的に引いている推計で、私はその一次の人口統計には到達できていない。本文には「Gigerenzer らによれば」と帰属を残した。

数字を疑う記事は、自分の数字も疑わなければ、同じ構造の中にいることになる。

ここから考えたこと

「では読み手はどうすればいいのか」という結論を、急ぎたい誘惑があった。けれど、ひとつブレーキになる研究があった。

Weber らの 2018 年の研究では、ベイズ問題を確率で出題したときの正答率は約 4% だったが、自然頻度 (「100 人のうち何人」型) に書き換えると 24% まで上がった (Weber, Binder & Krauss, Frontiers in Psychology, 2018)。

ただし、4 人に 3 人は依然として間違える。さらに彼らが見つけたのは、自然頻度で出題されているのに、約半数 (49%) の回答者が自発的に確率の形に「戻して」計算してしまい、間違える、という現象だった。

「教えれば直る」も、思ったほど効かない。

これが意味することを、私は読み手の側だけでなく、数字を運ぶ側の問題として読みたいと思った。研究者が論文に書く数字、プレスリリースに載る数字、見出しに残る数字。それぞれの段で、何かが落ち、何かが選ばれている。読者がひとりで賢くなれば解決、という話には、ならない。

Jonathan Stray が記者向けに書いたガイドの中に、印象に残った一文があった。米国の月次雇用統計の調査誤差は ±105,000 人なので、それより小さい前月比変化を見出しにすべきではない、と書いている (Stray, Tow Center / CJR, 2016)。

業界の中に、こういう自己点検を書く人がいる、というのは、たぶん少しは希望のある話だった。

残った問い

数字を疑うことは、数字を捨てることではない、というのが、残った輪郭だった。

Spiegelhalter が「18% 増」をやめて「100 人あたり 1 人増」と書き直したとき、彼は数字を放棄したのではなく、別の窓から同じ現象を見せていた。数字は、枠取りを変えれば、別のことを言える。けれど、何も言わなくなるわけではない。

私にできるのは、たぶん、見出しの数字を読んだあと一拍だけ置いて、分母は何で、誰が答えていて、相対か絶対か、と自分に問うことだ。それでも 4 分の 3 は間違える、という研究を知った上で、自分も間違えていることを織り込んでおくこと。

「正しく読めるようになる」ではなく、「間違えながら読んでいることを忘れない」のほうが、私には近かった。

次に読みたい問い

この記事を書きながら気づいたのは、数字の読み替えは「読み手の問題」というよりも、数字が手元に届くまでの経路で何度も起きている、ということだった。

研究者が論文に書く数字、プレスリリースに載る数字、見出しに残る数字。それぞれの段で、何かが落ち、何かが選ばれている。落ちたものは、たいてい、もう戻ってこない。

同じことが、もっと身近な場でも起きているのではないか、と思った。たとえば会議。誰かが発言し、別の誰かが要約し、議事録に残る。残った言葉と、最初に言われた言葉は、たいてい少し違う。誰の問いが、どこで消えるのか。次の記事ではそれを読みたい。

読んだ痕跡

Tversky & Kahneman (1981) Evidential Impact of Base Rates ── 基準率の無視の古典的記述。Casscells らの 1978 年の医師調査 (60 人、最頻回答 95%、正解 11 人) を引いている箇所が、本記事の冒頭事例の骨格になった。

Bar-Hillel (1980) The Base-Rate Fallacy in Probability Judgments, Acta Psychologica ── タクシー会社の問題 (85% 青/15% 緑、証言精度 80%、ベイズ則で 41%) で、個別証拠が基準率を支配する現象を数値で示した論文。

Gigerenzer et al. (2007) Helping Doctors and Patients Make Sense of Health Statistics, Psychological Science in the Public Interest ── 1995 年英国ピル騒動、マンモグラフィー検診の「死亡率 25% 低下」を医師 3 分の 1 が誤読、5 年生存率と死亡率の相関がほぼゼロであることなど、医療統計の読み替えの構造を体系化した文献。

Spiegelhalter (2015) Bacon, cancer, and the vital importance of statistical reasoning, Significance ── ベーコンの「18% 増」を「100 人あたり 1 人増」に読み替えた解説。本記事の冒頭の輪郭はここから来ている。

AAPOR Task Force (2021) Report on 2020 Pre-Election Polling ── 2020 年米大統領選の調査誤差が過去 40 年で最大だったこと、原因として無回答バイアスが最有力だが特定はできなかったこと、を業界自身が書いた一次資料。

Pew Research (2016) Understanding the margin of error in election polls ── 「±3%」は標本誤差だけで、無回答や質問文や likely voter モデルの誤差は含まない、と Pew が公式に書いた解説。

J-CAST (2021) 世論調査「回答率」低下で信頼性は ── 日本の世論調査の回答率が 1984 年 80% 超から 2021 年 40-55% 台へ低下した経緯の整理。社別の最新数値には本記事は到達できていない。

Weber, Binder & Krauss (2018) Why Can Only 24% Solve Bayesian Reasoning Problems, Frontiers in Psychology ── 自然頻度に書き換えても正答率は 4% → 24% にしか上がらず、約半数が自発的に確率に「戻して」失敗する、という結果。

Cancer Research UK (2013) Absolute versus relative risk ── 「リスク 70% 増」の見出しを、絶対値 0.77% → 1.29% (約 0.5 ポイント増) に読み替えた事例。研究機関自身による読み替えの例。

Stray (2016) The Curious Journalist’s Guide to Data, Tow Center / CJR ── 米国の月次雇用統計の調査誤差は ±105,000 人なので、それより小さい前月比変化を見出しにすべきでない、と書いた記者向けガイド。報道側の自己点検として引ける数少ない一次資料。