2013.05.12
# 本

『ビッグデータの正体 情報の産業革命が世界のすべてを変える』
~第2章 第1の変化「すべてのデータを扱う」より~

無作為抽出という革命

 「すべてのデータを使うのか、一部のデータでいいのか」という論争は過去にもあった。集計対象となるデータを漏れなく集められるなら、それに越したことはない。しかし、大規模な案件の場合は現実的ではない。そこで問題となるのが、標本の選び方だ。

 全体の縮図となるように恣意的に標本を作成するのが一番という声もあった。ところが、1934年、ポーランドの統計学者イェジ・ネイマンは、そのような恣意的な標本抽出がとんでもないミスにつながることをはっきりと示した。後からわかったことだが、標本は恣意的な抽出ではなく、無作為抽出(ランダムに選ぶ方法)がポイントだった。

 実際、統計学者らによる研究の結果、標本の規模を大きくしなくても、無作為抽出によって標本の精度が飛躍的に高まることがわかった。意外かもしれないが、ある母集団(集団全体)が「はい・いいえ」のような二者択一問題にどのように回答するのかを調べたい場合、無作為抽出した1100人の標本があれば、なんと97%以上の精度で全体の動向を言い当てることができる。20件中、19件は間違いないことになる。これは母集団全体の規模が10万でも1億でも同じだ。その理由は数学的には少々込み入った話になるが、平たく言えば、ある一定数を超えると、標本数がいくら大きくなっても、観察結果から得られる目ぼしい新情報は少なくなっていくのだ。

 標本の規模そのものよりも無作為抽出のほうが重要とは、驚くべき発見だった。これを機に、情報収集の新たな道が開かれた。無作為抽出した標本なら、データ集めも安上がりなうえ、高い精度で母集団全体の状況を推定できる。おかげで人口調査も10年ごとではなく、毎年、無作為標本を使った簡易的な調査を実施できるようになった。例えば米国の国勢調査局では、標本を基に毎年200種類を超える経済調査や人口動態調査を実施している。

 この新しい手法は瞬く間に公共部門や人口調査以外の分野にも広がり始めた。産業界でも無作為抽出した標本が生産品質の向上に利用された。コストをかけず、簡単に品質管理や品質改善が可能になる。かつての品質管理では、生産ラインから出てくる製品1つひとつに目を光らせる必要があった。それがロット単位の無作為標本検査で事足りるようになった。

 つまり、膨大なデータの問題は、無作為標本によって対処可能になったのだ。やがて小売業界の消費者調査や政治分野のフォーカスグループ調査(座談会形式によって人々の深層心理を探る調査)が誕生し、人文科学の大部分が社会科学へと姿を変える。

 無作為標本は大成功し、近代の大規模な計量法の根幹を担うことになった。もっとも、それは簡便法であって、完全なデータの収集・分析に代わる次善策にすぎない。当然、弱点も多い。精度は、標本作成の際に無作為性を確保できるかどうかにかかっていたし、無作為性の確保自体、一筋縄では行かなかった。データの収集方法にわずかでも偏りがあれば、誤った推定結果につながる。

 こうした標本作成が招いた初期の失敗例がある。1936年、当時存在した有力週刊誌『リテラリー・ダイジェスト』が、大統領選を前に有権者200万人を対象に調査を実施、共和党候補の圧勝を予測したが、これが大外れだった(蓋を開けてみれば、民主党候補のフランクリン・D・ルーズベルトが選挙人票523票を獲得、たった8票にとどまった共和党のアルフレッド・ランドンを抑えて当選した)。

 標本が小さすぎたわけではない。無作為性が甘かったのだ。同誌は購読者リストと電話帳を頼りに調査対象者を選んだのだが、そもそも購読者も電話保有者も、当時としてはかなりの富裕層で、共和党支持者が多かったのである。こんな標本を使わず、少人数でも完全無作為に選んだ標本だったら、もっと安上がりにまともな予測ができたはずだ。

関連記事