2013.05.12
# 本

『ビッグデータの正体 情報の産業革命が世界のすべてを変える』
~第2章 第1の変化「すべてのデータを扱う」より~

 最近でも、固定電話を使った選挙世論調査では、何度となく標本抽出のミスが繰り返されている。携帯電話しか持っていない有権者(若い世代やリベラル派に多い)が標本に含まれない偏りがあり、標本の無作為性が失われるからだ。バラク・オバマとジョン・マケインが競った2008年の大統領選では、調査機関のギャラップ、ピュー、ABC/ワシントンポストの3グループがそれぞれ世論調査を実施したところ、携帯電話利用者を加味した場合とそうでない場合とで1~3ポイントもの差が見られた。選挙戦が接戦だったことを考えると、この差は大きい。

 ある集団の無作為標本を作れば、その集団全体の動向は推定できる。しかし、注意したいのは、集団内の特定の小集団の動向までは推定できない点だ。誤差が一気に大きくなるからだ。

 例えば全国の有権者から1000人を無作為抽出した標本で、次の選挙での投票意向を調べるとしよう。この標本の無作為性が十分だとすれば、有権者全体の意向もプラスマイナス3%の誤差で推定できる。この時点で3%の誤差があるわけだが、そのうえでこの1000人を性別やら居住地域やら収入やらの条件で絞り込んでも正確な答えが出るだろうか。また、「A地域居住者」で「女性」といったふうに、複数の条件を掛け合わせた小集団の意向まで推定できるだろうか。

 元の標本は1000人だ。ここから「米国北東部に住む富裕層の女性有権者」に絞り込めば、おそらく100人を大きく下回る。数十人程度の意見から、北東部在住の富裕層女性有権者全体の投票意向を予測しても正確とは言えない。たとえ元の標本(1000人)の無作為性が完璧だったとしても、だ。当然、標本の無作為性に少しでも偏りがあれば、下位集団に絞り込んだ時点で誤差は一気に大きくなる。

 つまり、調査結果の内訳まで推定しようとした瞬間、標本の有効性は崩れる。大規模でうまくいっても、部分だけを取り出せば無意味になるのだ。その意味でアナログの写真に似ている。遠目にはきれいに見えても、特定部分を拡大するとぼんやりしている。

 また、標本作成の計画と実施では、細心の注意を払う必要がある。想定とは違う質問を標本に答えさせるべきではない。簡便法としては役に立つのだが、しょせんは簡便法。全体ではなく標本だから、拡張性や適応性に欠けている。特定の目的に沿って集めたデータである以上は、まったく違う方法で別の分析をすることは不可能なのだ。

 例えばDNA解析。遺伝子配列解析のコストが劇的に下がり、医療の面でもさまざまな可能性があることから、個人向けの遺伝子配列解析ビジネスが広がり始めている。2012年にはゲノム解析の費用が1000ドル(約8万円)を割り込み、業界の事実上の相場になっている。シリコンバレーのベンチャー企業「23andme」は、2007年から、わずか数百ドルでDNA解析を請け負っている。同社はヒトの遺伝暗号に含まれる形質も明らかにしてくれる。この形質は、乳癌や心臓疾患などといった特定の病気を発症しやすいかどうかの参考になる。同社では、依頼者のDNAと健康情報を総合すれば、これまで見つけられなかった新しい事実が発見できるかもしれないと期待している。

 この23andmeが読み解いているのは、遺伝上の特定の弱さを示す数十個の目印「遺伝子マーカー」であり、ヒトのDNA全体のごく一部にすぎない。要するに、遺伝暗号全体から抜き出した一種の標本である。DNAを構成する数十億もの塩基対は解読されていない。だから23andmeは、特定マーカーについて事前に想定した質問にしか答えられない。

 全体ではなく標本を相手にするということは、常に何らかの犠牲を伴う。目的の答えは素早く手軽に得られるが、事前に想定していない質問には答えられないのである。

関連記事