2013.05.12
# 本

『ビッグデータの正体 情報の産業革命が世界のすべてを変える』
~第2章 第1の変化「すべてのデータを扱う」より~

 とはいえ、人口調査には莫大な費用と時間がかかる。国王ウィリアム1世は、自ら編纂を命じた『ドゥームズデイ・ブック』の完成を待たずしてこの世を去っている。

 当時でさえ、情報は不正確なもので、人口調査を指示する側も、漏れなく完璧に集計することなど不可能とわかっていた。その証拠に、人口調査に相当する英語の「センサス」は、「推定する」という意味のラテン語「censere」が語源だ。

 今から300年以上前のこと、英国で紳士用品店を営んでいたジョン・グラントが、斬新なアイデアを思いつく。人口調査で1人ひとりを数えなくても済む方法だ。今日でいう「統計」である。難病ペストの恐怖に包まれていた時代のロンドンでも、総人口を推測できる手法だった。原始的ではあるが、少人数の標本(全体から取り出した部分集合)を基に、人口全体の状況を推定できることがわかった。ただし、ポイントはどう推定するかだ。グラントは、単純に標本の結果をそのまま拡大しただけだった。

 今の我々から見れば、グラントの推定値はまぐれ当たりの域を出ないのだが、当時は絶賛された。長い歳月を経ても標本作成は相変わらず欠陥だらけだったため、人口調査のような一見"ビッグデータ的"な作業では、1人残らず数えるような力技に一日の長があった。

 人口調査は煩雑で手間も費用もかかるとあって、めったに実施されない。古代ローマでは5年ごとに、万単位で集計した。米国憲法では10年ごとと定め、増加する人口を百万単位で集計していた。しかし、19世紀後半には、それでも問題が多いことが明らかになる。国勢調査局の手に負えないほどデータが大きくなってしまったのだ。

 1880年の米国の人口調査は段階的に実施した結果、完了まで8年かかった。おかげで公表する前から情報は古くなっていた。1890年の調査は集計に13年もかかると予想された。あまりにひどい状況で、もはや憲法違反も確実だった。人口は課税基準や議席数割り当てにも関わるだけに、単に正確な人口がわかればいいわけではなく、集計のタイミングも大事だったのだ。

『ビッグデータの正体』
⇒本を購入する(AMAZON)

 当時の米国国勢調査局の悩みが、次第にビジネスや研究の場でも見られるようになった。データの洪水だ。収集した情報の量に圧倒されて従来のツールが役に立たず、新しい技術が必要になったのである。1880年代、待ったなしの状態に、ついに国勢調査局は、発明家のハーマン・ホレリスが考案したパンチカードと集計機(タビュレーティング・マシン)を1890年の調査から導入することになった。

 その結果、集まったデータの集計作業は、それまでの8年から一気に1年足らずへと短縮する。この偉業をきっかけに、データ処理自動化の時代が幕を開ける(後のIBMの前身もここで誕生している)。

 しかし、膨大なデータの収集と分析の作業は、まだまだコストがかかるものだった。国民1人ひとりが手で記入した回答を、いったんパンチカードに変換しなければ、集計機にかけられなかったのだ。こんなペースだから成長著しい国ではとても実態に追いつきそうにないが、それでも10年間隔より短い周期で人口調査を実施するという発想自体、当時はなかなか生まれなかったようだ。

関連記事