96%という一致率
日常の生活に欠かせないツールとなったインターネット検索ですが、この検索キーワードのデータから、日本の選挙の得票数を非常に高い精度で予測することができると聞いたら、驚く方は多いのではないでしょうか?
ヤフーのもつビッグデータから、リアルの事象について何か面白い分析ができないかと考えていた2012年末のこと、その年に行われた第46回衆議院議員選挙について、政党の得票数とインターネットの動きの関係性を調べてみようという話になりました。
そこで「Yahoo!検索」のキーワードのデータを解析してみたところ、ある政党に関連するワードの検索量とその政党の得票数の間に、非常に高い正の相関があることが判明したのです。
この結果をもとに予測モデルを作成し、2013年の参院選では議席数の事前予測にチャレンジしたところ、96%という極めて高い一致率で予測を的中させることができました。それ以降も予測モデルに改良を重ねながら、直近の2019年の参院選に至るまで、10回以上の国政選挙や地方選などを予測してきましたが、その一致率は90%以上を維持しています。
私はこの分析に携わるまで政治に関してはほぼ素人でしたが、検索データにあらわれた人々の関心事が、現実の選挙の投票行動と密接にリンクするというのは非常に面白い発見でした。これまでの選挙予測の常識を覆すような、まったく新しい予測の手法を生み出すことができたのです。
「好き」の方向性がわかる
「Yahoo!検索」のログデータには、人々の興味・関心、困りごとなどがダイレクトに反映されており、あらゆるアクセスログの中でも非常に特殊な性質をもっています。今の社会の課題やトレンドなど様々なことがひと目でわかるのです。
2018年に、世の中の人々がどんな政治課題にどれほど関心を寄せているのかを分析した際は、「ハラスメント」や「働き方改革」が、大きな注目を集めたトピックとして浮かび上がりました。
これまでも問題自体はずっと存在していたかもしれないけれど、人々に意識されていなかった様々な事象が、課題として可視化され、話題に取り上げられたり、名前がつけられたりしたのだとわかります。
他方で、政治的問題への関心には、特定の性別・年代・居住地域によって大きな偏りがあり、多くの人々が自分の身の回りのことにしか関心がないことも明らかになりました。