前回、<クイズです。「ブラック企業」のトップがよく使う言葉はどっちだ?>という記事で、人工知能に「自然言語処理」という手法で機械学習をさせる過程でわかった興味深い研究結果を披露してくれた、筑波大学の掛谷英紀准教授。
今回は、「オンラインニュースサイト」を分析対象にして、人がどんな記事に興味を持つのかを、明らかにしてくれた。私たちが思わず読みふける記事の特徴とはーー?
「AERA dot.」でよく読まれたのは…
前回に引き続き、自然言語処理と機械学習で得られた興味深い情報をお届けしたいと思います。
なお、今回の記事で紹介する研究成果は、筆者と共同研究をしている筑波大学会計工学研究室の平成29年度卒業論文(周倩「オンラインニュースのテキスト特徴分析」指導教員: 岡田幸彦)が出典です。
この共同研究プロジェクトでは、株式会社朝日新聞出版から同社の運営するオンラインニュースサイト(詳しくは後述)のアクセスログを提供いただき、よく読まれる記事とあまり読まれない記事の特徴を分析しています。
早速ですが、クイズから始めましょう。

答えの前に、分析方法について説明させていただきます。対象とした記事は、オンラインニュースサイトdot.(現在のAERA dot.)の2015年11月から2016年4月までの6ヶ月間のもので、計7589ページです。これらの記事のうち、平均閲覧時間が18秒以下のものを閲覧時間が短い記事、40秒以上のものを長い記事と定義しました。
各記事に対して、形態素解析(単語ごとに分割)した後に、閲覧時間が長い記事と短い記事を判別できるように最大エントロピー法で機械学習をした結果得られた特徴が、上のリストになります。
なお、最大エントロピー法は統計的な機械学習法の一種で、どちらかのグループに偏って多く出現するものを特徴として抽出します。単に頻度情報だけを集計しているわけではありません。
クイズの答えを早く知りたい方もいるでしょうが、機械学習(人工知能)は今大変なブームですので、この機会に少し解説しておきましょう。今流行しているのはディープラーニング(深層学習)です。

この学習法は1980年代後半から1990年代中頃まで流行したニューラルネットワークをベースとしています。当時学生だった私もその研究で学位をとりました。
ところが、その後数年前までの約15年間、ニューラルネットワークはほぼ忘れられた存在でした。ニューラルネットワークの計算には並列度の非常に高いプロセッサが必要ですが、それが安価に手に入らないことがネックになっていました。
一方で、21世紀に入ってから、ゲーム用のコンピュータグラフィックスをよりリアルなものにするため、パソコンのグラフィックボードがどんどん進化していきました。
高精細のコンピュータグラフィックスを高速に動かすためには、高速で並列度の高いプロセッサユニットが必要です。そうした需要に応じて進化したグラフィックボードが、20年前には不可能だったニューラルネットワークによる実用レベルの計算を可能にしたわけです。
ただ、今回はディープラーニングとは違う学習方法を用いています。人工知能には、機械学習した結果、その判定機が何を手掛かりに判定しているかが分かりにくいものと分かりやすいものがあります。ディープラーニングは前者です。
今回使っている最大エントロピー法は後者です。この研究の目的は単に判定機の正解率を上げることではなく、閲覧時間の短い記事と長い記事の特徴を人間に分かりやすい形で抜き出すことなので、最大エントロピー法を採用しています。
さて、先のリストですが、Aには「明るい」「親しむ」「輝く」などの明るい言葉、Bには「争う」「陥る」「壊す」などの暗い言葉、破壊的な言葉が多く含まれています。
あなたは、どちらの言葉が多く含まれる記事を読みたいですか。もちろん、私はAの方です。しかし、アクセスログ分析の結果、平均閲覧時間が長い記事によく含まれた言葉はBの方です。
つまり、人々は明るい話題よりも、暗いニュースを好んでよく読む傾向があることが分かります。