異なるテスト結果、比べるには?
現在のテスト研究では、正答数を学力の指標とする考え方は古典的テスト理論(Classical Test Theory: CTT)と呼ばれている*2。先ほど示したようにCTTではテストの点数が向上したとしても、それが受験者の学力が向上したためなのか、それともテストの難易度が変化したためなのか区別できない。
そこで登場したのが、項目反応理論(Item Response Theory: IRT)というテスト理論だ。IRTのポイントの1つは、"個々の設問に、個別の難易度がある"と考える点である。少し難しいかもしれないので、次の図1を見てもらおう。この図は、横軸に受験者の学力、縦軸に設問への正答率をとったグラフである。図には3つの曲線が描かれているが、それぞれが異なる設問を示している。
図1 設問別の難易度の考え方(「全国学力テストはなぜ失敗したのか(岩波書店)」より再掲)
たとえば設問Aは「易しい」設問で、受験者の学力が低いうちは正答率はほぼ0%だが、学力がやや低いくらいで正答率が50%になる。そして学力が中程度になると正答率はほぼ100%になっている。
これに対して設問Cは「難しい」設問で、受験者の学力が中程度では正答率は0に近い。学力がやや高いくらいでようやく正答率が50%になり、学力が高い人でようやく100%正答する。
ちなみに、設問Bは受験者の学力によらず正答率が50%前後なので、「学力を測る」という観点からは、あまり質の良くない設問だ。実際のテスト設計には、こうした「微妙な」設問がしばしば紛れ込むので、予備調査を行って取り除く必要がある*3。
このように、IRTでは個々の設問に「難しい」「易しい」といった難易度があると考える。その何が新しいのか、と思う人もいるだろう。IRTの利点は、ここからだ。個々の設問に難易度があるということは、難易度が同じ設問同士を入れ替えても、テスト全体の難易度は保たれるということだ。
たとえば設問Aと同じ難易度の設問Dがあるなら、設問Aと設問Dを入れ替えてもテスト全体の難易度は変わらない。同様に、設問Cと同じ難易度の設問Eがあれば、両者を入れ替えることができる。これを繰り返していくとまったく異なる設問から構成されているのに難易度は同じテストを作ることができる。
つまり異なるテストの結果を比較することができるようになるのだ。
この性質は、現代社会におけるテストではきわめて重要だ。SNSの普及した現代では、一度出題したテストの設問は、どうしても漏洩してしまう可能性がある。そのため、設問を毎回変えつつも、テスト全体の難易度は同じに保つという技術が求められているのだ。
難しい要請ではあるが、事前に難易度のわかっている設問を大量に確保し、試験のたびに入れ替えていけば可能である。実際、この技術は有名なTOEFLやTOEICといった試験で使われている。これらの試験を受験した人の中には、受験するたびに内容が違うのに、なぜ試験結果を比べることができるのかと思っていた人もいるだろう。そこにはIRTというテスト理論の裏付けがあるのだ。