項目反応理論（IRT）とは？問題作成者が知っておきたいテスト品質評価手法

2024-03-26 08:42CBT活用-IBT活用

テスト問題作成において項目反応理論（IRT）の理解は欠かせません。IRTは、受験者の能力と問題の特性を数値化し、試験問題の難易度や良問かどうかを正確に評価できるモデルです。
従来の古典的テスト理論と異なり、IRTは各受験者の能力レベルに応じた分析を行い、公平で質の高いテスト作成を実現します。
テスト問題作成の担当者としてぜひIRTを知っていただき、試験問題作成の参考にしてみてください。

目次[非表示]

1.項目反応理論（IRT）とは
2.項目反応理論（IRT）登場の背景

2.1.従来は合計得点を成績の判断基準としていた
2.2.テスト作成における課題

3.項目反応理論（IRT）活用によるテスト評価

3.1.項目反応理論と従来の理論の違い
3.2.項目特性曲線を活用したテスト問題の精査

4.項目反応理論（IRT）に必要な要件

4.1.大規模データ
4.2.問題の非公開
4.3.問題のプール
4.4.問題間の依存関係廃止
4.5.多肢選択問題の活用

5.良質な問題を作成するためのサポート

項目反応理論（IRT）とは

項目反応理論（Item Response Theory/項目応答理論:Item Latent Theory）は、テストの各問題の特性と受験者の能力を評価する統計学的手法です。項目反応理論では、正答率だけでなく、問題の難易度、良問かどうかなど、テスト問題が受験者の特定の能力をどの程度正確に反映しているかを示します。
従来の古典的テスト理論（CTT：Classical Test Theory）は各項目の正答数に焦点を当てますが、IRTは各問題の難易度や識別度（受験者の能力の高低を適切に識別できる問題かどうか）をモデル化し、能力を数値に変換します。

これにより、能力の異なる個人が同じ項目に異なる反応を示すことが理論的に予測されます。たとえば、能力が高い受験者は困難な問題を解く確率が高い一方、能力が低い受験者はやさしい問題でさえ間違える可能性があるという現象が項目反応理論によって分析されます。この分析結果に基づき、テスト問題作成者は受験者の真の能力を正しく推定する問題セットを設計でき、より合理的で公正な評価が可能です。

まとめると、項目反応理論はテスト問題が能力を効果的に評価しているかを数値で表し、各受験者の問題への反応を分析することで、信頼性の高いテスト開発を支援します。その精度と公平性から項目反応理論は、教育や心理測定学で重要な役割を果たし、広く適用されています。

項目反応理論（IRT）登場の背景

ここでは、項目反応理論（IRT）が登場した背景を解説します。

従来は合計得点を成績の判断基準としていた

従来のテストにおいて合計得点を成績の判断基準にする方法には重大な欠点が存在します。すべての問題が同等の価値をもつと見なし、受験者ごとの能力差やそれぞれの問題の難易度に応じた配点がされていないからです。
これにより、高得点の人が必ずしも全分野にわたり優れた能力をもっているとは限らず、低得点の人がすべての問題を理解していないともいえません。
さらに、一部の問題が特定の受験者にとって非常に難しいか、あるいは簡単すぎる可能性があり、そのような偏りが成績評価に影響を及ぼします。

それに対して項目反応理論（IRT）は、問題の難易度、受験者の解答能力、それぞれの問題の識別力をモデル化します。問題の難易度に対応する評価が可能となり、受験者一人ひとりの能力をより正確に把握できます。
受験者の長所や短所を得点だけでは見落としやすいことから、詳細な分析により公正で包括的な能力評価を目指しています。

テスト作成における課題

テスト作成の課題として、試験問題の難易度と問題自体の良し悪しの不一致があります。
これは同一の試験を受験者全員に提供する際に特に明らかです。受験者の能力の幅が広い場合、適切でない問題が混在すると正確な能力推定を困難にします。

項目反応理論（IRT）は、この問題に対応するため開発されたモデルで、異なる難易度や識別度を統計的に分析します。これにより、個々の受験者の実際の能力レベルをより正確に反映した評価が可能です。

さらに、項目反応理論は問題の質を維持することにも貢献できます。問題が特定の受験者にとって難しすぎる、または簡単すぎると判定された場合、それらを適宜修正することでテストの妥当性と信頼性が向上します

項目反応理論（IRT）活用によるテスト評価

項目反応理論（IRT）の活用によってできるテスト評価について解説します。

項目反応理論と従来の理論の違い

そもそも、項目反応理論と従来の理論は具体的にどのような違いがあるのでしょうか。
項目反応理論（IRT）はテスト問題と受験者の能力との関連性に基づく、テストの精緻化を図る理論です。各テスト問題が測定する能力のレベルを正確に推定し、特定の能力値を有する受験者に最適かを評価します。具体的には、項目反応理論は項目特性曲線を使用し、さまざまな能力値に対する問題の反応率をモデル化します。
項目特性曲線は難易度、識別度、受験者の能力の各パラメータに基づいて決定されます。これらのパラメータは、問題がどの程度の能力を有する受験者に判別しやすいか、そして能力に関係なく一貫した情報を提供するかを示します。

これに対し、従来の古典的テスト理論はテスト全体の平均と分散に重点を置きます。古典的テスト理論は個々の問題よりも受験者全体の得点分布に基づいた評価を行いますが、このアプローチでは受験者が属する集団の特性によって問題の評価が変わり、異なる集団間での比較が不公平になるリスクが指摘されています。

最終的に、項目反応理論は個々の問題の品質を綿密に把握し、受験者ごとの能力値に応じた適切な分析を行うことでテストの公平性と適正度が向上します。
それぞれのテスト問題が能力値に対してどのように機能するかを知ることで、問題の質を高め、受験者個々に適した評価が可能になります。

項目特性曲線を活用したテスト問題の精査

項目特性曲線（ICC：item characteristic curve）は、受験者の能力値における問題の正答確率を示すグラフです（下図を参照）。１つのグラフが1つの問題に対する受験者の正答率や理解度を示しています。
縦軸がその問題の正答率で、横軸が各受験者の理解度（能力値）です。
カーブは受験者の能力が低い段階から高い段階へ変化するにつれ、特定の問題を正解する確率の変動を示します。難易度の低い問題では能力の低い受験者も正答率が高く、難易度の高い問題では高い能力をもつ受験者でないと正解が難しくなります。
このように項目特性曲線は問題ごとの難易度を視覚的に説明する有用なツールです。

出典：2016 公益社団法人医療系大学間共用試験実施評価機構

理解度（能力値）が-3の人のうち、その問題に正解している人が0人だった場合、縦軸の確率は0％になり、横軸が-3、縦軸が0となります。次に理解度-2の人の正答率が3％だった場合は、横軸が-2、縦軸が0.03となります。
一般的に項目特性曲線は、横軸の理解度（能力値）が0の付近で正答率が50％を越えていくようなS字の曲線（上記図のようなS字）になるのが望ましいとされています。正答率が50％を越えていく位置が左に寄っている場合は問題が簡単な傾向にあり、右に寄っている場合は問題が難しい傾向にあると評価することができます。
また、カーブがS字を描いていなかったり、一直線などの場合は適切な能力を測れない問題だということがわかります。

テスト作成者は項目特性曲線を用いてテスト問題の品質を測定し、全体のテストの信頼性や妥当性を高めるために問題を改善していく必要があります。

項目反応理論（IRT）に必要な要件

ここでは、項目反応理論に必要な要件に関して説明します。

大規模データ

項目反応理論は試験問題ごとに受験者の能力値と試験の品質を測るためのパラメータを推定します。そのため根拠となるような大量のデータが必要です。大量のデータによって重要なパラメータを高精度に算出できます。これらのパラメータを精密に推定することで試験の信頼性が向上し、妥当性が保証され、問題作成者はより公正で効果的な評価を行うことが可能です。

問題の非公開

項目反応理論において問題を非公開にすることは、受験者に不正な利点を与えず、正確な能力値を測定する上で非常に重要です。
特にコンピュータ適応型テスト（CAT：computerized adaptive testing）では、一部の問題を頻回に使用すると問題が漏れ、試験の信頼性が損なわれるリスクがあります。このような状況を防ぐため、問題の露出頻度を制限し、各受験者に対して個別化された問題セットを提供し、受験者間の公平性を保つことが必要です。

問題のプール

項目反応理論を活用した高精度なテスト問題を作成するためには、問題のプール設計が非常に重要です。問題プールとは、テスト作成に使用する問題項目を集めたデータベースを指し、多様な難易度と識別度をもつ問題をバランス良く含む必要があります。
難易度は問題の易しさや難しさを、識別度は受験者間の能力差をどのくらい効果的に識別できるかを示します。良質な問題をプールすることにより、受験者の能力に適した最適な問題を選出し、能力測定の精度を向上させることができます。

問題間の依存関係廃止

項目反応理論を使ったテスト問題作成では、問題間の依存関係を排除することが非常に重要です。項目反応理論が正確に機能するためには、各問題が受験者の能力を直接測定し、他の問題の影響を受けないという独立性が必要です。
具体的には、一つの問題の正解が他の問題のパフォーマンスに影響を与えないことが求められます。この原則が守られない場合、受験者の能力推定の正確さが大きく低下します。試験問題作成者はこの原則を常に意識し、各問題が個別に受験者の特定の能力を正確に測るように、慎重に問題を設計しなければなりません。
この徹底した取り組みで、能力に応じた公正な評価が可能になり、信頼性の高い試験を提供できます。

多肢選択問題の活用

項目反応理論は、特に多肢選択問題の作成において、各選択肢の特性を詳細に分析し、受験者の実力を正確に把握することが可能です。
良質な問題項目を設計する際には、各誤答選択肢が受験者の一般的な誤解や特定の誤答傾向を効果的に反映する必要があります。
さらに、正答選択肢が受験者の能力と密接に関連していることを確保することも重要です。適切な難易度と誤答パターンの分析を行うことで、すべての受験者に対して公正な評価ができるテスト問題の作成に寄与します。この分析を通じて受験者一人ひとりの能力レベルに応じた効果的なフィードバックや指導が可能です。
項目反応理論に基づいた多肢選択問題は、教育的評価だけでなく様々なテストシナリオにおいてその有効性を発揮します。

良質な問題を作成するためのサポート

ここまで、項目反応理論（IRT）に基づく問題作成は、各問題と受験者の能力レベルを正確に分析し、それぞれに合う問題を提供するメリットがあることをお伝えしてきました。

そもそも、試験や検定をはじめたいけど、どうやって問題を作成したらいいかわからない、プールできるほどたくさんの問題を作成できないという方に向けて、イー・コミュニケーションズでは良質な問題作成を支援する「サクモンコンサル」を行っています。
「サクモンコンサル」では①作りたいテストのヒアリング、②ご要望にそった作問方法のレクチャー、③自社にあったマニュアルの提供、④実際に作成した問題のレビューの4つをパッケージ化しご提供しています。
テスト問題作成に関するお悩みをおもちのご担当者様は、ぜひお問い合わせください。

また、イー・コミュニケーションズでは、オンラインテストを正確かつ安全に実施できるCBT（Computer Based Testing）システムの「MASTER CBT PLUS」をご提供しています。
会場で行うテストセンター型やオンラインテストの不正を抑止し、自宅でも厳正・厳格な試験が行えるリモート監視サービスの「Remote Testing」との連携など、さまざまな形でオンライン試験の実施が可能です。オンラインでの試験に関してご興味がおありのご担当者様は、ぜひお問い合わせください。