項目反應理論
IRT理論(英語:Item Response Theory)又名項目反應理論,是一系列心理統計學模型的總稱。IRT是用來分析考試成績或者問卷調查數據的數學模型。這些模型的目標是來確定的潛在特徵(latent trait)是否可以通過測試題被反應出來,以及測試題和被測試者之間的互動關係。目前廣泛應用在心理和教育測量領域。
歷史發展
IRT理論發端於20世紀50年代,它同時被丹麥統計學家喬治·拉什和美國心理統計學家弗雷德里克·洛德在各自的國家發展起來。儘管採取的研究方法不同,但是他們的結果卻非常相似。
F. Lord在1951年從普林斯頓大學畢業時的博士論文《A Theory of Test Scores》被認為是IRT理論的開端之作。在隨後的30年中他進入ETS工作不斷深入研究這個問題並且在1980年出版的《Applications of Item Response Theory to Practical Testing Problems》[1]正式完善了整個IRT理論的框架。
和Lord幾乎在同時,喬治·拉什在丹麥政府的委託之下開始研究現代考試理論,他採用了和Lord截然不同的切入點,一開始的時候他稱之為潛在特徵模型(latent trait model),卻發現了極為類似的結果
數學模型
IRT模型:
這個模型也叫做「3參數Normal-ogive模型」(3-parameter Normal-ogive model),簡稱為3PN,是由Lord 提出的。在實際應用中,人們出於數值處理的簡便,更傾向於使用「3參數Logistic模型(簡稱3PL模型,3-parameter Logistic model)[2],該模型的表達式如下:
其中D為常數1.7
根據這兩個模型所繪製出的曲線也叫做項目特徵曲線(Item Characteristic Curve, ICC)。其意義在於描述出「成功解答某一特定考試項目的可能性」和「被測試者能力」(在函數中以表示)之間的關係。在以上的兩個模型中,共有3個參數:a,b和c。其中參數c一般被稱為「猜測參數」(guessing parameter)或者「偽猜測參數」(pseudo-guessing parameter)。在圖像上,c所代表的是ICC的下限,其直觀意義為:當一個被測試者的能力值非常低(比如接近負無窮),但是他仍然能夠有可能做對這道題目的概率c就是他猜測的能力。
b叫做項目難度參數,也稱為項目難度(item difficulty)。b一般表示在ICC圖像最陡的那一點所對應的值。對於下限為0的ICC函數來說,b所對應的是概率為0.5的測試者能力值。改變b會導致ICC的左右移動,但是不改變其形狀。當b值增加,會使ICC曲線向右移動(值高的的方向),這會引起在即使保持不變,但是答題正確率下降,亦即題目難度增加。反之當b值減小,ICC曲線向左移動。題目難度降低。
a叫做區分度參數或項目區分度(item discrimination)。在數學上,a/4的值是ICC曲線拐點處的斜率,即斜率的最大值。在這一點上,能力值微小的改變會造成最大的P值(回答正確率)變動。所以a體現的是該項目的最大區分度。
而Rasch提出的模型:
爭論
雖然Rasch和Lord在幾乎同時獨立地提出了各自的模型。並且這兩個模型現在都被廣泛認為是IRT模型的基礎。但是在心理統計學家社群內許多年來一直存在着Rasch模型的篤信者和其餘心理統計學家的爭論。主流的IRT學者認為Rasch模型只不過是3PN模型的一個特例,即在3PN模型中,參數c和a都為0的情況。而Rasch派學者則認為只有Rasch模型是完全不同的模型,真正體現了「測量」的定義,因為在模型成立的時候,和b分別是「回答正確的題數」以及「對某一特定題目的正確率」的充分統計量,其簡潔性也優於其他模型。
但是在面對不同區分度的測試項目時,Rasch模型中並沒有相應的參數,所以無法做出區分。事實上對於Rasch派學者來說,他們認為所有的項目區分度都是一樣的。對於主流IRT學者,常見的做法是用別的模型擬合數據,Rasch派學者的方法是把所有不能擬合Rasch模型的測試項目全部拋棄。簡而言之,主流IRT學者的做法是「用模型擬合數據」,對於Rasch派學者來說,他們選擇「用數據配合模型」,是爭論的主要原因。
至今,Rasch派學者雖然在人數上是學界的少數派,但是他們仍然在考試測量領域以及跨國比較教育研究領域發揮着巨大的影響力。
參考文獻
- ^ ISBN 9780898590067
- ^ 3PL模型和3PN模型在圖形上的任何兩點之間差距都小於0.01