İki ve çok kategorili puanlanan maddelerde değişen madde fonksiyonlarının karşılaştırılması

Tezin Türü: Doktora

Tezin Yürütüldüğü Kurum: Ankara Üniversitesi, Eğitim Bilimleri Enstitüsü, Türkiye

Tezin Onay Tarihi: 2016

Tezin Dili: Türkçe

Öğrenci: EMİNE BURCU TUNÇ

Danışman: ÖMER KUTLU

Özet:

Bu araştırmanın genel amacı, iki kategorili ve çok kategorili puanlananmaddelerde Değişen Madde Fonksiyonlarının (DMF) karşılaştırılmasıdır. Bu amaçdoğrultusunda simülasyon çalışması gerçekleştirilmiş, I. Tip hata ve istatistiksel güçoranları üzerinde çalışılmıştır. 20 madde için hem iki kategorili (1-0) hem çok kategorili(4-3-2-1-0) puanlama yapılmış ve böylelikle iki ayrı veri seti oluşturulmuştur. İkikategorili puanlama için, çok kategorili puanlamada beşinci adım olan 4’e 1 puanverilmiş, 3-2-1-0’a ise 0 puan verilmiştir.Simülasyon kapsamında örneklem büyüklüğü (600, 1200, 2400), örneklembüyüklüğü oranı (1:1, 1:2), DMF içeren madde yüzdesi (%10, %30, %50) ve DMFbüyüklüğü (0.25, 0.50, 1.00, 1.50) manipüle edilen koşullar olarak ele alınırken, DMFbiçimi (Tek Biçimli DMF) ve toplam madde sayısı (20) sabit koşullar olarak elealınmıştır. Böylelikle 72 koşul kapsamında gerçekleştirilen araştırma için 100 tekrargerçekleştirilmiştir. Verilerin türetilmesinde, iki kategorili veriler için Rasch, çokkategorili veriler için ise Kısmi Puan Modeli kullanılmıştır. WinGen programındamadde parametreleri hesaplanmış, R programında “eRm” paketi yardımıyla verilertüretilmiştir. İki kategorili veriler için Mantel-Haenszel ve LORDIF; çok kategoriliveriler için ise LORDIF ve ANOVA DMF belirleme analizleri kullanılmıştır.Araştırmanın temel amacı olan iki kategorili ve çok kategorili puanlamamodelleri kapsamında DMF karşılaştırıldığında, genel olarak çok kategorili puanlamayapılması durumunda I. Tip hata oranlarının daha düşük, istatistiksel güç oranlarının isedaha yüksek olduğu belirlenmiştir. Bu doğrultuda DMF sonuçlarında puanlamavmodellerinin etkisi olduğu ve kısmi puan dikkate alındığında DMF sonuçlarınındeğişebileceği ortaya konulmuştur.Elde edilen bulgular doğrultusunda genel olarak örneklem büyüklüğü 600’den2400’e doğru arttıkça I. Tip hata oranlarının arttığı ancak I. Tip hata oranlarında,örneklem büyüklüğüne göre manidar bir farklılık olmadığı (p>.05) belirtilmiştir.Örneklem büyüklüğü 600’den 2400’e doğru arttıkça, istatistiksel güç oranlarının daarttığı ve örneklem büyüklüğüne göre ANOVA DMF belirleme analizi hariç manidar birfarklılık olmadığı (p>.05) ve ANOVA DMF için ise 600 ve 2400 örneklem büyüklükleriiçin manidar fark olduğu (p<.05) bulunmuştur. Örneklem büyüklüğü oranlarına göre I.Tip hata ve istatistiksel güç oranlarında manidar bir farklılık olmadığı (p>.05)belirlenmiş, 1:1 örneklem büyüklüğü oranında hem I. Tip hata hem de istatistiksel güçoranlarının daha yüksek olduğu saptanmıştır.DMF’li madde oranı %10’dan %50’ye doğru arttıkça I. Tip hata oranlarınınarttığı ve istatistiksel güç oranlarının azaldığı ve I. Tip hata ve istatistiksel güçoranlarının, DMF’li madde oranlarına göre manidar bir farklılık gösterdiği (p<.05)ortaya konulmuştur. En düşük I. Tip hata ve en yüksek istatistiksel güç oranlarının %10DMF’li madde oranlarında olduğu saptanmıştır. DMF büyüklüğü 0.25’ten 1.50’yedoğru arttıkça I. Tip hata ve istatistiksel güç oranlarının arttığı ve I. Tip hata veistatistiksel güç oranlarının, DMF büyüklüğüne göre manidar bir farklılık gösterdiği(p<.05) belirlenmiştir. En düşük I. Tip hata ve en yüksek istatistiksel güç oranlarının0.25 DMF büyüklüğünde olduğu belirtilmiştir.AbstractThe aim of this study is to compare Differential Item Functioning for twocategoryscored and multi-category scored items. For this purpose, simulation studieswere performed; Type I error and statistical power ratios were studied. For 20 items,both two category (1-0) and multi category (4-3-2-1-0) scoring was done and thus twodata sets were created. Two category scoring was done by scoring 4, which was the fifthstep of multi category scoring as 1 and scoring the other steps 3-2-1-0 as 0.Whereas sample size (600, 1200, 2400), sample size ratio (1:1, 1:2), percentageof items containing DIF (%10, %30, %50), and DIF magnitude (0.25, 0.50, 1.00, 1.50)were taken as manipulated conditions; DIF format (Uniform DIF) and total item number(20) were considered as stable conditions as part of simulation process. Hereby 100replication were carried out for research conducted under 72 conditions. In the processof data derivation, Rasch was used for two-category data, Partial Credit Model was usedfor multiple-category data. Item parameters were calculated with WinGen program anddata was derived with “eRm” package of R program. Mantel-Haenszel and LORDIFanalysis were used for two category data; LORDIF and ANOVA DIF analysis wereused for multiple category data.When DIF was compared within the scope of two category and multiplecategory scoring models which is the main purpose of this study, it was seen that whenmultiple category scoring was done, ratio of Type I error was lower but statistical powerviiratio was higher. In this context it was observed that scoring models effect DIF resultsand DIF results may vary considering partial credit scores.According to the findings, when sample size was increased from 600 to 2400,Type I error ratio increased, but Type I error was not significantly different based onsample size (p>.05). It was determined that when sample size was increased from 600 to2400, statistical power rates were also increased, but statistical power ratio was notsignificantly different based on sample size (p>.05) except ANOVA DIF analyses. ForANOVA DIF analyses, there was a significant difference (p<.05) for sample size 600and 2400. It was determined that there was not a significant difference (p>.05) in Type Ierror and statistical power ratio based on sample size ratio. It was also seen that the ratioof Type I error and statistical power was higher in 1:1 sample size ratio.When DIF item rates were increased from 10% to 50%, Type I error ratio wasincreased and statistical power ratio was decreased, and Type I error and statisticalpower ratio were significantly different compared with DIF item ratio (p<.05). Thelowest of Type I error ratio and the highest statistical power ratio was found to be in the10% ratio DIF items. It was seen that when DIF magnitudes were increased from 0.25to 1.50, Type I error and statistical power ratio were increased and Type I error andstatistical power ratio were significantly different (p<.05) based on DIF magnitude. Thelowest of the Type I error ratio and the highest statistical power ratio was reported to beat 0.25 DIF magnitude.