Performansa dayalı durum belirlemede puanlayıcılar arası güvenirlik tekniklerinin karşılaştırılması

Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Ankara Üniversitesi, Eğitim Bilimleri Enstitüsü, Türkiye

Tezin Onay Tarihi: 2019

Tezin Dili: Türkçe

Öğrenci: SİNEM ARSLAN MANCAR

Danışman: HAMİDE DENİZ GÜLLEROĞLU

Özet:

Araştırmanın amacı, farklı sayıdaki puanlayıcılardan elde edilen puanların tutarlılığını Klasik Test Kuramı ve Genellenebilirlik Kuramına dayalı analizler yaparak karşılaştırmaktır. Araştırma, kuramlara dayalı olarak geliştirilen tekniklerin kullanılarak var olan durumu ortaya koyması yönüyle betimsel araştırma türündedir. Bu araştırmada, Uluslararası Bakalorya Diploma Programından mezun olan öğrenciler tarafından biyoloji dersi için hazırlanan 20 performans çalışması kullanılmış ve çalışmalar farklı sayıdaki puanlayıcılar tarafından değerlendirilmiştir. Araştırma kapsamında Uluslararası Bakalorya Örgütü uzmanlarınca geliştirilen, ilgili programı uygulayan tüm okullarda kullanılan analitik dereceli puanlama anahtarı kullanılmıştır. Araştırma verilerinin analizinde iki, üç ve beş sayıdaki puanlayıcıdan elde edilen puanların güvenirliğinin belirlenmesinde, KTK'ya dayalı olarak geliştirilen Kappa ve Krippendorff alfa istatistik teknikleri kullanılarak uyum düzeyleri hesaplanmıştır. G Kuramına dayalı olarak da (b x m x p) deseninin puanlayıcı sayısı değişimi ile Karar (K) çalışmaları sonucunda ortaya çıkan Genellenebilirlik (G) ve Phi katsayıları belirlenerek güvenirlik analizleri yapılmıştır. Bu çalışmalara ek olarak, performansa dayalı durum belirleme süreci ve analitik dereceli puanlama anahtarı kullanımına ilişkin puanlayıcı görüşlerine de yer verilmiştir. Araştırmanın bulgularına göre, Kappa ve Krippendorff alfa tekniklerinin analiz sonuçlarında bazı alt ölçeklerde elde edilen negatif değerler, puanlayıcılar arası uyumsuzluğa işaret etmektedir. Ancak analiz sonuçları, uyumsuzluğa neden olan hata kaynakları ve oranları hakkında bilgi sağlamamaktadır. G Kuramına dayalı K çalışmaları sonucunda ise, analitik dereceli puanlama anahtarında yer alan alt boyutların ve puanlayıcı sayısının artırılması durumunda, yapılan puanlamaların güvenirliğini arttıracağı belirlenmiştir. Performansa dayalı durum belirlemede puanlayıcılar arası tutarlılık düzeylerinin belirlenmesinde daha güvenilir sonuçlar elde edilmesi ve isabetli kararlar alınması için G Kuramına dayalı tekniklerin kullanılması gerektiği sonucuna ulaşılmıştır. In this research, the reliability analysis of obtained scores from ındependent raters have been made with respect to Classical Test Theory and Generalizability Theory and interrater agreement level has been examined. Whether there is any difference between reliability coefficients and interrater agreement level obtained from different techniques from two theories and techniques used to gather more information was determined. In this way, this research is pure research. Agreement levels among the raters: 2, 3 and 5 have been calculated via using Kappa statistic technique, Krippendorff alpha technique and G study used to estimate the effect of rater number variance through use of an analytic rubric for performance-based assessment. In addition to these studies, raters' opinions regarding the performance-based assessment process and the use of analytical grade rubric were also included. The analytical grade rubric key consisting of five sub-dimensions, prepared by the experts of the International Baccalaureate Organization, was used in the data collection. The study was conducted on 20 individual investigation biology report, five items (for analytic rubric) and five raters. In this study, the crossed design (b x m x p) which examines sources of variation and percentages in the generalizability theory is used to determine the reliability and interrater agreement level. According to the findings of the research, Kappa and Krippendorff alpha statistical techniques were found to be insufficient due to the comprehensive applications of performance-based case studies. On the contrary, analyzes and the K studies based on the Theory of G provided comprehensive information and detailed ideas about the study. However, it is thought that taking the opinions of the raters will suggest a performance-based assessment and related to the use of an analytical rubric.