Simetrik ve çarpık dağılımlar için bilgi karmaşıklık (ICOMP) kriteri kullanılarak robust model seçimi


Tezin Türü: Doktora

Tezin Yürütüldüğü Kurum: Ankara Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye

Tezin Onay Tarihi: 2018

Tezin Dili: Türkçe

Öğrenci: YEŞİM GÜNEY

Danışman: OLÇAY ARSLAN

Özet:

Gelişen teknoloji sayesinde bir istatistiksel problemin çözümü için daha karmaşık modeller ortaya çıkmaktadır. Bu durum alternatif model sayısında artışa neden olmuştur. Bu modellerden hangisinin veriye en uygun, en basit model olduğunu belirlemek için bir çok seçim kriteri tanımlanmıştır. Dağılım varsayımının sağlanmaması, verinin aykırı değer içermesi gibi durumlardan klasik parametre tahmin yöntemleri etkilendiği için, bu tahmin yöntemlerine dayalı model seçim kriterleri de etkilenmektedir. Bu tür problemlerle karşılaşıldığında güvenilir sonuçlar elde etmek için robust model seçim kriterlerine ihtiyaç duyulmaktadır. Yaygın kullanılan kriterlerin robust formları ile ilgili zengin literatür olmasına rağmen, Bilgi Karmaşıklığı (ICOMP) kriterinin robust formlarına ilişkin literatürde az sayıda çalışma vardır. Bu tezde farklı birtakım robust istatistiksel yöntemlere dayalı robust ICOMP kriterleri tanımlanmıştır. Çoklu doğrusal regresyon modelinde hataların kalın kuyruklu ve/veya çarpık olması durumları için Student t, çarpık normal ve çarpık t dağılım varsayımları altında model karmaşıklığı hesaplanarak ICOMP bilgi kriterinin formları bu dağılım varsayımları için elde edilmiştir. Bu tezde çoklu doğrusal regresyon modelinde M, S ve MM tahmin edicilerine dayalı robust ICOMP kriterleri önerilmiştir. Çoklu doğrusal regresyonda karşılaşılan bir diğer problem olan çoklu iç ilişkinin model seçimi üzerine etkilerinin azaltılması için ICOMP bilgi kriterinin robust ridge tahmin edicilerine dayalı bir başka robust formu tanımlanmıştır. Karmaşık verilerin modellenmesinde kullanılan ortak konum-ölçek ve konum-ölçek-çarpıklık modellerinde ICOMP kriterinin formları elde edilmiştir. Önerilen kriterlerin, Akaike Bilgi Kriteri (AIC) ve ICOMP kriterleri ile performansları simülasyon çalışmaları ve gerçek veri örnekleri ile karşılaştırılmıştır. Because of the developing technology, more complicated models can appear for solving a statistical problem. This situation has led to an increase in the number of alternative models. Many criteria have been defined in the literature to determine which of these models is the simplest model that fits the data well. The model selection criteria based on classical parameter estimation methods are also affected, since these methods are influenced by situations such as deviation from distributional assumptions and the fact that the data contain outliers. When such problems are encountered, robust model selection criteria are needed to obtain reliable results. Despite the rich literature on robust forms of commonly used criteria, there are few studies in the literature on robust forms of the Information Complexity (ICOMP) criterion. In this thesis, robust ICOMP criteria based on different robust statistical methods are defined. For multiple regression models, the model complexity is calculated under the Student t, skew normal and skew t distribution assumptions for cases where the errors are thick-tailed and / or skewed and the ICOMP information criterion is formulated for these distributional assumptions. In this thesis, a robust ICOMP criterion based on M, S and MM estimators is proposed in a multiple linear regression model. Another robust form based on the robust ridge estimators of the ICOMP information criterion has been defined to reduce the effects of multicollinearity on model selection, another problem encountered in multiple linear regression. The forms of the ICOMP criterion have been obtained in the joint location-scale and location-scale-skewness models used in the modeling of complex data. The performances of the proposed criteria, Akaike Information Criterion (AIC) and ICOMP are compared with the simulation studies and real data examples.