PREDICTING DIGITAL SKILL LEVELS USING MACHINE LEARNING AND EXPLAINABLE AI: EVIDENCE FROM TURKSTAT’S 2024 ICT USAGE MICRODATA


Creative Commons License

Kılınç E., Tunçel T.

5 th INTERNATIONAL CANKAYA SCIENTIFIC STUDIES CONGRESS , Ankara, Türkiye, 8 - 09 Aralık 2025, ss.382-392, (Tam Metin Bildiri)

  • Yayın Türü: Bildiri / Tam Metin Bildiri
  • Basıldığı Şehir: Ankara
  • Basıldığı Ülke: Türkiye
  • Sayfa Sayıları: ss.382-392
  • Açık Arşiv Koleksiyonu: AVESİS Açık Erişim Koleksiyonu
  • Ankara Üniversitesi Adresli: Hayır

Özet

Dijital beceriler, bireylerin sosyal yaşama katılımı, ekonomik fırsatlara erişimi ve kamusal hizmetlerden yararlanması açısından günümüzde temel bir gereklilik haline gelmiştir. Hizmetlerin, iletişimin ve çalışma biçimlerinin giderek daha fazla dijital ortamlara taşınması, dijital teknolojileri etkin şekilde kullanamayan bireyler için eşitsizlik alanı yaratmaktadır. Bu nedenle, bireylerin dijital beceri düzeylerini anlamak ve öngörmek ulusal ve uluslararası araştırmalarda önemli bir öncelik haline gelmiştir. Bununla birlikte, pek çok ülke dijital erişim ve kullanım verilerini anketlerle toplasa da, bu mikro verileri kullanarak düşük dijital yetkinlik gösteren grupları tespit eden kestirim modelleri oldukça sınırlıdır. Bu çalışma, bu boşluğu doldurmak amacıyla Türkiye İstatistik Kurumu (TÜİK) tarafından sağlanan Türkiye’nin 2024 Hanehalkı Bilişim Teknolojileri Kullanım Araştırması (HBTKA 2024) verileri üzerinde makine öğrenmesi ve açıklanabilir yapay zekâ (XAI) yöntemlerini uygulayarak dijital beceri düzeylerinin tahmin edilmesini amaçlamaktadır. Çalışmada ilk olarak internet etkinlikleri, e-ticaret işlemleri, e-devlet kullanımları ve akıllı cihaz etkileşimleri gibi geniş bir davranış göstergesi seti kullanılarak Dijital Beceri Skoru (DBS) oluşturulmuştur. Bu göstergeler; bireylerin operasyonel, bilgi yönetimi, iletişim ve problem çözme gibi farklı dijital yetkinlik alanlarındaki davranışlarını temsil eden ölçütler olarak ele alınmıştır. DBS, normalize edildikten sonra üç seviyeye (Düşük, Orta, Yüksek) ayrılmış ve regresyon ile sınıflandırma modelleri için hedef değişken olarak kullanılmıştır. Skorun hesaplanmasında kullanılan davranış değişkenleri çıkarıldıktan sonra demografik, sosyoekonomik, cihaz sahipliği ve genel BT kullanım alışkanlıklarını içeren zengin bir özellik seti model eğitimine dâhil edilmiştir. Doğrusal olmayan yapıya sahip anket verileri üzerinde sağladıkları istikrar nedeniyle Rastgele Orman (RF) algoritmaları tercih edilmiştir. Sonuçlar, yalnızca davranış dışı değişkenler kullanılarak dijital beceri seviyelerinin yüksek bir doğrulukla tahmin edilebildiğini göstermektedir. Hem regresyon hem de sınıflandırma modelleri, test setinde güçlü genelleme performansı sergilemiş, demografi ve bağlantı altyapısına ilişkin göstergelerin dijital yetkinlik üzerinde belirleyici bir rol oynadığını ortaya koymuştur. Çalışmanın metodolojik katkısı, makine öğrenmesi modellerinin SHAP gibi XAI yaklaşımları ile birlikte kullanılmasıdır. Bu açıklayıcı analizler, dijital beceri düzeylerini şekillendiren temel faktörleri görünür kılarak dijital kapsayıcılık politikaları için eyleme geçirilebilir bulgular sunmaktadır. Genel olarak bu çalışma, dijital beceri eşitsizliklerinin izlenmesi ve düşük yetkinlik riski taşıyan grupların belirlenmesi için ölçeklenebilir, şeffaf ve politika odaklı bir yöntem önermektedir. 

Digital skills have become a fundamental requirement for individuals’ participation in social life, access to economic opportunities, and utilization of public services. As services, communication, and work practices increasingly shift toward digital environments, an area of inequality emerges for individuals who cannot use digital technologies effectively. For this reason, understanding and predicting individuals’ digital skill levels has become an important priority in national and international research. However, although many countries collect data on digital access and usage through surveys, predictive models that identify groups exhibiting low digital competence using such microdata remain quite limited. This study aims to address this gap by estimating digital skill levels through the application of machine learning and explainable artificial intelligence (XAI) methods on the 2024 Household Information Technologies Usage Survey (HBTKA 2024) dataset provided by the Turkish Statistical Institute (TÜİK). In the study, a Digital Skill Score (DSS) was first constructed using a broad set of behavioral indicators, including internet activities, e-commerce transactions, e-government usage, and smart-device interactions. These indicators were treated as measures representing individuals’ behaviors across different domains of digital competence, such as operational skills, information management, communication, and problem-solving. After normalization, the DSS was categorized into three levels (Low, Medium, High) and used as the target variable for regression and classification models. Once the behavioral variables used in score construction were removed, a rich feature set consisting of demographic, socioeconomic, device-ownership, and general ICT-usage characteristics was included in model training. Random Forest (RF) algorithms were preferred due to their stability when applied to survey data with nonlinear structures. The results demonstrate that digital skill levels can be predicted with high accuracy using only non-behavioral variables. Both regression and classification models exhibited strong generalization performance on the test set, revealing that demographic and connectivityrelated indicators play a decisive role in digital competence. The methodological contribution of this study lies in the integration of machine learning models with XAI approaches such as SHAP. These explanatory analyses make the fundamental factors shaping digital skill levels visible, offering actionable insights for digital inclusion policies. Overall, this study proposes a scalable, transparent, and policy-oriented method for monitoring digital skill inequalities and identifying groups at risk of low digital competence.