Veri madenciliğine genel bakış ve Random Forests yönteminin incelenmesi: Sağlık alanında bir uygulama


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Ankara Üniversitesi, Sağlık Bilimleri Enstitüsü, Türkiye

Tezin Onay Tarihi: 2010

Tezin Dili: Türkçe

Öğrenci: MUHAMMET AKMAN

Danışman: Yasemin Yavuz

Özet:

Karar vericilere, eldeki verilerden yola çıkarak doğru ve etkin kararlar almasına yardımcı olmak amacıyla veri madenciği yapılmaktadır. Veri madenciliği, genel olarak tanımlayıcı ve tahmin edici olmak üzere iki ana başlıkta incelenmektedir. Özellikle tıp alanında veri madenciliği daha çok tahmin edici yönüyle kullanılmaktadır.Bu tez çalışmasında öncelikle veri madenciliği yöntemleri genel olarak tanıtılmış, veri madenciliğinde önemli yer tutan ve sınıflama modellerinden olan karar ağaçları anlatılmıştır. Ayrıca ağaç tabanlı yöntemlerden olan Random Forests (RF) yöntemi incelenmiş ve periodontoloji bilim dalından elde edilen bir veri seti üzerinde uygulaması yapılmıştır.RF yönteminde, karar ormanını oluşturan karar ağaçları orijinal veri setinden bootstrap yöntemiyle seçilen farklı örneklerden oluşturulmaktadır. Her karar ağacında veri setindeki tüm değişkenlerden rastgele seçilen az sayıda değişken kullanılmaktadır. Her ağaç bir sınıf için oy vermektedir ve orman sınıflayıcısı bütün ağaçların verdiği oyları toplayarak bir sınıf için son tahminini yapmaktadır. Bu özelliği sebebiyle RF yöntemi oldukça başarılı sonuçlar vermektedir.RF yöntemiyle % 95,4 oranında başarılı bir sınıflama yapılmıştır. Oluşturulan karar ormanının hata oranı ise % 3,33 olarak bulunmuştur. Aynı veri seti için Bagging ve CART yöntemi ile de sınıflama yapılmıştır. Bagging yöntemi ile hata oranı % 5,4 , CART yöntemi ile % 8,75 olarak bulunmuştur.RF yöntemi ile, veri setindeki değişken sayısı ve örnek sayısı ne kadar çok olursa olsun genellikle hata oranı düşük sınıflamalar yapılmaktadır. Hata oranının düşüklüğü ise bir topluluk yöntemi olmasından kaynaklanmaktadır. Özelikle çok sayıda değişkenin olduğu DNA veri seti gibi binlerce gen arasından önemli olanları tespit etmek için kullanılabilir.