İstatistiksel doğal dil işlemede derin öğrenme yöntemleri kullanılarak çevrimiçi Türkçe akademik derlem çözümlenmesi


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Kahramanmaraş Sütçü İmam Üniversitesi, Fen Bilimleri Enstitüsü, Enformatik, Türkiye

Tezin Onay Tarihi: 2019

Tezin Dili: Türkçe

Öğrenci: BARIŞ BABÜROĞLU

Danışman: Mehmet Tekerek

Özet:

Doğal dil, insanları diğer canlılardan ayıran ve insanların iletişim kurmasını sağlayan en temel özelliklerden biridir. Dil, insanın duygu ve düşüncelerini ifade etmede kullandığı ve kültürlerin nesiller boyunca aktarılmasını sağlayan bir araçtır. Günlük hayatta karşılaşılan yazılar ve sesler birer doğal dil örneğidir. Doğal dilde birçok kelime zamanla yok olurken diğer taraftan yeni kelimeler de türetilmektedir. Bu yüzden doğal dil işleme (DDİ) süreci insan için bile karmaşık yapıya sahipken, bilgisayar ortamında işlenmesi de zor olmaktadır. İnsanların dili nasıl kullandığını dil bilim alanı incelemektedir. Dil bilimciler ve bilgisayar bilimcilerinin ortak çalışmasını gerektiren doğal dil işleme çalışmaları, insan bilgisayar etkileşiminde önemli rol oynamaktadır. Doğal dil işleme çalışmaları, yapay zekâ teknolojilerinin, dil bilimi alanında kullanılması ile artmıştır. Yapay zekâ çalışma alanlarından olan derin öğrenme yöntemleri ile doğal dile yakın seviyede platformlar geliştirilmektedir. Dili anlama, makine çevirisi ve sözcük etiketleme için geliştirilen platformlar derin öğrenme yöntemlerinden faydalanmaktadır. Derin öğrenme mimarilerinden olan tekrarlayan sinir ağları (Recurrent Neural Network - RNN), metin veya ses verileri gibi sıralı verileri işlemede tercih edilmektedir. Bu çalışmada bir RNN türü olan iki yönlü uzun-kısa vadeli bellek (Bidirectional Long Short - Term Memory - BLSTM) kullanılarak Türkçe sözcük etiketleme modeli önerilmiştir. Önerilen sözcük etiketleme modeli, doğal dil araştırmacılarına, kendi analizlerini gerçekleştirme ve kullanabilme imkânı verecek bir platform ile sunulmaktadır. İki yönlü LSTM kullanılarak geliştirilen platformun geliştirilme aşamasında uzman görüşü ile geri bildirimler alınarak, sözcük etiketleyicinin hata oranı azaltılmıştır.