Türkçe akraba dilleri arasında istatistiksel bilgisayarlı çeviri algoritmalarının uygulanması ve başarım testi


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Kırgızistan-Türkiye Manas Üniversitesi, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği, Kırgızistan

Tezin Onay Tarihi: 2016

Tezin Dili: Türkçe

Öğrenci: NAKILAY TAYİROVA

Asıl Danışman (Eş Danışmanlı Tezler İçin): Mehmet Tekerek

Özet:

Bilgisayarlı çeviri, doğal diller arası metin çevirmede kullanılan farklı yöntem ve yazılımları araştırmayı amaçlayan bilgisayarlı dilbilim alt alanıdır. Bilgisayarlı çeviri araçlarının insan çevirisi gibi yüksek seviyede sözdizimsel ve anlambilimsel analiz sağlayamamasına rağmen; gelişmiş bilgisayarlı yöntemler uygulanarak yaygın kullanılan diller arası çeviride nispeten kabul edilebilir sonuçlara ulaşılmıştır. Son yıllarda, bilgisayarlı çeviride, büyük veri üzerinde istatistiksel analizle kendi kendini eğitebilen yöntemler geliştirilmiştir. Türkçe dil ailesi üzerine yapılan bilgisayarlı çeviri araştırmalarında, doğal dillerin kurallı yapısı çözümlenerek kural tabanlı yöntemlerin uygulandığı, ancak baskın ve yaygın olarak araştırılan İstatistiksel Bilgisayarlı Çeviri yöntemlerinin ise sınırlı sayıda ve kısmen uygulandığı görülmektedir. Bu çalışmanın amacı, Türkçe dil ailesinin özellikleri göz önüne alınarak İstatistiksel Bilgisayarlı Çeviri yöntemlerini uygulamak ve başarımını çeviri örnekleri üzerinde test etmektir. Çalışma sürecinde, bilgisayarlı çevirinin başlangıcından bu yana gelişmesi ve mevcut durumu ile ilgili alanyazın taraması yapılmıştır. Araştırmalara dayalı, Kırgız Türkçesi ve Türkiye Türkçesi dilleri arasında İstatistiksel Bilgisayarlı Çeviri sistemi yöntemleri olarak NGRAM Tabanlı ve İfade Tabanlı İstatistiksel Bilgisayarlı Çeviri sistemleri uygulanmıştır. Sistemler sınırlı paralel korpus üzerinde eğitilmiştir. İBÇ sistemleri karmaşık metodolojilerden oluşmasıyla, İstatistiksel Bilgisayarlı Çeviri sistemini öğretim ve işletimde büyük veri yönetiminin sağlam ve güvenilir olması için İstatistiksel Bilgisayarlı Çeviri araştırmacıları tarafından yaygın olarak kullanılan Moses, SRILM, Giza++, MARIE gibi araçlardan faydalanılmıştır. Çalışma kapsamında çeviri kalitesi BLEU değerlendirme yöntemi ile puanlanmıştır. Ek olarak, uygulamada geliştirilen İBÇ sistemler çevirisi için BLEU değerlendirme puanı, günümüzün gelişmiş çevrimiçi Google Çeviri İBÇ sistem çeviri BLEU değerlendirme puanı ile karşılaştırılmıştır. Değerlendirmede, veriler, uygulanmış sistemlerin eğitilmesinde kullanılan verilere göre uzun ve kısa, gündelik ve edebi olarak çeşitlendirilmiştir. Sonuçlara göre, sınırlı korpus üzerinde eğitilmiş sistemlerde, Kırgız Türkçesi ve Türkiye Türkçesi arasında N-GRAM Tabanlı ve İfade Tabanlı İstatistiksel Bilgisayarlı Çeviri kalitesi ortalama 0.1 değerinde elde edilmiştir. Çevirisi hiç bulunmayan, ya da insan çevirisine göre uyumsuz durumlar da gözlemlenmiştir. Daha yüksek çeviri kalitesine ulaşma ve sistemler geliştirme amacıyla çeşitli öneriler sunulmuştur. Anahtar Kelimeler: N-GRAM, istatistiksel bilgisayarlı çeviri, dil modeli, çeviri modeli, kod çözme.