Page 14 - KATALOG Çalışması 2020
P. 14
Bilgisayar Mühendisliği ABD Yüksek Lisans Programı Computer Engineering Majors in Master of Science
Tez Başlığı Thesis Title
DOĞAL DİLLERİN ZAMAN VE KONUMA BAĞLI DEĞİŞİMLERİNİN NİCEL OLARAK QUANTITATIVE WAYS OF MEASURING NATURAL LANGUAGE CHANGE THROUGH
ÖLÇÜLMESİ TIME AND LOCATION
Öğrenci Adı / Student’s Name Muhammed Enes ALMAHDI
Tez Danışmanı / Thesis Supervisor Prof. Dr. Yusuf Sinan AKGÜL
Eş-Danışman / Co-Advisor
ÖZET ABSTRACT
Birbirini izleyen nesiller boyunca diller gelişmiştir, yeni diller ve lehçelere Over successive generations, languages have evolved, with new languages and dialects
dallanmıştır; yeni kelimeler ortaya çıkmış, telaffuzlar değişmiş ve morfoloji gelişmiştir. branching out; new words emerge, pronunciations vary, and morphology develops. The
Bir dilde ikame edilmiş sözcükleri bulmak ve benzer dillerin benzerliklerini bilmek, process of finding substituted words in a language, as well as knowing how similar
dillerin gelişimini incelemenin temel taşını oluşturmuştur. Doğu dillerinde paralel languages are, is the cornerstone of studying the development of languages. The challenge
korporanın azlığı bu dilleri incelemedeki zorluğu ortaya çıkarmıştır. Dillerin gelişimini in studying Eastern languages occupies in the scarcity of parallel corpora. Current
inceleyen mevcut yaklaşımlar ya paralel korporaya dayanmıştır ya da yüksek başarım approaches that study the development of languages are either based on parallel corpora
gösterememiştir. Bu çalışmanın amacı gözetimsiz öğrenmeyle paralel korpora or are not of high quality. The goal of this work is to build an effective system that
kullanmadan kelime ikamesini ve diller arası benzerliği otomatik olarak tespit eden automatically detects word substitution and inter-language similarity using unsupervised
etkin bir sistem oluşturmaktır. Kelime ikamesini keşfetmek ve zamana dayalı kelime learning, i.e., without parallel corpora. To discover word substitution, we employ an
vektör uzayları ile zamandan bağımsız evrensel kelime vektör uzayının nasıl adversarial training procedure to learn how to align between time-based word embeddings
hizalanacağını öğretmek için basit ve etkin sözlük tabanlı doğrulama yöntemi ile spaces and time-independent global word embeddings space with a simple and effective
çekişmeli eğitim prosedürünü kullandık. Ayrıca, tek dilli metinler üzerinde eğitilmiş n- dictionary-based validation method. Furthermore, we estimate the inter-language
gram modellere dayanarak diller arası benzerliği kestirdik. Önerilen modellerimizi similarity based on the perplexity of n-gram models that trained on monolingual texts. We
Türk dilleri ve Arap lehçelerine uyguladık. Türk dil gelişiminin son 100 yıllık apply our proposed models on Turkic languages and Arabic dialects. We identify word
döneminde en çok değişen dönemleri bulmanın yanı sıra sözcük ikamelerini de substitutions, in addition to finding the most changed periods during the last 100-years
belirledik. Ayrıca Türk dilleri ve Arap lehçeleri için tam bağlantılı benzerlik çizgeleri stage of Turkish language development. Moreover, we create fully connected similarity
oluşturduk. Bir ısı haritasında benzerlikleri görselleştirdik ve bunu diller arası graphs for Turkic languages and Arabic dialects. We visualize the similarities in a heatmap,
benzerliğe coğrafi dağılımın etkisini gösteren bir harita sunduk. and we present a map showing the inter-language similarity and the influence of the
geographical distribution.
Anahtar Kelimeler / Key-words Doğal Dil İşleme, Kelime Gömme, Kelime İkame Etme, Dil Benzerliği, Dil Modelleme.
Tez Numarası / Thesis Number 620449