Skip to Main Content
Table 3: 

Turkish examples for different segmentation methods. An English translation is “And he killed James the brother of John with the sword” (Acts 12:2). FST does not produce analyses for Yuhannanın (“John’s”), for which BPE or Morfessor back-off was used. The segmentation created by human experts was the same as FST+Morfessor. 〈@@〉 denotes subword segmentation and 〈_〉 encodes space between word tokens for character segmentation.

SegmentationExample
Tokenized Yuhannanın kardeşi Yakubu kılıçla öldürdü . 
Character Y u h a n n a n ı n _ k a r d e ş i _ Y a k u b u _ k ı l ı ç l a _ ö l d ü r d ü . 
BPE Yuhan@@ nanın kardeşi Yakubu kılıçla öldürdü . 
Morfessor Yuhanna@@ nın kardeş@@ i Yakub@@ u kılıç@@ la öldürdü . 
FST+BPE Yuhan@@ nanın kardeş@@ i Yakub@@ u kılıç@@ la öl@@ dür@@ dü . 
FST+Morfessor Yuhanna@@ nın kardeş@@ i Yakub@@ u kılıç@@ la öl@@ dür@@ dü . 
SegmentationExample
Tokenized Yuhannanın kardeşi Yakubu kılıçla öldürdü . 
Character Y u h a n n a n ı n _ k a r d e ş i _ Y a k u b u _ k ı l ı ç l a _ ö l d ü r d ü . 
BPE Yuhan@@ nanın kardeşi Yakubu kılıçla öldürdü . 
Morfessor Yuhanna@@ nın kardeş@@ i Yakub@@ u kılıç@@ la öldürdü . 
FST+BPE Yuhan@@ nanın kardeş@@ i Yakub@@ u kılıç@@ la öl@@ dür@@ dü . 
FST+Morfessor Yuhanna@@ nın kardeş@@ i Yakub@@ u kılıç@@ la öl@@ dür@@ dü . 
Close Modal

or Create an Account

Close Modal
Close Modal