Turkish examples for different segmentation methods. An English translation is “And he killed James the brother of John with the sword” (Acts 12:2). FST does not produce analyses for Yuhannanın (“John’s”), for which BPE or Morfessor back-off was used. The segmentation created by human experts was the same as FST+Morfessor. 〈@@〉 denotes subword segmentation and 〈_〉 encodes space between word tokens for character segmentation.
Segmentation . | Example . |
---|---|
Tokenized | Yuhannanın kardeşi Yakubu kılıçla öldürdü . |
Character | Y u h a n n a n ı n _ k a r d e ş i _ Y a k u b u _ k ı l ı ç l a _ ö l d ü r d ü . |
BPE | Yuhan@@ nanın kardeşi Yakubu kılıçla öldürdü . |
Morfessor | Yuhanna@@ nın kardeş@@ i Yakub@@ u kılıç@@ la öldürdü . |
FST+BPE | Yuhan@@ nanın kardeş@@ i Yakub@@ u kılıç@@ la öl@@ dür@@ dü . |
FST+Morfessor | Yuhanna@@ nın kardeş@@ i Yakub@@ u kılıç@@ la öl@@ dür@@ dü . |
Segmentation . | Example . |
---|---|
Tokenized | Yuhannanın kardeşi Yakubu kılıçla öldürdü . |
Character | Y u h a n n a n ı n _ k a r d e ş i _ Y a k u b u _ k ı l ı ç l a _ ö l d ü r d ü . |
BPE | Yuhan@@ nanın kardeşi Yakubu kılıçla öldürdü . |
Morfessor | Yuhanna@@ nın kardeş@@ i Yakub@@ u kılıç@@ la öldürdü . |
FST+BPE | Yuhan@@ nanın kardeş@@ i Yakub@@ u kılıç@@ la öl@@ dür@@ dü . |
FST+Morfessor | Yuhanna@@ nın kardeş@@ i Yakub@@ u kılıç@@ la öl@@ dür@@ dü . |