Segmentation of Handwritten Jawi Text: A Combination Approach

Authors

  • Khairuddin Omar Jabatan Sains dan Pengurusan Sistem Universiti Kebangsaan Malaysia
  • Ramlan Mahmod Jabatan Multimedia Universiti Putra Malaysia
  • Md. Nasir Sulaiman Jabatan Sistem Maklumat Universiti Putra Malaysia
  • Abdul Rahman Ramli Jabatan Kejuruteraan Elektronik dan Komputer Universiti Putra Malaysia

Keywords:

Penemberengan baris teks, penemberengan perkataan, penemberengan aksara.

Abstract

Artikel ini menjelaskan satu pendekatan gabungan untuk menyelesaikan penemberengan teks Jawi. Penemberengan adalah satu daripada beberapa fungsi utama dalam sistem Pengecaman Teks Optik Jawi atau PTOJ. Ia melibatkan proses memisahkan satu koleksi teks kepada aksara aksara tunggal untuk dicamkan. Secara amnya teks Jawi mempunyai lima bentuk lazim, iaitu tindanan memugak, ligatur, berbaris, bersambung pada satu baris dan bersentuh antara dua aksara. Terdapat tiga pendekatan utama untuk menembereng bentuk lazim ini, iaitu Unjuran Profail Histogram (UPH), Pelabelan Komponen Terkait (PKT), dan Penentuan Titik Tembereng (PTT). UPH boleh digunakan untuk memecahkan teks Jawi kepada baris teks, kemudian perkataan. PKT boleh mengumpulkan kontur bagi komponen yang terkait, manakala PTT menekankan pencarian satu titik tembereng berpenentuan dengan mencari tembereng-tembereng simpang di antara aksara. Ketiga-tiga pendekatan ini digabungkan untuk menyelesaikan masalah penemberengan teks Jawi tulisan tangan dengan sedikit pengubahsuaian. Algoritma yang berkaitan juga dijelaskan dengan menumpukan kepada tiga bentuk lazim yang utama, iaitu tindanan memugak, ligatur dan bersambung pada satu baris. Satu uji kaji telah dijalankan dan hasilnya dibincangkan berbanding dengan pendekatan UPH.

Downloads

Issue

Section

Articles