Stemmer Bahasa Indonesia
Stemmer merupakan aplikasi pemotong suatu kata sehingga kata tersebut diharapkan menjadi bentuk kata dasarnya. Namun, sebenarnya tidak semua hasil stem suatu kata memberikan hasil kata dasar. Proses melakukan stem ini disebut stemming atau lemmatization. Stemming merupakan salah satu tahapan penting dalam perolehan informasi yaitu dalam pembuatan index.
Berikut adalah contoh stemming :
memindahkan –> me-mindah-kan –> mindah-kan –> mindah –> pindah
proses diatas melakukan pemotongan kata memindahkan kata menjadi bentuk kata dasarnya yaitu pindah. Untuk dapat melakukan pemotongan kata dengan tepat terdapat beberapa algoritma yang telah dipropose seperti Nazief and Adriani’s Algorithm, Arin and Setiono’s Algorithm, Vega’s Algorithm, dan Ahmad, Yuso, and Sembok’s Algorithm (sumber : Stemming Indonesian Jelita Asian, Hugh E. Williams, dan S.M.M. Tahaghoghi)
Kali ini, saya juga ingin berbagi mengenai laporan tugas saya mengenai stemmer ini. Dalam laporan ini juga saya lampirkan contoh source codenya juga. Bahasa pemorgraman yang gunakan adalah perl. Hal ini dikarenakan perl merupakan bahasa pemrograman yang cukup mudah dalam melakuakn pemrosesan teks
berikut link downloadnya : disini
~semoga membantu
mau tanya tentang script dibawah ini..
#derivation suffix
if(($word =~ /^me/ && $word =~ /[^k]an$/) | ($word =~ /^be/ && $word =~ /i$/) |($word =~ /^di/ && $word =~ /[^k]an$/) | ($word =~ /^ke/ && ($word =~ /i$/ || $word =~ /kan$/)) | ($word =~ /^te/ && $word =~ /[^k]an$/) | ($word =~ /^se/ && ($word =~ /i$/ || $word =~ /kan$/))){ return $word; }
itu dimaksudkan untuk ngecek status yang bagaimana ?
script tersebut untuk mencegah kemungkinan imbuhan yang tidak mungkin seperti be – i, me – (huruf selain k) an, se – i, dan lain-lain. semoga membantu dan maaf baru membalas
itu untuk kata yang mengalami peluluhan kalau dikasih imbuhan, seperti me + sapu jadi menyapu.
salam,
mit
yup, seharusnya seperti itu..namun.. mungkin terdapat kesalahan-kesalahan dalam beberapa kata-kata tertentu. Kesalahan ini dalam laporan saya disebut dengan mis-stemming..
kalo yang pakek php ada gak???
Kalau tujuannya untuk web based apps, mungkin bisa pake alternatif perl-cgi. Kalau mau pakai ini seharusnya perubahannya tidak terlalu banyak..
Jika ingin tetap menggunakan php, sepertinya harus diprogramming ulang karena saya tidak memiliki yang versi phpnya