Stemmer Bahasa Indonesia


Stemmer merupakan aplikasi pemotong suatu kata sehingga kata tersebut diharapkan menjadi bentuk kata dasarnya. Namun, sebenarnya tidak semua hasil stem suatu kata memberikan hasil kata dasar. Proses melakukan stem ini disebut stemming atau lemmatization. Stemming merupakan salah satu tahapan penting dalam perolehan informasi yaitu dalam pembuatan index.

Berikut adalah contoh stemming :

memindahkan –> me-mindah-kan –> mindah-kan –> mindah –> pindah

proses diatas melakukan pemotongan kata memindahkan kata menjadi bentuk kata dasarnya yaitu pindah. Untuk dapat melakukan pemotongan kata dengan tepat terdapat beberapa algoritma yang telah dipropose seperti Nazief and Adriani’s Algorithm, Ari n and Setiono’s Algorithm, Vega’s Algorithm, dan Ahmad, Yuso , and Sembok’s Algorithm (sumber : Stemming Indonesian Jelita Asian, Hugh E. Williams, dan S.M.M. Tahaghoghi)

Kali ini, saya juga ingin berbagi mengenai laporan tugas saya mengenai stemmer ini. Dalam laporan ini juga saya lampirkan contoh source codenya juga. Bahasa pemorgraman yang gunakan adalah perl. Hal ini dikarenakan perl merupakan bahasa pemrograman yang cukup mudah dalam melakuakn pemrosesan teks🙂

berikut link downloadnya : disini

~semoga membantu

    • adi
    • December 21st, 2010

    mau tanya tentang script dibawah ini..
    #derivation suffix
    if(($word =~ /^me/ && $word =~ /[^k]an$/) | ($word =~ /^be/ && $word =~ /i$/) |($word =~ /^di/ && $word =~ /[^k]an$/) | ($word =~ /^ke/ && ($word =~ /i$/ || $word =~ /kan$/)) | ($word =~ /^te/ && $word =~ /[^k]an$/) | ($word =~ /^se/ && ($word =~ /i$/ || $word =~ /kan$/))){ return $word; }

    itu dimaksudkan untuk ngecek status yang bagaimana ?

    • script tersebut untuk mencegah kemungkinan imbuhan yang tidak mungkin seperti be – i, me – (huruf selain k) an, se – i, dan lain-lain. semoga membantu dan maaf baru membalas🙂

  1. itu untuk kata yang mengalami peluluhan kalau dikasih imbuhan, seperti me + sapu jadi menyapu.

    salam,
    mit

    • yup, seharusnya seperti itu..namun.. mungkin terdapat kesalahan-kesalahan dalam beberapa kata-kata tertentu. Kesalahan ini dalam laporan saya disebut dengan mis-stemming..

  2. kalo yang pakek php ada gak???

    • Kalau tujuannya untuk web based apps, mungkin bisa pake alternatif perl-cgi. Kalau mau pakai ini seharusnya perubahannya tidak terlalu banyak..
      Jika ingin tetap menggunakan php, sepertinya harus diprogramming ulang karena saya tidak memiliki yang versi phpnya

  1. September 14th, 2014

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: