Full width home advertisement

Travel the world

Climb the mountains

Post Page Advertisement [Top]


Dalam  sistem temu kembali informasi (Search engine, pencarian, Information retrieval), dokumen yang diretreive akan melalui proses indexing sebelum dicocokkan dengan query. Beberapa tahapan dalam indexing diantaranya adalah Tokenisasi, Pembuangan stopwords, dan pemotongan imbuhan (stemming). 

Berikut ini merupakan sedikit penjelasan dari Tokenisasi, Pembuangan stopwords, dan pemotongan imbuhan (stemming). 

Pertama Tokenisasi adalah proses untuk membagi teks yang dapat berupa kalimat, paragraf atau dokumen, menjadi token - token / bagian - bagian tertentu. Sebagai contoh, tokenisasi dari kalimat "Aku baru saja makan bakso pedas" menghasilkan enam token, yakni: "Aku", "baru", "saja", "makan", "bakso", "pedas". Biasanya, yang menjadi acuan pemisah antar token adalah spasi dan tanda baca. Tokenisasi seringkali dipakai dalam ilmu linguistik dan hasil tokenisasi berguna untuk analisis teks lebih lanjut. Contoh program tokenisasi yang dapat diakses via online adalah MorphAdorner dan NLTK Tokenizer.

1.1 ilustrasi hasil tokenisasi

Kedua Stop words adalah kata umum (common words) yang biasanya muncul dalam jumlah besar dan dianggap tidak memiliki makna.  Stop words umumnya dimanfaatkan dalam task information retrieval.  Contoh stop words untuk bahasa Inggris diantaranya “of”, “the”.  Sedangkan untuk bahasa Indonesia diantaranya “yang”, “di”, “ke”.

1.2 ilustrasi hasil stop word

Ketiga Stemmming merupakan salah satu proses dari pembuatan sistem temu kembali, dimana proses stemming akan dilakukan setelah proses filtering. Proses stemming ini membuat term yang ada pada tabel filtering menjadi kata dasar, dengan menghilankan semua imbuhan yang ada pada kata tersebut ( imbuhan meng-, me-, kan-, di- , i, pe, peng-, a-, dll.).


Pentingnya stemming dalam proses pembuatan sistem temu kembali yakni dimana saat menghilangkan imbuhan pada sebuah kata menjadi hal yang perlu diperhatikan. Karena dalam proses stemming yang penting yakni terlebih untuk menghilangkan imbuhan pada awalan setelah itu akhiran. Apabila yang dilakukan adalah sebaliknya maka tidak akan ditemukan kata dasar yang tepat dan sesuai dengan kamus bahasa. Dimana dari hasil proses tersebut akan didapatkan sebuah informasi mengenai banyaknya term yang muncul dalam sebuah dokumen setelah dilakukan perhitungan term frequency.

1.3 ilustrasi stemming

Sekian yang saya dapat sampaikan apabila ada kesalahan dalam penulisan blog ini saya selaku penulis meminta maaf yang sebesar – besarnya karena kami saya hanyalah manusia biasa yang tidak luput dari yang namanya dosa serta saya juga dalam proses belajar.


Nama keleompok :
Listiani Praptining Putri - 15.01.53.0013
Dhika Bagas Whisnu Aji - 15.01.53.0044
Miftachul Anwar - 15.01.53.0075

No comments:

Post a Comment

Bottom Ad [Post Page]