Dalam sistem
temu kembali informasi (Search engine, pencarian, Information retrieval),
dokumen yang diretreive akan melalui proses indexing sebelum
dicocokkan dengan query. Beberapa tahapan dalam indexing diantaranya
adalah Tokenisasi, Pembuangan stopwords, dan pemotongan imbuhan (stemming).
Berikut
ini merupakan sedikit penjelasan dari Tokenisasi, Pembuangan stopwords, dan
pemotongan imbuhan (stemming).
Pertama
Tokenisasi adalah proses untuk membagi teks yang dapat berupa kalimat,
paragraf atau dokumen, menjadi token - token / bagian - bagian tertentu.
Sebagai contoh, tokenisasi dari kalimat "Aku baru saja makan bakso
pedas" menghasilkan enam token, yakni: "Aku", "baru",
"saja", "makan", "bakso", "pedas".
Biasanya, yang menjadi acuan pemisah antar token adalah spasi dan tanda baca.
Tokenisasi seringkali dipakai dalam ilmu linguistik dan hasil tokenisasi
berguna untuk analisis teks lebih lanjut. Contoh program tokenisasi yang dapat
diakses via online adalah MorphAdorner dan NLTK
Tokenizer.
1.1 ilustrasi hasil tokenisasi
Kedua
Stop words adalah kata umum (common words) yang biasanya muncul dalam jumlah
besar dan dianggap tidak memiliki makna. Stop words umumnya dimanfaatkan
dalam task information retrieval. Contoh stop words untuk bahasa Inggris
diantaranya “of”, “the”. Sedangkan untuk bahasa Indonesia diantaranya “yang”,
“di”, “ke”.
1.2 ilustrasi hasil stop word
Ketiga
Stemmming merupakan salah satu proses dari pembuatan sistem temu kembali,
dimana proses stemming akan dilakukan setelah proses filtering. Proses stemming
ini membuat term yang ada pada tabel filtering menjadi kata dasar, dengan
menghilankan semua imbuhan yang ada pada kata tersebut ( imbuhan meng-, me-,
kan-, di- , i, pe, peng-, a-, dll.).
Pentingnya
stemming dalam proses pembuatan sistem temu kembali yakni dimana saat
menghilangkan imbuhan pada sebuah kata menjadi hal yang perlu diperhatikan.
Karena dalam proses stemming yang penting yakni terlebih untuk menghilangkan
imbuhan pada awalan setelah itu akhiran. Apabila yang dilakukan adalah
sebaliknya maka tidak akan ditemukan kata dasar yang tepat dan sesuai dengan
kamus bahasa. Dimana dari hasil proses tersebut akan didapatkan sebuah
informasi mengenai banyaknya term yang muncul dalam sebuah dokumen setelah
dilakukan perhitungan term frequency.
1.3 ilustrasi stemming
Sekian
yang saya dapat sampaikan apabila ada kesalahan dalam penulisan blog ini saya
selaku penulis meminta maaf yang sebesar – besarnya karena kami saya hanyalah
manusia biasa yang tidak luput dari yang namanya dosa serta saya juga dalam
proses belajar.
Nama keleompok :
Listiani Praptining Putri - 15.01.53.0013
Dhika Bagas Whisnu Aji - 15.01.53.0044
Miftachul Anwar - 15.01.53.0075
Listiani Praptining Putri - 15.01.53.0013
Dhika Bagas Whisnu Aji - 15.01.53.0044
Miftachul Anwar - 15.01.53.0075
No comments:
Post a Comment