TEXT MINING
Text mining dapat dikatakan sebuah analisis yang mengumpulkan keywords atau temrs (istilah) yang sering muncul secara bersamaan dan kemudian menemukan korelasi atau hubungan asosiasi diantara keywords atau temrs tersebut. Pada sumber lain Text mining adalah proses menambang data berupa teks dengan sumber data biasanya dari dokumen dan tujuannya adalah mencari kata - kata yang mewakili dalam dokumen sehingga dapat dilakukan analisa keterhubungan dalam dokumen. Data teks akan diproses menjadi data numerik agar dapat dilakukan proses lebih lanjut. Sehingga dalam text mining ada istilah preprocessing data, yaitu proses pendahulu yang diterapkan terhadap data teks yang bertujuan untuk menghasilkan data numerik.
Proses preposesing merupakan tahap dimana deskripsi di tangani untuk siap diproses memasuki tahap text mining.
Tahap tersebut adalah : Tahap yang pertama tokenizing, adalah proses pemotongan stringinput berdasarkan tiap kata yang menyusunnya, menjadikan sebuah kalimat menjadi lebih bermakna. Tahap yang kedua, adalah filtering, pada tahap ini dilakukan proses filter atau penyaringan kata hasil proses tokenizing, dimana kata yang tidak relevan dibuang. Proses ini biasanya menggunakan algoritma stop list (membuang kata yang kurang penting), word list (menyimpan kata yang penting) atau stop words (daftar kata-kata yang tidak dipakai di dalam pemrosesan bahasa alami) . Tahap yang ketiga adalah stemming, adalah proses untuk menggambungkan atau memecahkan setiap varian-varian suatu kata menjadi kata dasar. Stem (akar kata) adalah bagian dari akar yang tersisa setelah dihilangkan imbuhannya (awalan dan akhiran). Tahap ini kebanyakan dipaki untuk teks berbahasa Inggris dikarenakan bahasa Indonesia tidak memiliki rumus bentuk baku yang permanen seperti dalam bahasa Inggris. Tahap yang keempat adalah tagging, adalah suatu proses mencari bentuk asal dari kata bentuk lampau. Tahap ini tidak digunakan pada texs berbahasa Indonesia karena dalam bahasa Indonesiantidak mempunyai bentuk lampau. Tahap yang kelima adalah analyzing, adalah tahap penentuan seberapa jauh keterhubungan antar kata-kata dan dokumen yang ada. Jadi hanya ada tiga tahap yang akan dilakukan dalam penelitihan ini yaitu, tahap tokenizing, filtering,dan analyzing. Pada tahap ini dilakukan proses perhitungan bobot (w) dokumen agar diketahui seberapa jauh tingkat similaritas antara keyword yang dimasukkan dengan dokumen.
Tahap tersebut adalah : Tahap yang pertama tokenizing, adalah proses pemotongan stringinput berdasarkan tiap kata yang menyusunnya, menjadikan sebuah kalimat menjadi lebih bermakna. Tahap yang kedua, adalah filtering, pada tahap ini dilakukan proses filter atau penyaringan kata hasil proses tokenizing, dimana kata yang tidak relevan dibuang. Proses ini biasanya menggunakan algoritma stop list (membuang kata yang kurang penting), word list (menyimpan kata yang penting) atau stop words (daftar kata-kata yang tidak dipakai di dalam pemrosesan bahasa alami) . Tahap yang ketiga adalah stemming, adalah proses untuk menggambungkan atau memecahkan setiap varian-varian suatu kata menjadi kata dasar. Stem (akar kata) adalah bagian dari akar yang tersisa setelah dihilangkan imbuhannya (awalan dan akhiran). Tahap ini kebanyakan dipaki untuk teks berbahasa Inggris dikarenakan bahasa Indonesia tidak memiliki rumus bentuk baku yang permanen seperti dalam bahasa Inggris. Tahap yang keempat adalah tagging, adalah suatu proses mencari bentuk asal dari kata bentuk lampau. Tahap ini tidak digunakan pada texs berbahasa Indonesia karena dalam bahasa Indonesiantidak mempunyai bentuk lampau. Tahap yang kelima adalah analyzing, adalah tahap penentuan seberapa jauh keterhubungan antar kata-kata dan dokumen yang ada. Jadi hanya ada tiga tahap yang akan dilakukan dalam penelitihan ini yaitu, tahap tokenizing, filtering,dan analyzing. Pada tahap ini dilakukan proses perhitungan bobot (w) dokumen agar diketahui seberapa jauh tingkat similaritas antara keyword yang dimasukkan dengan dokumen.
Tidak ada komentar:
Posting Komentar