Text mining adalah proses mengambil informasi berkualitas tinggi dari teks. Informasi berkualitas tinggi biasanya diperoleh melalui peramalan pola dan kecenderungan melalui sarana seperti pembelajaran pola statistik. percobaan ini adalah untuk melakukan klasifikasi data review film menggunakan metode naïve bayes dan K-Nearest Neighbor (KNN) dengan bantuan tools WEKA. Dataset berita menggunakan dataset yang diambil dari website “Sentiment Polarity Dataset version 2.0” (http://www.cs.cornell.edu/People/pabo/movie-review-data). Dataset tersebut terdiri dari dua kelas yaitu : review positif dan review negative, karena ini hanya sebagai sample percobaan untuk datanya saya batasi total 200 data review dari total 1000 yang data.
Disini saya melakukan rename terhadap sumber data dari txt_sentoken menjadi data_review_film
Pada percobaan ini hanya mengambil 100 data dari setiap kelas, 100 neg (negatif) - 100 pos (positif)
Agar lebih memudahkan data review film disimpan pada folder 'data' yang ada dalam direktori WEKA
Tools yang digunakan untuk melakukan klasifikasi ini adalah dengan menggunakan WEKA
Hal pertama yang harus dilakukan adalah untuk mengimpor dataset dalam tools WEKA. Data arsip yang berisi 200 file text dipartisi dalam dua sub-direktori pos danneg (nilai kelas).
Disini akan mengimport data review film berbentuk folder menjadi .arff
Di pilih option 'TextDirectoryLoader'
Arahkan pada directory sumber data 'data_review_film'
Seperti yang diharapkan, terdapat hubungan yang mengandung 200 kasus dan dua atribut(teks dan kelas). Histogram pada gambar menunjukkan distribusi seragam kelas review (biru = negatif,red = positif).
Untuk tahap selanjutnya klasifikasiyang harus dilakukan adalah preprocessingteks dan ekstraksi fitur penting.
- Word parsing and tokenization
- Stop-words removal
- Lemmatization and stemming
- Term selection/feature extraction
Untuk melakukan preprocessing di WEKA, disni filter StringToWordVector dari paketweka.filters.unsupervised.attribute. Filter ini memungkinkan untuk mengkonfigurasi berbagai tahap ekstraksi
- Mengkonfigurasi tokenizer (pemisah istilah);
- Menentukan daftar stop-kata;
- Pilih stemmer a.
Kemudian cleaning kata-kata yang memang tidak berkaitan dengan pattern begitu pun manual, Jika semua telah dilakukan klik 'remove' dan kemudian klik 'save'
Karakter-karakter yang akan di hapus
Untuk konfigurasi preprocessing lainya dapat dilakukan dengan mengklik 'StringToWordVector'
Setelah data processing tahapan selanjutnya adalah klasifikasi data review film dengan metode pertama menggunakan naïve bayes
Hasil klasifikasi dengan metode Naive Bayes
Kemudian klasifikasi data review film dengan metode kedua menggunakan K-Nearest Neighbor (KNN), pada tool WEKA metode klasifikasi KNN di definisikan dengan nama IBk
Hasil klasifikasi dengan metode K-Nearest Neighbor (KNN)
Kesimpulan
Dari hasil percobaan yang dilakukan dengan K-Fold Cross Validation dengan 10 section, klasifikasi text menggunakan metode naïve bayes lebih baik daripada klasifikasi text menggunakan metode K-Nearest Neighbor (KNN), hasil akurasi yang timpang mungkin berpengaruh dari data yang ada, seperti kurangnya data dan lainya.
This comment has been removed by the author.
ReplyDeletedatanya selain film ada nggak yang sudah terbentuk positif negative bisa dipakai weka?
ReplyDeleteJOIN NOW !!!
ReplyDeleteDan Dapatkan Bonus yang menggiurkan dari dewalotto.site
Dengan Modal 20.000 anda dapat bermain banyak Games 1 ID
8 Pasaran Togel Terbaik Bosku
Joker Slot, Sabung Ayam Dan Masih Banyak Lagi Boskuu
BURUAN DAFTAR!
MENYEDIAKAN DEPOSIT VIA PULSA TELKOMSEL / XL
DOMPET DIGITAL OVO, DANA, LINK AJA DAN GOPAY
UNTUK KEMUDAHAN TRANSAKSI , ONLINE 24 JAM BOSKU
dewa-lotto.site