// <![CDATA[ANALISIS FILTER SPAM SMS MENGGUNAKAN ALGORITMA NAIVE BAYES, SVM, DAN KNN BERBASIS MACHINE LEARNING]]> 0409037702 - Lita Lidyawati, ST.MT Dosen Pembimbing 1 0401058701 - Arsyad R. Darlis, S.T, M.T. Dosen Pembimbing 2 TEGAR SURYA KARYA / 112017071 Penulis
Spam SMS adalah pesan yang tidak berguna bagi penerima dan sering kali menjadi penyalahgunaan oleh pihak yang tidak bertanggung jawab. Sebagian besar SMS adalah SMS spam yang terdiri dari penawaran kartu kredit, penawaran diskon, promosi, dan lain – lain. Tujuan penelitian ini adalah merancang dan menganalisis model algoritma filter spam SMS berbasis Machine Learning agar meminimalisir tindak kejahatan melalui SMS penipuan. Metodologi yang digunakan dalam penelitian ini diantaranya memperoleh dataset spam dan ham SMS dalam bentuk format .csv, tahap pre-processing, pembentukan model algoritma, dan implementasi sistem dengan mengukur keakuratan sistem melakukan klasifikasi data. Hasil penelitian yang didapat berupa data perbandingan besar nilai akurasi model algoritma dalam mendeteksi pesan spam dan ham, dan jumlah ketepatan dan kesalahan SMS yang diklasifikasikan dari data aslinya. Data uji dan data latih dibagi dengan perbandingan 20% data uji dan 80% data latih. Didapatkan hasil rata-rata perbandingan akurasi tiap model pada pelatihan data yaitu Naïve Bayes sebesar 97.24%, Support Vector Machine (SVM) sebesar 99.99%, dan K Nearest Neighbors (KNN) sebesar 94.85%. Sedangkan hasil yang diperoleh pada pengujian data berupa nilai akurasi, presisi, recall, dan f1-score. Hasil rata-rata nilai akurasi pada pengujian data, yaitu Naïve Bayes sebesar 95.74%, SVM sebesar 98.51%. dan KNN sebesar 92.37%. Hasil rata-rata nilai presisi Naïve Bayes sebesar 95.25%, SVM sebesar 98.39% dan KNN sebesar 91.82%. Hasil rata-rata nilai recall Naïve Bayes, SVM, dan KNN diatas 99%. Hasil rata-rata nilai f1-score Naïve Bayes sebesar 98%, SVM sebesar 99.14% dan KNN sebesar 95.76%. Dataset yang digunakan berupa kumpulan pesan berjumlah 5559 yang sudah dilabeli. Faktor yang mempengaruhi hasil akurasi yaitu pada pembagian data uji dan data latih yaitu test_size sebesar 20% dari dataset. Semakin besar nilai test_size pada model maka nilai akurasi yang diperoleh semakin besar. Semakin banyak data yang digunakan, maka model akan melakukan learning dengan hasil maksimal. Pada KNN besar nilai n_neighbors sebagai penentu keputusan klasifikasi akhir. Semakin kecil nilai n_neighbors maka semakin kecil pula hasil akurasi yang diperoleh. Kata kunci: spam, klasifikasi, algoritma, Machine Learning, Naïve Bayes, SVM, KNN