// <![CDATA[BORDERLINE SMOTE UNTUK MENGATASI KETIDAKSEIMBANGAN DATA DALAM KLASIFIKASI WEBSITE PHISHING]]> 120110201 - Yusuf Miftahuddin, S.Kom., MT. Dosen Pembimbing 1 SETIYAWATI / 152021197 Penulis
Ketidakseimbangan data terjadi ketika jumlah kelas jauh lebih banyak dibandingkan kelas lain, yang menyebabkan model lebih akurat pada kelas mayoritas dan menurunkan performa pada kelas minoritas. Masalah ini juga terjadi dalam deteksi phishing, yang dapat menimbulkan kerugian besar karena kesalahan klasifikasi. Di Indonesia, PANDI mencatat 34.622 kasus phishing dalam lima tahun terakhir. Untuk mengatasi ketidakseimbangan data, digunakan. Borderline-SMOTE dengan menargetkan sampel di sekitar batas keputusan untuk meningkatkan pengenalan kelas minoritas. Random Forest dan XGBoost dilatih menggunakan pendekatan ensemble learning (Hard Voting) untuk menghasilkan prediksi yang lebih akurat dibandingkan dengan prediksi yang dihasilkan oleh satu classifier saja. Hasil penelitian menunjukkan akurasi, precision, recall, dan f1-score dengan Borderline-SMOTE berturut-turut pada 30 fitur mencapai 0.9729, 0.9763, 0.9693, dan 0.9728. Pada 15 fitur mencapai 0.9622, 0.9678, 0.9562, dan 0.9619. Pada 10 fitur mencapai 0.9475, 0.9549, 0.9504, dan 0.9526. Sedangkan tanpa Borderline-SMOTE menunjukkan akurasi, precision, recall, dan f1-score berturut-turut pada 30 fitur mencapai 0.9698, 0.9748, 0.9707, dan 0.9727. Pada 15 fitur mencapai 0.9626, 0.9663, 0.9665, dan 0.9664. Pada 10 fitur mencapai 0.9477, 0.9558, 0.9497, 0.9527. Sementara pada 5 fitur, baik dengan atau tanpa Borderline-SMOTE, hasilnya serupa dengan akurasi 0.9334, precision 0.9513, recall 0.9276, dan f1-score 0.9393. Hasil penelitian menunjukkan bahwa meskipun Borderline-SMOTE diterapkan, tidak ada peningkatan yang signifikan dalam performa model, dengan nilai akurasi, precision, recall, dan f1-score yang hampir sama. Hal ini mengindikasikan bahwa Borderline-SMOTE tidak memberikan kontribusi yang berarti dalam meningkatkan performa model. Kata kunci: Borderline SMOTE, Random Forest, XGBoost, Ketidakseimbangan Data, Voting Classifier.