// <![CDATA[IMPLEMENTASI SMOTE PADA DATA TIDAK SEIMBANG UNTUK KLASIFIKASI EMOSI PADA KOMENTAR MENGGUNAKAN METODE XGBOOST]]> 120240203 - Chalifa Chazar, S.T., M.T. Dosen Pembimbing 1 Freza Taruna Nugraha Wijaya / 152021130 Penulis
Media sosial sudah menjadi tempat seseorang untuk berbagi dan memberi komentar pada berbagai video ataupun konten. Pengguna media sosial dapat mengekspresikan emosi yang sedang dirasakan, oleh karena itu untuk mengetahui apa yang diekspresikan oleh pengguna tersebut dibutuhkannya sistem klasifikasi emosi berbasis teks. Tantangan utama pada klasifikasi emosi berbasis teks ini dimana penggunaan bahasa yang informal, singkatan, dan juga bahasa gaul, serta tantangan dalam klasifikasi emosi juga mencakup ketidakseimbangannya data, dimana salah satu kategori kelas jumlahnya lebih banyak dibandingkan kategori kelas lain. Penelitian ini mengembangkan sebuah model klasifikasi emosi berbasis teks berbahasa Indonesia, menggunakan pendekatan IndoBERTweet sebagai metode untuk representasi teks, SMOTE untuk menangani ketidakseimbangan data, dan XGBoost sebagai algoritma klasifikasi. Dataset berupa teks komentar yang kemudian dilabeli menggunakan IndoBERTweet ke dalam 3 label yaitu anger, happy, dan sadness. Tahap evaluasi membandingkan dua skenario dimana model tanpa penerapan SMOTE dan dengan penerapan SMOTE. Hasil pengujian menunjukkan model tanpa SMOTE memiliki tingkat akurasi sebesar 94,59% dan f1-score sebesar 94,08%, sedangkan dengan penerapan SMOTE mengalami peningkatan akurasi sebesar 96,22% dan f1-score sebesar 96,25%. Penelitian ini menunjukkan bahwa model dengan pendekatan IndoBERTweet dan XGBoost terbukti mampu mengklasifikasikan emosi berbasis teks. SMOTE mampu mengatasi ketidakseimbangan data dan juga dapat meningkatkan akurasi pada model Social media has become a platform for individuals to share and comment on various videos or content. Users can express the emotions they are experiencing, therefore a text-based emotion classification system is needed to identify these expressions. The main challenges in text-based emotion classification include the use of informal language, abbreviations, slang, and also data imbalance, where one class category contains significantly more samples than others. This research develops an emotion classification model for Indonesian text using IndoBERTweet for text representation, SMOTE to address data imbalance, and XGBoost as the classification algorithm. The dataset consists of text comments labeled into three classes: anger, happy, and sadness. The evaluation stage compares two scenarios: without SMOTE and with SMOTE. The results show that the model without SMOTE achieved an accuracy of 94.59% and an f1-score of 94.08%, while the model with SMOTE improved to 96.22% accuracy and 96.25% f1-score. This study demonstrates that the model using IndoBERTweet and XGBoost is effective in classifying text-based emotions, while SMOTE successfully addresses data imbalance and enhances model accuracy.