// <![CDATA[SISTEM AUTOMATED ESSAY SCORING BAHASA INGGRIS DENGAN BERT:]]> 0426097801 - Jasman Pardede, Dr., S.Si., MT. Dosen Pembimbing 1 THALITA ZHARIFA NATHANIA / 152021051 Penulis
Automated Essay Scoring (AES) umumnya dilakukan secara holistik , sehingga tidak mampu menangkap dimensi-dimensi penulisan secara terpisah. Penelitian ini mengusulkan pendekatan modular dengan dua komponen utama: modul penilaian struktur dan modul penilaian tata bahasa, yang dikembangkan secara terpisah namun terintegrasi. Modul struktur mengevaluasi tiga trait esai Ideas, Organization, dan Style menggunakan arsitektur BERT–BiLSTM–Attention yang dilatih pada dataset ASAP, sedangkan modul tata bahasa mengevaluasi trait Conventions menggunakan model BERT yang dilatih pada dataset CoLA untuk melakukan klasifikasi kesalahan grammar, serta mengonversi fitur linguistik menjadi skor grammar melalui regresi logistik multinomial. Eksperimen dilakukan pada essai dataset ASAP dan dievaluasi menggunakan metrik Quadratic Weighted Kappa (QWK) pada data pelatihan, validasi, dan pengujian. Hasil menunjukkan bahwa model penilaian struktur mencapai skor QWK tertinggi sebesar 0.7906 pada data pengujian, sementara model grammar memperoleh QWK 0.3923 pada data pengujian, dan skor holistik mencapai 0.7847 pada data pengujian. Hasil menunjukkan bahwa skor holistik yang dihasilkan sistem mencapai QWK 0.8046 pada data validasi, mengalami peningkatan sekitar 3.15% dibanding penelitian sebelumnya yang memperoleh QWK 0.78 pada data validasi pada penelitian Tambe & Kulkarni (2022), yang menggunakan pendekatan BERT-LSTM. Pendekatan ini menunjukkan potensi untuk meningkatkan interpretabilitas dan performa sistem AES dalam konteks evaluasi pendidikan berbahasa Inggris. Automated Essay Scoring (AES) is generally conducted holistically, so it is unable to capture separate dimensions of writing. This study proposes a modular approach with two main components: a structure assessment module and a grammar assessment module, which are developed separately but integrated. The structure module evaluates three essay traits Ideas, Organization, and Style using a BERT–BiLSTM–Attention architecture trained on the ASAP dataset, while the grammar module evaluates the Conventions trait using a BERT model trained on the CoLA dataset to classify grammar errors and convert linguistic features into grammar scores through multinomial logistic regression. Experiments were conducted on the ASAP essay dataset and evaluated using the Quadratic Weighted Kappa (QWK) metric on training, validation, and testing data. The results show that the structure assessment model achieved the highest QWK score of 0.7906 on the test data, while the grammar model obtained a QWK of 0.3923 on the test data, and the holistic score reached 0.7847 on the test data. The results show that the holistic score generated by the system achieved a QWK of 0.8046 on the validation data, an increase of approximately 3.15% compared to the previous study, which obtained a QWK of 0.78 on the validation data in the study by Tambe & Kulkarni (2022), which employed a simpler BERT-LSTM approach. This approach demonstrates the potential to enhance the interpretability and performance of AES systems in the context of English language education evaluation.