Penelitian ini membandingkan efektivitas tiga metode klasterisasi, yaitu K-Means (centroid-based), Agglomerative Hierarchical, dan Expectation-Maximization dengan Gaussian Mixture Model (probabilistic) dalam mengelompokkan kemampuan berbicara bahasa Inggris secara otomatis berdasarkan kerangka CEFR. Data berupa rekaman audio monolog berformat .wav diproses melalui Automatic Speech Recognition (ASR), ekstraksi fitur linguistik, prosodik, dan akustik, kemudian dinormalisasi dan direduksi hingga menghasilkan vektor berdimensi 39 yang mencerminkan tujuh aspek penilaian: fluency, pronunciation, prosody/acoustic, coherence & cohesion, topic relevance, complexity, dan accuracy. Evaluasi menggunakan metrik internal (Silhouette, Davies-Bouldin, Calinski-Harabasz, Dunn) dan eksternal (pemetaan CEFR) menunjukkan bahwa Agglomerative menghasilkan klaster paling kompak, K-Means unggul pada indeks Calinski-Harabasz, sedangkan EM/GMM lebih konsisten dalam pemetaan ke ground truth CEFR sekaligus mampu mendeteksi subkelompok penutur mahir berkat sifat probabilistiknya. Analisis fitur juga menegaskan bahwa fluency, complexity, pronunciation, serta coherence & cohesion merupakan faktor dominan dalam pemisahan klaster, sehingga penelitian ini merekomendasikan perluasan dataset, validasi silang dengan penilai manusia, dan integrasi metode ke dalam platform pembelajaran bahasa sebagai pengembangan lanjutan.
This study compares the effectiveness of three clustering methods—K-Means (centroid-based), Agglomerative Hierarchical, and Expectation-Maximization with Gaussian Mixture Model (probabilistic)—in automatically grouping English speaking proficiency based on the CEFR framework. The dataset consists of monologue audio recordings in .wav format, which were processed through Automatic Speech Recognition (ASR), followed by linguistic, prosodic, and acoustic feature extraction. The features were then normalized and reduced, resulting in a 39-dimensional vector representing seven assessment aspects: fluency, pronunciation, prosody/acoustic, coherence & cohesion, topic relevance, complexity, and accuracy. Evaluation using internal metrics (Silhouette, Davies-Bouldin, Calinski-Harabasz, Dunn) and external mapping to CEFR levels indicates that Agglomerative produces the most compact clusters, K-Means performs best on the Calinski-Harabasz index, while EM/GMM demonstrates stronger consistency in aligning with CEFR ground truth and effectively detects subgroups of proficient speakers due to its probabilistic nature. Feature analysis further highlights fluency, complexity, pronunciation, and coherence & cohesion as dominant factors in cluster separation. Therefore, this study recommends dataset expansion, cross-validation with human raters, and integration of the method into language learning platforms as future development directions.
Citation
APA Style
. (2025).ANALISIS PERBANDINGAN METODE CLUSTERING CENTROID, HIERARCHICAL, DAN PROBABILISTIC UNTUK PENGELOMPOKAN OTOMATIS KEMAMPUAN BERBICARA BAHASA INGGRIS ().Sistem Informasi:FTI
Chicago Style
.ANALISIS PERBANDINGAN METODE CLUSTERING CENTROID, HIERARCHICAL, DAN PROBABILISTIC UNTUK PENGELOMPOKAN OTOMATIS KEMAMPUAN BERBICARA BAHASA INGGRIS ().Sistem Informasi:FTI,2025.Text
MLA Style
.ANALISIS PERBANDINGAN METODE CLUSTERING CENTROID, HIERARCHICAL, DAN PROBABILISTIC UNTUK PENGELOMPOKAN OTOMATIS KEMAMPUAN BERBICARA BAHASA INGGRIS ().Sistem Informasi:FTI,2025.Text
Turabian Style
.ANALISIS PERBANDINGAN METODE CLUSTERING CENTROID, HIERARCHICAL, DAN PROBABILISTIC UNTUK PENGELOMPOKAN OTOMATIS KEMAMPUAN BERBICARA BAHASA INGGRIS ().Sistem Informasi:FTI,2025.Text