// <![CDATA[REDUKSI DISTORSI PADA AUDIO UNTUK MENINGKATKAN PENGENALAN UCAPAN OTOMATIS DENGAN PENDEKATAN AUXILIARY AUTOENCODING TRAINING]]> 120240203 - Chalifa Chazar, S.T., M.T. Dosen Pembimbing 1 SENDI JULPANI / 15-2021-073 Penulis
Distorsi pada audio merupakan permasalahan utama yang menurunkan kualitas audio dan menghambat pemrosesan lebih lanjut seperti pengenalan ucapan ke teks. Meskipun model end-to-end modern mampu mengatasi berbagai kondisi kompleks dengan cukup baik, kelemahan utamanya tetap terletak pada munculnya distorsi. Untuk mengatasi hal ini, penelitian ini mengusulkan metode Auxiliary Autoencoding Training (A2T) sebagai regularisasi pada arsitektur Dual-Path Conformer. A2T diimplementasikan sebagai loss function tambahan untuk mengurangi distorsi dan mempertahankan kejernihan sinyal target. Selain itu, digunakan metode Connectionist Temporal Classification (CTC) dengan tambahan attention untuk mengubah audio ucapan menjadi transkripsi teks. Berdasarkan pengujian pada 30.000 sampel audio, metode ini berhasil mencapai SI-SDR sebesar 4.20 dB, SNR 5.72 dB, dan WER 0.555. Hasil ini mengonfirmasi bahwa A2T merupakan pendekatan yang prospektif untuk reduksi distorsi audio. Audio distortion is a major problem that degrades audio quality and hinders further processing such as speech-to-text recognition. Although modern end-to-end models are capable of handling various complex conditions quite well, their main weakness still lies in the appearance of distortion. To address this, this study proposes an Auxiliary Autoencoding Training (A2T) method as a regularization in the Dual-Path Conformer architecture. A2T is implemented as an additional loss function to reduce distortion and maintain the clarity of the target signal. In addition, a Connectionist Temporal Classification (CTC) method with additional attention is used to convert speech audio into text transcription. Based on testing on 30,000 audio samples, this method successfully achieved SI-SDR of 4.20 dB, SNR of 5.72 dB, and WER of 0.555. These results confirm that A2T is a prospective approach for audio distortion reduction.