PERBANDINGAN XCEPTION DAN INCEPTION-V3 MENGGUNAKAN METODE TRANSFORMER PADA IMAGE CAPTIONING
Image caption adalah tugas dalam pemrosesan gambar yang melibatkan pembuatan deskripsi teks yang menjelaskan atau mendeskripsikan konten gambar. Dalam image captioning, sebuah model komputer atau jaringan syaraf tiruan diajarkan untuk memahami sebuah gambar dan menghasilkan kalimat atau teks yang menjelaskan gambar tersebut. Ini adalah bentuk antarmuka antara pemrosesan visual (gambar) dan pemrosesan teks (bahasa), yang memungkinkan komputer untuk "memahami" dan "menjelaskan" gambar dalam bahasa manusia. Namun, image captioning masih memiliki kekurangan, seperti hasil prediksi yang kurang akurat dan tata bahasa yang kurang natural. Dalam mengatasi kekurangan tersebut, model Xception dan Inception-v3 dapat melakukan fine-tuning pada pengenalan gambar agar hasil prediksi akurat. Kemudian model Transformer dapat melakukan self-attention agar hasil prediksi caption memiliki tata bahasa yang natural. Tetapi dalam menentukan metode mana yang lebih baik dilakukan perbandingan antara Xception dan Inception-v3 dalam ekstraksi gambar dan model Transformer dalam prediksi caption. Metode terbaik akan ditentukan berdasarkan penilaian loss & accuracy model dan evaluasi skor BLEU dan METEOR. Dari hasil penelitian ini, pada pelatihan model image captioning dengan batch_size = 128, model Xception & Transformer memiliki loss 0.3677 dan accuracy 0.2789. Lalu model Inception-v3 & Transformer memiliki loss 0.5398 dan accuracy 0.2613. Selanjutnya pelatihan dengan batch_size = 256, model Xception & Transformer memiliki loss 0.1301 dan accuracy 0.2971. Lalu model inception-v3 & transformer memiliki loss 0.1353 dan accuracy 0.2964. Untuk mengukur kualitas terjemahan mesin atau sistem pemrosesan bahasa alami. Penelitian ini menggunakan pengukuran skor rata-rata BLEU dan METEOR menggunakan sampel 10% sebanyak 810 foto. Ketika melatih model menggunakan batch_size = 128, model Xception & Transformer menghasilkan skor BLEU-1 0.2970 dan METEOR 0.2908, lalu model Inception-v3 & Transformer menghasilkan skor BLEU-1 0.2668 dan METEOR 0.2512. Selanjutnya ketika melatih model menggunakan batch_size = 256, model Xception & Transformer menghasilkan skor BLEU-1 0.3025 dan METEOR 0.2981, lalu model Inception-v3 & Transformer menghasilkan skor BLEU-1 0.2962 dan METEOR 0.2972. Dari pengujian tersebut dapat disimpulkan bahwa model Xception dan Transformer lebih unggul dalam membangkitkan Image Captioning.
Detail Information
Citation
APA Style
. (2024).PERBANDINGAN XCEPTION DAN INCEPTION-V3 MENGGUNAKAN METODE TRANSFORMER PADA IMAGE CAPTIONING ().Teknik Informatika:FTI
Chicago Style
.PERBANDINGAN XCEPTION DAN INCEPTION-V3 MENGGUNAKAN METODE TRANSFORMER PADA IMAGE CAPTIONING ().Teknik Informatika:FTI,2024.Text
MLA Style
.PERBANDINGAN XCEPTION DAN INCEPTION-V3 MENGGUNAKAN METODE TRANSFORMER PADA IMAGE CAPTIONING ().Teknik Informatika:FTI,2024.Text
Turabian Style
.PERBANDINGAN XCEPTION DAN INCEPTION-V3 MENGGUNAKAN METODE TRANSFORMER PADA IMAGE CAPTIONING ().Teknik Informatika:FTI,2024.Text