Penerapan Transformasi Wavelet pada Koefisien Cepstral Mel untuk Mengenali Stress Pembicara
Kata Kunci:
Stres, Pemrosesan suara, Transformasi wavelet, Convolutional Neural Network, MFCC, CNN, Wavelet, Stress, EmosiAbstrak
Stres merupakan suatu reaksi tubuh ketika mengalami suatu tekanan atau beban tertentu, baik itu dari situasi eksternal maupun internal. Masalah ini semakin meluas karena stres dapat memicu gangguan mental seperti kecemasan dan depresi. Selain gangguan mental, stres juga dapat menyerang penyakit fisik termasuk penyakit jantung dan penyakit lainnya. Pada lingkungan masyarakat sendiri masih tergolong rendah tentang kesadaran terhadap gejala stres tersebut. Banyak orang yang kesulitan dalam mengenali gejala dari stres bahkan cenderung mengabaikannya. Oleh karena itu, diperlukan sebuah teknologi yang mudah digunakan untuk mengenali stres pembicara. Pada penelitian ini akan membuat sebuah sistem yang dapat mengenali stres pembicara menggunakan ekstraksi fitur WFCC (Waveletbased Frequency Cepstral Coefficients), yang mana metode ini akan mengganti transformasi FFT dengan transformasi Wavelet yang memiliki keunggulan dalam menangkap perubahan sinyal audio pada berbagai skala waktu dan frekuensi. Sedangkan untuk metode klasifikasinya pada penelitian ini menggunakan CNN (Convolutional Neural Network). Penelitian ini menggunakan aplikasi Android sebagai perangkat yang digunakan agar mempermudah pengguna dalam mengakses sistem yang dibuat. Sistem ini berhasil mendapatkan akurasi 87.20% yang telah memenuhi kriteria yang telah ditentukan pada tahap perancangan.
Referensi
Acevedo, E. O., & Ekkekakis, P. (Eds.). (2006). Psychobiology of Physical Activity. Champaign, IL: Human Kinetics.
Adam, T. B., & Salam, M. S., & Gunawan, T. S. (2013). Wavelet Cesptral Coefficients for Isolated Speech Recognition. Telkomnika, 11(5), 2731-2738. Universitas Teknologi Malaysia.
Aldi, A., Nursari, S. R. C., & Maspiyanti, F. (2020). Deteksi Dini Tingkat Stres Pada Mahasiswa Menggunakan Metode Iterative Dichotomiser 3 dan K-Nearest Neighbour. Journal of Informatics and Advanced Computing, 1(1).
Bhangale, K., & Kothandaraman, M., (2023). Speech Emotion Recognition Based on Multiple Acoustic Features and Deep Convolutional Neural Network. Vellore Institute of Technology.
Dyarbirru, Z., & Hidayat, S. (2020). Metode Wavelet-MFCC dan Korelasi dalam Pengenalan Suara Digit. JTIM : Jurnal Teknologi Informasi Dan Multimedia, 2(2), 100–108.
Karan, B., & Kumar, A. (2023). Hilbert Domain Analysis of Wavelet Packets for Emotional Speech Classification. Circuits, Systems, and Signal Processing.
Koolagudi, S. G., & Rao, K. S. (2012) Emotion recognition from speech: a review. Int JSpeech Technol 15(2):99–117. https://doi.org/10. 1007/s10772-0119125-1.
Krishna Kishore, K. V., & Krishna Satish, P. (2013). Emotion Recognition In Speech Using MFCC And Wavelet Features.
Krishnan, P. T., & Raj, A. N. J., & Rajangam, V. (2020). Emotion classification from speech signal based on empirical mode decomposition and non-linear features, 7:1919–1934.
Lazzuardhy, D. A., & Prasetio, B. H. (2022). Sistem Pengenalan Intensitas Emosi Sedih melalui Ucapan menggunakan Ekstraksi Bark-Frequency Cepstral Coefficient dan K-Nearest Neighbor berbasis Raspberry Pi 4. Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer, 6(11), 1-9. Universitas Brawijaya.
Pavez, E., & Silva, J. F. (2012). Analysis and Design of Wavelet-Packet Cepstral Coefficients for Automatic Speech Recognition. Speech Communication. 54:814-835.
Pawar, M. D., & Kokate, R. D. (2021). Convolution neural network based automatic speech emotion recognition using Mel-frequency Cepstrum coefficients. Multimedia Tools and Applications, 80(10), 15563–15587.
Permana, I. S., Nurhasanah, Y. I., & Zulkarnain, A. (2018). Implementasi Metode MFCC dan DTW untuk Pengenalan Jenis Suara Pria dan Wanita. MIND Journal, 3(1), 49– 63.
Prawitasari, J. E. (1998). Kecerasan emosi. Buletin Psikologi, 6(1), 21–31.
Putra, D. K., Triasmoro, I. I., Atmaja, R. D., Iwut, I., & Atmaja, R. D. (2017). Simulasi Dan Analisis Speaker Recognition Menggunakan Metode Mel Frequency Cepstrum Coefficient (MFCC) Dan Gaussian Mixture Model (GMM). EProceedings of Engineering, 4(2), 1766– 1772.
Putri, T. B., & Saidah, S., & Hidayat, B., & Qothrunnada, F., & Darwindra. (2023). Deteksi Emosi Berdasarkan Sinyal Suara Manusia Menggunakan Discrete Wavelet Transform (DWT) Dengan Klasifikasi Support Vector Machine (SVM). Jurnal Ilmu Komputer dan Informatika (JIKI), 3(1), 1-10.
Sulistyaningrun, D. R., & Khukmiati, H., (2004). Penerapan Transformasi Wavelet diskrit untuk reduksi noise pada citra digital. Journal of Mathematics and Its Applications, 1(1), 49–57.
Tzanetakis, G., Essl, G. & Cook, P., (2001). Audio Analysis using the Discrete Wavelet Transform. Proceedings of the Conference in Acoustics and Music Theory Applications, pp.318–323.
Yang, N., & Dey, N., & Sherratt, R. S., & Shi, F. (2020) Recognize basic emotional states in speech by machine learning techniques using mel-frequency cepstral coefficient features. J Intell Fuzzy Syst.
Acevedo, E. O., & Ekkekakis, P. (Eds.). (2006). Psychobiology of Physical Activity. Champaign, IL: Human Kinetics.
Adam, T. B., & Salam, M. S., & Gunawan, T. S. (2013). Wavelet Cesptral Coefficients for Isolated Speech Recognition. Telkomnika, 11(5), 2731-2738. Universitas Teknologi Malaysia.
Aldi, A., Nursari, S. R. C., & Maspiyanti, F. (2020). Deteksi Dini Tingkat Stres Pada Mahasiswa Menggunakan Metode Iterative Dichotomiser 3 dan K-Nearest Neighbour. Journal of Informatics and Advanced Computing, 1(1).
Bhangale, K., & Kothandaraman, M., (2023). Speech Emotion Recognition Based on Multiple Acoustic Features and Deep Convolutional Neural Network. Vellore Institute of Technology.
Dyarbirru, Z., & Hidayat, S. (2020). Metode Wavelet-MFCC dan Korelasi dalam Pengenalan Suara Digit. JTIM : Jurnal Teknologi Informasi Dan Multimedia, 2(2), 100–108.
Karan, B., & Kumar, A. (2023). Hilbert Domain Analysis of Wavelet Packets for Emotional Speech Classification. Circuits, Systems, and Signal Processing.
Koolagudi, S. G., & Rao, K. S. (2012) Emotion recognition from speech: a review. Int JSpeech Technol 15(2):99–117. https://doi.org/10. 1007/s10772-0119125-1.
Krishna Kishore, K. V., & Krishna Satish, P. (2013). Emotion Recognition In Speech Using MFCC And Wavelet Features.
Krishnan, P. T., & Raj, A. N. J., & Rajangam, V. (2020). Emotion classification from speech signal based on empirical mode decomposition and non-linear features, 7:1919–1934.
Lazzuardhy, D. A., & Prasetio, B. H. (2022). Sistem Pengenalan Intensitas Emosi Sedih melalui Ucapan menggunakan Ekstraksi Bark-Frequency Cepstral Coefficient dan K-Nearest Neighbor berbasis Raspberry Pi 4. Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer, 6(11), 1-9. Universitas Brawijaya.
Pavez, E., & Silva, J. F. (2012). Analysis and Design of Wavelet-Packet Cepstral Coefficients for Automatic Speech Recognition. Speech Communication. 54:814-835.
Pawar, M. D., & Kokate, R. D. (2021). Convolution neural network based automatic speech emotion recognition using Mel-frequency Cepstrum coefficients. Multimedia Tools and Applications, 80(10), 15563–15587.
Permana, I. S., Nurhasanah, Y. I., & Zulkarnain, A. (2018). Implementasi Metode MFCC dan DTW untuk Pengenalan Jenis Suara Pria dan Wanita. MIND Journal, 3(1), 49– 63.
Prawitasari, J. E. (1998). Kecerasan emosi. Buletin Psikologi, 6(1), 21–31.
Putra, D. K., Triasmoro, I. I., Atmaja, R. D., Iwut, I., & Atmaja, R. D. (2017). Simulasi Dan Analisis Speaker Recognition Menggunakan Metode Mel Frequency Cepstrum Coefficient (MFCC) Dan Gaussian Mixture Model (GMM). EProceedings of Engineering, 4(2), 1766– 1772.
Putri, T. B., & Saidah, S., & Hidayat, B., & Qothrunnada, F., & Darwindra. (2023). Deteksi Emosi Berdasarkan Sinyal Suara Manusia Menggunakan Discrete Wavelet Transform (DWT) Dengan Klasifikasi Support Vector Machine (SVM). Jurnal Ilmu Komputer dan Informatika (JIKI), 3(1), 1-10.
Sulistyaningrun, D. R., & Khukmiati, H., (2004). Penerapan Transformasi Wavelet diskrit untuk reduksi noise pada citra digital. Journal of Mathematics and Its Applications, 1(1), 49–57.
Tzanetakis, G., Essl, G. & Cook, P., (2001). Audio Analysis using the Discrete Wavelet Transform. Proceedings of the Conference in Acoustics and Music Theory Applications, pp.318–323.
Yang, N., & Dey, N., & Sherratt, R. S., & Shi, F. (2020) Recognize basic emotional states in speech by machine learning techniques using mel-frequency cepstral coefficient features. J Intell Fuzzy Syst.
Diterbitkan
Cara Mengutip
Terbitan
Bagian
Lisensi
Hak Cipta (c) 2024 Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
Artikel ini berlisensiCreative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.