Konversi Prompt Ke Suara Berbahasa Indonesia

Konversi Prompt Ke Suara Berbahasa Indonesia

Penulis

  • Ikbal Waludi Universitas Brawijaya
  • Novanto Yudistira Fakultas Ilmu Komputer, Universitas Brawijaya
  • Achmad Basuki Fakultas Ilmu Komputer, Universitas Brawijaya

Kata Kunci:

Sintesis suara, Tacotron 2, Bahasa Indonesia, Dataset, Text-to-Speech

Abstrak

Sintesis suara berbasis teks (Text-to-Speech/TTS) merupakan teknologi penting dalam pengembangan interaksi manusia dan mesin. Tacotron 2, sebagai model deep learning yang mampu menghasilkan suara alami dari teks, memiliki potensi besar untuk berbagai aplikasi berbasis suara, termasuk dalam Bahasa Indonesia. Namun, pengembangan sistem TTS untuk Bahasa Indonesia masih menghadapi tantangan, terutama terkait dengan keterbatasan ketersediaan dataset ujaran yang berkualitas tinggi dan representatif. Penelitian ini bertujuan untuk mengumpulkan dan memproses dataset audio serta transkripsi Bahasa Indonesia, melatih model Tacotron 2, dan mengevaluasi kualitas suara yang dihasilkan. Evaluasi dilakukan secara objektif menggunakan metode Perceptual Evaluation of Speech Quality (PESQ), yang menilai kejelasan, intonasi, dan kealamian suara hasil sintesis berdasarkan model persepsi manusia. Hasil penelitian menunjukkan bahwa model Tacotron 2 yang dilatih menggunakan dataset manual dan semi-manual memperoleh skor PESQ rata-rata tertinggi sebesar 1,230 serta memiliki nilai validation loss yang lebih stabil dibandingkan dengan model berbasis dataset otomatis. Temuan ini menegaskan pentingnya kualitas dataset dalam pengembangan sistem TTS. Penelitian ini diharapkan dapat mendukung pengembangan sistem TTS Bahasa Indonesia yang lebih baik, terutama untuk aplikasi seperti asisten virtual dan teknologi aksesibilitas.

Referensi

Adi, Y., Pratama, F., Septiandri, A., & Purwarianti, A. (2019). Indonesian Universal Dependency Treebank (UD-Indo). https://github.com/UniversalDependencies/UD_Indonesian-GSD [Diakses: 23 April 2024].

Arifianto, F., & Adi, Y. (2017). Indonesian Conversational Text Corpus. https://data.mendeley.com/datasets/rjmrtyf4yd/1 [Diakses: 23 April 2024].

Avila, A., Basterrech, S., Garcia, N., & Romero, D. (2019). A comparative study of objective speech quality assessment methods in VoIP applications. IEEE Access, 7, 123456–123465.

Jia, Y., Zhang, Y., Weiss, R. J., Wang, Q., Shen, J., Ren, F., & Wu, Y. (2018). Transfer learning from speaker verification to multispeaker Text-to-Speech synthesis. arXiv preprint arXiv:1806.04558.

Koehn, P. (2017). Neural Machine Translation. Cambridge University Press.

Li, N., Liu, S., Liu, Y., Zhao, S., & Liu, M. (2020). Neural speech synthesis with transformer network. arXiv preprint arXiv:2005.10340.

Ma, S., Ding, S., Zhang, T., Zhou, L., & Zhang, J. (2019). Results of the WMT19 metrics shared task. Proceedings of the Fourth Conference on Machine Translation (WMT19), 62–90.

Macháček, M., & Bojar, O. (2020). Results of the WMT20 metrics shared task: Segment-level and strong MT systems pose big challenges. Proceedings of the Fifth Conference on Machine Translation (WMT20), 1–27.

Post, M. (2018). A call for clarity in reporting BLEU scores. Proceedings of the Third Conference on Machine Translation (WMT18), 186–191.

Ren, Y., Ruan, Y., Tan, X., Qin, T., Zhao, S., Zhao, Z., & Liu, T. Y. (2019). FastSpeech: Fast, robust and controllable Text-to-Speech. arXiv preprint arXiv:1905.09263.

Shen, J., Pang, R., Weiss, R. J., Schuster, M., Jaitly, N., Yang, Z., & Wu, Y. (2018). Natural TTS synthesis by conditioning WaveNet on mel spectrogram predictions. arXiv preprint arXiv:1712.05884.

Supriyanto, A., Nurjanah, S., & Wulandari, L. (2020). Speech synthesis for Indonesian language using deep neural networks. International Journal of Speech Technology, 23(3), 367–376. https://doi.org/10.1007/s10772-020-09789-4.

Vinyals, O., Kaiser, L., Koo, T., Petrov, S., Sutskever, I., & Hinton, G. (2015). Sequence to sequence learning with neural networks. Advances in Neural Information Processing Systems (NeurIPS), 27, 1–9. https://arxiv.org/abs/1409.3215.

Wang, Y., Skerry-Ryan, R. J., Stanton, D., Wu, Y., Weiss, R. J., Jaitly, N., & Saurous, R. A. (2017). Tacotron: Towards end-to-end speech synthesis. arXiv preprint arXiv:1703.10135.

Zhang, C., Jiang, W., Li, X., Mou, L., & Zhang, Y. (2021). DurIAN: Duration informed attention network for multimodal speech synthesis. arXiv preprint arXiv:2106.03177.

Unduhan

Diterbitkan

09 May 2025

Cara Mengutip

Waludi, I., Novanto Yudistira, & Achmad Basuki. (2025). Konversi Prompt Ke Suara Berbahasa Indonesia. Jurnal Pengembangan Teknologi Informasi Dan Ilmu Komputer, 9(5). Diambil dari https://j-ptiik.ub.ac.id/index.php/j-ptiik/article/view/14860

Terbitan

Bagian

Artikel
Loading...