Penerapan Optimisasi Pruning dan Clustering Tensorflow Lite Pada Embedded System untuk Sistem Speech To Text
Kata Kunci:
Speech To Text, Embedded System, TensorFlow Lite, MFCC, CNN, Pruning, ClusteringAbstrak
Komunikasi verbal adalah kunci dalam menyampaikan informasi melalui suara. Di era digital, kemampuan komputer untuk memahami ucapan manusia melalui teknologi speech to text menjadi semakin penting. Teknologi ini memungkinkan perangkat mengenali dan mengubah suara menjadi teks, dan telah diterapkan dalam berbagai aplikasi seperti asisten virtual dan sistem navigasi berbasis suara. Embedded systems menawarkan peluang besar untuk mengintegrasikan teknologi ini ke dalam perangkat kecil, andal, hemat daya, dan portabel. Namun, tantangan utama adalah keterbatasan komputasi dan penyimpanan. Penelitian ini mengusulkan solusi dengan menggunakan TensorFlow Lite, versi ringan dari TensorFlow, untuk mengoptimalkan model machine learning pada perangkat dengan sumber daya terbatas. Model yang digunakan dilatih dengan metode Mel-Frequency Cepstral Coefficients (MFCC) untuk ekstraksi ciri dan Convolutional Neural Network (CNN) untuk klasifikasi. Fokus penelitian ini adalah penerapan TensorFlow Lite yang dioptimalkan menggunakan Pruning dan Clustering pada sistem embedded untuk sistem speech to text, dengan tujuan menciptakan sistem yang efektif dan efisien. Hasil penelitian menunjukkan bahwa penggunaan TensorFlow Lite dapat mengatasi tantangan tersebut, memberikan kinerja yang optimal meskipun dengan keterbatasan perangkat keras. Penggunaan TensorFlow Lite mengurangi waktu inference sebesar 93.3% dan penggunaan memori RAM sebesar 17.1% dibangingkan dengan model yang tidak dioptimisasi. Evaluasi kinerja model menghasilkan nilai akurasi 0.97, presisi 0.994, recall 0.997, dan F1-score 0.997.
Referensi
Afkar, M. F. T., Irawan, B., & Nasution, S. M. (2019). Speech to Text Menggunakan Metode Hidden Markov Model Speech to Text Using Hidden Markov Model. E-Proceeding of Engineering, 6(2), 5801–5808.
Ameen, S., Siriwardana, K., & Theodoridis, T. (2023). Optimizing Deep Learning Models For Raspberry Pi. https://arxiv.org/abs/2304.13039v1
Chen, Y., Wang, E., & Ji, L. (2016). Embedded speech recognition system design and optimization. Proceedings - 2016 8th International Conference on Measuring Technology and Mechatronics Automation, ICMTMA 2016, 2, 266–269. https://doi.org/10.1109/ICMTMA.2016.72
Pant, A. P., Wu, K. R., & Tseng, Y. C. (2020). Speak to Action: Offline and Hybrid Language Recognition on Embedded Board for Smart Control System. Proceedings - 2020 International Computer Symposium, ICS 2020, 85–90. https://doi.org/10.1109/ICS51289.2020.00026
Rashidi, M. (2022). Application of TensorFlow lite on embedded devices A hands-on practice of TensorFlow model conversion to TensorFlow Lite model and its deployment on Smartphone to compare model’s performance.
Saxena, A. (2022). An Introduction to Convolutional Neural Networks. International Journal for Research in Applied Science and Engineering Technology, 10(12), 943–947. https://doi.org/10.22214/ijraset.2022.47789
Setiawan, B. R., Aranta, A., & Irmawati, B. (2023). SPEECH TO TEXT BAHASA SASAK MENGGUNAKAN EXTRAKSI FITUR MEL-FREQUENCY CEPSTRAL COEFFICIENTS DAN KLASIFIKASI CONVOLUTIONAL NEURAL NETWORKS (Speech to Text Sasak Language Using Mel-Frequency Cepstral Coefficients Feature Extraction and Convolutional Neural Networks Classification). http://jtika.if.unram.ac.id/index.php/JTIKA/
Widiyanto, E., Nur Endah, S., & Adhy, S. (2014). APLIKASI SPEECH TO TEXT BERBAHASA INDONESIA MENGGUNAKAN MEL FREQUENCY CEPSTRAL COEFFICIENTS DAN HIDDEN MARKOV MODEL (HMM). In Prosiding Seminar Nasional Ilmu Komputer Undip.
Afkar, M. F. T., Irawan, B., & Nasution, S. M. (2019). Speech to Text Menggunakan Metode Hidden Markov Model Speech to Text Using Hidden Markov Model. E-Proceeding of Engineering, 6(2), 5801–5808.
Ameen, S., Siriwardana, K., & Theodoridis, T. (2023). Optimizing Deep Learning Models For Raspberry Pi. https://arxiv.org/abs/2304.13039v1
Chen, Y., Wang, E., & Ji, L. (2016). Embedded speech recognition system design and optimization. Proceedings - 2016 8th International Conference on Measuring Technology and Mechatronics Automation, ICMTMA 2016, 2, 266–269. https://doi.org/10.1109/ICMTMA.2016.72
Pant, A. P., Wu, K. R., & Tseng, Y. C. (2020). Speak to Action: Offline and Hybrid Language Recognition on Embedded Board for Smart Control System. Proceedings - 2020 International Computer Symposium, ICS 2020, 85–90. https://doi.org/10.1109/ICS51289.2020.00026
Rashidi, M. (2022). Application of TensorFlow lite on embedded devices A hands-on practice of TensorFlow model conversion to TensorFlow Lite model and its deployment on Smartphone to compare model’s performance.
Saxena, A. (2022). An Introduction to Convolutional Neural Networks. International Journal for Research in Applied Science and Engineering Technology, 10(12), 943–947. https://doi.org/10.22214/ijraset.2022.47789
Setiawan, B. R., Aranta, A., & Irmawati, B. (2023). SPEECH TO TEXT BAHASA SASAK MENGGUNAKAN EXTRAKSI FITUR MEL-FREQUENCY CEPSTRAL COEFFICIENTS DAN KLASIFIKASI CONVOLUTIONAL NEURAL NETWORKS (Speech to Text Sasak Language Using Mel-Frequency Cepstral Coefficients Feature Extraction and Convolutional Neural Networks Classification). http://jtika.if.unram.ac.id/index.php/JTIKA/
Widiyanto, E., Nur Endah, S., & Adhy, S. (2014). APLIKASI SPEECH TO TEXT BERBAHASA INDONESIA MENGGUNAKAN MEL FREQUENCY CEPSTRAL COEFFICIENTS DAN HIDDEN MARKOV MODEL (HMM). In Prosiding Seminar Nasional Ilmu Komputer Undip.
Unduhan
Diterbitkan
Cara Mengutip
Terbitan
Bagian
Lisensi
Hak Cipta (c) 2024 Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
Artikel ini berlisensiCreative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.