Please use this identifier to cite or link to this item: http://repositorio.yachaytech.edu.ec/handle/123456789/852
Title: Building a kichwa language audio dataset for mispronunciation detection
Authors: Astudillo León, Juan Pablo
Conejo Pichamba, Saire David
Keywords: Kichwa ecuatoriano
Red neuronal convolucional
Preservación del idioma
Ecuadorian Kichwa
Convolutional Neural Network
Language preservation
Issue Date: Oct-2024
Publisher: Universidad de Investigación de Tecnología Experimental Yachay
Abstract: Esta tesis aborda la preservación del idioma Kichwa, una lengua indígena en peligro de desaparecer en Ecuador, mediante el uso de nuevas tecnologías. Se presentan dos avances significativos: la creación de un conjunto de datos de audio inicial para el idioma Kichwa, diseñado para detectar errores de pronunciación en 208 palabras seleccionadas según su uso diario, y la evaluación de este conjunto de datos con modelos de aprendizaje automático, incluyendo redes neuronales Feed Forward, redes neuronales convolucionales, modelo pre entrenado AlexNet y un modelo de Transformers pre entrenado Wav2Vec2.0, siendo este último el que obtuvo los mejores resultados. La investigación comenzó con una revisión exhaustiva de métodos avanzados para la detección de errores de pronunciación en lenguas con pocos recursos. Se construyó un conjunto de datos de 208 palabras relevantes en Kichwa, se grabó muestras de audio con 30 voluntarios (14 no nativos y 16 nativos) y se validaron por tres hablantes nativos. Posteriormente, se evaluaron los modelos, para lo cual se adaptó y afinó cada modelo para la clasificación binaria de errores de pronunciación de palabras en Kichwa. Por último, esta investigación reconoce limitaciones como el tamaño del conjunto de datos en las clases de las palabras mal pronunciadas y las variaciones regionales de pronunciación. Se sugiere que futuros trabajos podrían incluir la expansión del conjunto de datos, variantes fonéticas y otras tareas relacionadas con el habla. Esta investigación representa un paso crucial en el uso de tecnologías para apoyar la preservación del idioma y el aprendizaje del Kichwa ecuatoriano, contribuyendo a la protección de este importante patrimonio cultural.
Description: This thesis addresses the preservation of the Kichwa language, an endangered indigenous language in Ecuador, through the use of new innovative learning technologies. Two significant advances are presented: the creation of an initial audio dataset for Ecuadorian Kichwa, designed for mispronunciation detection in 208 words selected based on daily usage, and the evaluation of this dataset with machine learning models, including Feed Forward Neural Networks, Convolutional Neural Networks, pre-trained AlexNet, and a pre-trained Wav2Vec2.0 transformer model, with the latter obtaining the best results. The research began with a thorough review of advanced methods for detecting mispronunciation in low-resource language datasets. A dataset was constructed by selecting 208 relevant Kichwa words, recording audio samples from 30 volunteers (14 non-native and 16 native), then validating and transcribing by three native speakers. Subsequently, the models mentioned were evaluated, for this purpose each model was adapted and fine-tuned for binary classification of pronunciation errors in Kichwa words. Finally, this study admits constraints such as the quantity of the dataset for mispronounced words and regional pronunciation variances. It is proposed that future studies include increasing the dataset, integrating phonetic variants, and investigating other speech-related activities. This study is a significant step toward using technology to help preserve and learn Ecuadorian Kichwa, so helping to the protection of this valuable cultural asset.
URI: http://repositorio.yachaytech.edu.ec/handle/123456789/852
Appears in Collections:Tecnologías de la Información

Files in This Item:
There are no files associated with this item.


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.