Computer-assisted mispronunciation detection system for L2 kichwa speech

Velasco Silva, Ricardo Isaías

Please use this identifier to cite or link to this item: http://repositorio.yachaytech.edu.ec/handle/123456789/727

Title:	Computer-assisted mispronunciation detection system for L2 kichwa speech
Authors:	Fonseca Delgado, Rigoberto Salomón Morales Navarrete, Diego Fabián Velasco Silva, Ricardo Isaías
Keywords:	Redes neuronales convolucionales Modelo basado en características Ajuste de hiperparámetros Convolutional neural networks Features-based model Hyperparameter tuning
Issue Date:	Mar-2024
Publisher:	Universidad de Investigación de Tecnología Experimental Yachay
Abstract:	Se ha realizado una evaluación inicial y experimental de un sistema de detección de errores de pronunciación para la lengua kichwa. Se empleó arquitecturas de redes neuronales convolucionales preentrenadas para clasificar espectrogramas de palabras pronunciadas con exactitud y palabras pronunciadas con inexactitud. El modelo inicial, conocido como un modelo basado en características de redes convolucionales, extrae características de las capas totalmente conectadas. A continuación, emplea una técnica de selección de características para separar las características discriminativas de las no discriminativas. Por último, estas características se clasifican mediante un clasificador KNN. El segundo modelo, basado en el aprendizaje por transferencia con redes neuronales convolucionales (CNN), utiliza el conocimiento de las capas convolucionales y adapta la capa clasificadora para la clasificación binaria, distinguiendo entre audios bien pronunciados y mal pronunciados. En cuanto al conjunto de datos utilizado, se construyeron dos conjuntos de datos que se utilizaron en este estudio: un conjunto de datos con palabras en Kichwa y palabras sintéticas, y el mismo pero con palabras sintéticas para el entrenamiento. En conclusión, el método basado en el aprendizaje por transferencia es superior al método basado en características en ambos conjuntos de datos. Concretamente, AlexNet con ajuste de hiperparámetros alcanza 0,90 y 0,92 en la métrica de valor predictivo equilibrado en ambos conjuntos de datos, respectivamente.
Description:	An initial and experimental evaluation of a mispronunciation detection system was developed for the Kichwa language. The study implemented pretrained convolutional neural network architectures to classify spectrograms of accurately pronounced and inaccurately pronounced words. The initial model, known as the CNN feature-based model, extracts features from the fully connected layers. It then employs a feature selection technique to separate discriminative features from non-discriminative ones. Finally, these features are classified using a KNN classifier. The second model, which is based on transfer learning with convolutional neural networks (CNNs), uses the knowledge from convolutional layers and adapts the classifier layer for binary classification, distinguishing between well-pronounced and mispronounced audios. When referring to the used dataset, two datasets were constructed and used in this study: a dataset with Kichwa words and synthetic words, and the same but with synthetic words for training. In conclusion, the CNN transfer learning-based method is superior to the CNN feature-based method in both datasets. Concretely, AlexNet with hyperparameter tuning achieves 0.90 and 0.92 in the balanced predictive value metric in both datasets, respectively.
URI:	http://repositorio.yachaytech.edu.ec/handle/123456789/727
Appears in Collections:	Tecnologías de la Información

Files in This Item:

File	Description	Size	Format
ECMC0147.pdf		7.91 MB	Adobe PDF	View/Open

Show full item record