Image captioning based on a visual attention approach

Castro Izurieta, Roberto Raúl

Please use this identifier to cite or link to this item: http://repositorio.yachaytech.edu.ec/handle/123456789/531

Title:	Image captioning based on a visual attention approach
Authors:	Morocho Cayamcela, Manuel Eugenio Castro Izurieta, Roberto Raúl
Keywords:	Subtitulación de imágenes Atención visual Visión por computadora Aprendizaje supervisado Inteligencia artificial
Issue Date:	Jun-2022
Publisher:	Universidad de Investigación de Tecnología Experimental Yachay
Abstract:	Este trabajo se centra en atención visual, un enfoque de vanguardia para las tareas de subtitulación de imágenes dentro del área de visión por ordenador. Estudiamos el impacto, en términos de eficiencia, que generan diferentes configuraciones de hiperparámetros en una arquitectura de atención visual codificadora-decodificadora. Los resultados muestran que la correcta selección tanto de la función de coste como del optimizador basado en el gradiente puede tener un impacto significativo en los resultados del subtitulado. Nuestro sistema considera las funciones de pérdida de entropía cruzada, divergencia de Kullback-Leibler, error medio al cuadrado y log-verosimilitud negativa, as ́ı como los optimizadores de momento adaptativo (Adam), AdamW, RMSprop, descenso de gradiente estocástico y Adadelta. Tras la experimentación, se identifica una combinación de entropía cruzada con Adam como la mejor alternativa que devuelve un valor de precisión Top-5 de 73,092, y un BLEU-4 de 20,10. Además, se realizó un análisis comparativo de arquitecturas convolucionales alternativas para demostrar su rendimiento como codificador. Nuestros resultados muestran que ResNext-101 destaca con una precisión Top-5 de 73,128, y un BLEU-4 de 19,80; posicionándose como la mejor opción cuando se busca la calidad óptima de subtitulado. Sin embargo, MobileNetV3 demostró ser una alternativa mucho m ́as compacta con 2.971.952 parámetros y 0,23 giga de operaciones de multiplicación-acumulación de punto fijo por segundo (GMAC). En consecuencia, MobileNetV3 ofrece una calidad de salida competitiva a costa de un menor rendimiento computacional, respaldado por los valores de 19,50 y 72,928 para el BLEU-4 y el Top-5 Accuracy, respectivamente. Por último, al probar los modelos transformadores de visión (ViT), y transformador de imagen con eficiencia de datos (DeiT) para sustituir el componente convolucional de la arquitectura, DeiT logró una mejora sobre ViT, obteniendo un valor de 34,44 en la métrica BLEU-4.
Description:	This thesis focuses on visual attention, a state-of-the-art approach for image captioning tasks within the computer vision research area. We study the impact, in terms of efficiency, that different hyperparemeter configurations generate on an encoder-decoder visual attention architecture. Results show that the correct selection of both the cost function and the gradient-based optimizer can have a significant impact in the captioning results. Our system considers the cross-entropy, Kullback-Leibler divergence, mean squared error, and negative log-likelihood loss functions, as well as the adaptive momentum (Adam), AdamW, RMSprop, stochastic gradient descent, and Adadelta optimizers. After experimentation, a combination of cross-entropy with Adam is identified as the best alternative returning a Top-5 accuracy value of 73.092, and a BLEU-4 of 20.10. Further, a comparative analysis of alternative convolutional architectures was conducted to demonstrate their performance as an encoder. Our results show that ResNext-101 stands out with a Top-5 Accuracy of 73.128, and a BLEU-4 of 19.80; positioning itself as the best option when looking for the optimum captioning quality. However, MobileNetV3 proved to be a much more compact alternative with 2,971,952 parameters and 0.23 giga fixed-point multiply- accumulate operations per second (GMACs). Consequently, MobileNetV3 offers a competitive output quality at the cost of lower computational performance, supported by values of 19.50 and 72.928 for the BLEU-4 and Top-5 Accuracy, respectively. Finally, when testing vision transformer (ViT), and data-efficient image transformer (DeiT) models to replace the convolutional component of the architecture, DeiT achieved an improvement over ViT, obtaining a value of 34.44 in the BLEU-4 metric.
URI:	http://repositorio.yachaytech.edu.ec/handle/123456789/531
Appears in Collections:	Tecnologías de la Información

Files in This Item:

File	Description	Size	Format
ECMC0103.pdf		7.51 MB	Adobe PDF	View/Open

Show full item record