Por favor, use este identificador para citar o enlazar este ítem: http://repositorio.yachaytech.edu.ec/handle/123456789/531
Título : Image captioning based on a visual attention approach
Autor : Morocho Cayamcela, Manuel Eugenio
Castro Izurieta, Roberto Raúl
Palabras clave : Subtitulación de imágenes
Atención visual
Visión por computadora
Aprendizaje supervisado
Inteligencia artificial
Fecha de publicación : jun-2022
Editorial : Universidad de Investigación de Tecnología Experimental Yachay
Resumen : Este trabajo se centra en atención visual, un enfoque de vanguardia para las tareas de subtitulación de imágenes dentro del área de visión por ordenador. Estudiamos el impacto, en términos de eficiencia, que generan diferentes configuraciones de hiperparámetros en una arquitectura de atención visual codificadora-decodificadora. Los resultados muestran que la correcta selección tanto de la función de coste como del optimizador basado en el gradiente puede tener un impacto significativo en los resultados del subtitulado. Nuestro sistema considera las funciones de pérdida de entropía cruzada, divergencia de Kullback-Leibler, error medio al cuadrado y log-verosimilitud negativa, as ́ı como los optimizadores de momento adaptativo (Adam), AdamW, RMSprop, descenso de gradiente estocástico y Adadelta. Tras la experimentación, se identifica una combinación de entropía cruzada con Adam como la mejor alternativa que devuelve un valor de precisión Top-5 de 73,092, y un BLEU-4 de 20,10. Además, se realizó un análisis comparativo de arquitecturas convolucionales alternativas para demostrar su rendimiento como codificador. Nuestros resultados muestran que ResNext-101 destaca con una precisión Top-5 de 73,128, y un BLEU-4 de 19,80; posicionándose como la mejor opción cuando se busca la calidad óptima de subtitulado. Sin embargo, MobileNetV3 demostró ser una alternativa mucho m ́as compacta con 2.971.952 parámetros y 0,23 giga de operaciones de multiplicación-acumulación de punto fijo por segundo (GMAC). En consecuencia, MobileNetV3 ofrece una calidad de salida competitiva a costa de un menor rendimiento computacional, respaldado por los valores de 19,50 y 72,928 para el BLEU-4 y el Top-5 Accuracy, respectivamente. Por último, al probar los modelos transformadores de visión (ViT), y transformador de imagen con eficiencia de datos (DeiT) para sustituir el componente convolucional de la arquitectura, DeiT logró una mejora sobre ViT, obteniendo un valor de 34,44 en la métrica BLEU-4.
Descripción : This thesis focuses on visual attention, a state-of-the-art approach for image captioning tasks within the computer vision research area. We study the impact, in terms of efficiency, that different hyperparemeter configurations generate on an encoder-decoder visual attention architecture. Results show that the correct selection of both the cost function and the gradient-based optimizer can have a significant impact in the captioning results. Our system considers the cross-entropy, Kullback-Leibler divergence, mean squared error, and negative log-likelihood loss functions, as well as the adaptive momentum (Adam), AdamW, RMSprop, stochastic gradient descent, and Adadelta optimizers. After experimentation, a combination of cross-entropy with Adam is identified as the best alternative returning a Top-5 accuracy value of 73.092, and a BLEU-4 of 20.10. Further, a comparative analysis of alternative convolutional architectures was conducted to demonstrate their performance as an encoder. Our results show that ResNext-101 stands out with a Top-5 Accuracy of 73.128, and a BLEU-4 of 19.80; positioning itself as the best option when looking for the optimum captioning quality. However, MobileNetV3 proved to be a much more compact alternative with 2,971,952 parameters and 0.23 giga fixed-point multiply- accumulate operations per second (GMACs). Consequently, MobileNetV3 offers a competitive output quality at the cost of lower computational performance, supported by values of 19.50 and 72.928 for the BLEU-4 and Top-5 Accuracy, respectively. Finally, when testing vision transformer (ViT), and data-efficient image transformer (DeiT) models to replace the convolutional component of the architecture, DeiT achieved an improvement over ViT, obtaining a value of 34.44 in the BLEU-4 metric.
URI : http://repositorio.yachaytech.edu.ec/handle/123456789/531
Aparece en las colecciones: Tecnologías de la Información

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
ECMC0103.pdf7.51 MBAdobe PDFVisualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.