Please use this identifier to cite or link to this item:
http://repositorio.yachaytech.edu.ec/handle/123456789/872
Title: | End-to-end sign language translation with stochastic and natural language processing transformers (BERT) |
Authors: | Morocho Cayamcela, Manuel Eugenio Quelal Flores, Andrés Fabricio |
Keywords: | Traducción de lenguaje de señas Reconocimiento de lenguaje de señas Transformador de visión Sign language translation Sign language recognition Vision transformer |
Issue Date: | Nov-2024 |
Publisher: | Universidad de Investigación de Tecnología Experimental Yachay |
Abstract: | Las personas sordas y con dificultades auditivas utilizan el lenguaje de señas para comunicarse a través de expresiones faciales, gestos y señales visuales, los cuales son esenciales para superar las barreras de comunicación y participar plenamente en la sociedad. Al hablar de la comunicación en lenguaje de señas, nos referimos a un canal de comunicación visual compuesto por gestos de las manos y expresiones faciales, con sus propias reglas de pronunciación, orden de palabras y estructura de oraciones. Con los recientes avances en visión por computadora y aprendizaje profundo, los sistemas de reconocimiento y traducción de lenguaje de señas implementan redes neuronales convolucionales (CNN), traducción automática neuronal (NMT) o transformadores de visión (ViT) como arquitecturas para la detección y clasificación. Debido a las potentes aplicaciones de los ViT, este trabajo propone el uso de una arquitectura de transformador para realizar tareas de reconocimiento y traducción en la traducción continua de lenguaje de señas (CSLT). Incorporamos un módulo de representaciones bidireccionales de codificador de transformadores (BERT) pre-entrenado como codificador y añadimos una función de activación novedosa llamada ganadores locales toman todo (LWTA) en el módulo decodificador. El modelo se entrenó con el conjunto de datos RWTH-PHOENIX-Weather 2014 T, se evaluó utilizando protocolos de señas-a-texto (S2T) y se analizó con las métricas BLEU. La evaluación con la métrica BLEU-4 arrojo un valor de 23.83, superando en un promedio de 2.1 puntos a los modelos de referencia ejecutados y comparados en este trabajo. |
Description: | Deaf and hard-of-hearing individuals use sign language to communicate through facial ex- pressions, gestures, and visual signals, which are essential for overcoming communication barriers and participating fully in society. When we discuss sign language communica- tion, we refer to a visual communication channel composed of hand gestures and facial expressions, with its own rules for pronunciation, word order, and sentence structure. With recent advances in computer vision and deep learning, sign language recogni- tion and translation systems implement convolutional neural networks (CNNs), neural machine translation (NMT), or vision transformers (ViTs) as architectures for detection and classification. Due to the powerful applications of ViTs, this work proposes using a transformer architecture to perform recognition and translation tasks for continuous sign language translation (CSLT). We incorporate a bidirectional encoder representations from transformers (BERT) module pre-trained as an encoder and add a novel activation function called local winner-takes-all (LWTA) in the decoder module. The model is trained on the RWTH-PHOENIX-Weather 2014 T dataset, evaluated using sign-to-text (S2T) protocols, and assessed with BLEU metrics. The BLEU-4 metric evaluation reports a value of 23.83, exceeding the baseline models tested and compared in this work by an average of 2.1 points. |
URI: | http://repositorio.yachaytech.edu.ec/handle/123456789/872 |
Appears in Collections: | Tecnologías de la Información |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
ECMC0165.pdf | 3.3 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.