Please use this identifier to cite or link to this item:
http://repositorio.yachaytech.edu.ec/handle/123456789/744
Title: | Human actions recognition system based on neural networks |
Authors: | Fonseca Delgado, Rigoberto Salomón Brito Medina, Juan Diego |
Keywords: | Neural networks Gated Recurrent Unit (GRU) Long Short-Term Memory (LSTM) |
Issue Date: | Apr-2024 |
Publisher: | Universidad de Investigación de Tecnología Experimental Yachay |
Abstract: | La clasificación de actividades humanas en videos es un área de estudio relevante debido a sus aplicaciones en la vida real, como vigilancia, seguridad, asistencia sanitaria, interacción hombre-máquina y monitoreo. Esta investigación compara dos enfoques, el simple y el híbrido, en la clasificación de actividades utilizando dos conjuntos de datos. El primer conjunto incluye tres clases: yoga, ejercicio y baile; el segundo es una muestra del conjunto Kinetics-700, con cinco actividades, cuatro violentas. Ambos conjuntos presentan baja variabilidad entre clases y alta variabilidad dentro de las clases. Para reducir costos computacionales, se emplea un modelo de CNN preentrenado y técnicas simples para la reducción de recursos computacionales. El enfoque híbrido utiliza un modelo adicional con tres variantes: GRU, LSTM o BiLSTM. A pesar de que todos los modelos presentaron resultados similares, el enfoque simple, empleando una arquitectura preentrenada y un top-head reconstruido, demostró ser el más efectivo al alcanzar una precisión del 94%, mientras que el enfoque híbrido que utilizó capas LSTM obtuvo un 90%. La principal limitación es la cantidad de memoria requerida por estos modelos debido al tamaño de los archivos de video. La exploración de técnicas más avanzadas para reducir el uso de recursos computacionales podría permitir la implementación de estos modelos en entornos del mundo real. Además, el modelo demostró una clasificación efectiva de actividades violentas, lo que podría servir como base para el desarrollo de un sistema de vigilancia y seguridad. |
Description: | The classification of human activities in videos is a relevant area of study due to its real-life applications, such as surveillance, security, healthcare, human-machine interaction, and monitoring. This research compares two approaches, the simple and the hybrid, in classifying activities using two data sets. The first set includes three classes: yoga, exercise, and dance; the second is a sample from the Kinetics-700 set, with five activities, four of which are violent. Both sets present low variability between classes and high variability within classes. To reduce computational costs, a pre-trained CNN model and simple techniques for reducing computational resources are used. The hybrid approach uses an additional model with three variants: GRU, LSTM, or BiLSTM. Even though all the models presented similar results, the simple approach, using a pre-trained architecture and a reconstructed top-head, proved to be the most effective, reaching an accuracy of 94\%, while the hybrid approach using LSTM layers obtained 90\%. The main limitation is the amount of memory required by these models due to the size of the video files. Exploring more advanced techniques to reduce the use of computational resources could allow the implementation of these models in real world environments. In addition, the model demonstrated an adequate classification of violent activities, which could serve as a basis for developing a surveillance and security system. |
URI: | http://repositorio.yachaytech.edu.ec/handle/123456789/744 |
Appears in Collections: | Tecnologías de la Información |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
ECMC0152.pdf | 12.32 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.