Please use this identifier to cite or link to this item:
http://repositorio.yachaytech.edu.ec/handle/123456789/954
Title: | Hate speech detection in social media apps using deep learning and machine learning techniques |
Authors: | Cuenca Pauta, Erick Eduardo Paredes Benavides, Jimmy Gerardo |
Keywords: | Procesamiento de lenguaje natural Aprendizaje automático Aprendizaje profundo Natural language processing Machine learning Deep learning |
Issue Date: | May-2025 |
Publisher: | Universidad de Investigación de Tecnología Experimental Yachay |
Abstract: | Este trabajo presenta un modelo capaz de detectar si un tweet contiene discursos de odio o no, usando como datos primarios tweets recolectados de la plataforma X en el contexto de la Reforma Constitucional del Plebiscito de Chile de 2023. Se utilizaron enfoques de aprendizaje automático y aprendizaje profundo para procesar los datos de texto. Dado que el conjunto de datos usado presenta un desbalance en sus clases, se realizó un análisis sobre el uso de aumentación de datos y reducción de datos para encontrar cuál de estas técnicas funciona mejor en este conjunto de datos. Se concluyó que la técnica de aumento de datos fué útil en este trabajo debido al bajo número de ejemplos en el dataset para una de sus clases, pero la reducción de datos no presentó buenos resultados ya que el número de muestras en el conjunto de datos no es demasiado, haciendo que la técnica de reducción de datos no sea adecuada para este conjunto de datos. De los cuatro modelos utilizados Decision Tree Classifier, Logistic Regression y 1-dimensional Convolutional Neural Network (1D-CNN), el modelo que mejor desempeño obtuvo en todos los experimentos realizados fue el modelo 1D-CNN. Además, el experimento que mejor desempeño obtuvo fué el que utilizó aumento de datos y no utilizó reducción de datos. El mejor puntaje obtenido en la métrica de exactitud (accuracy) para esta combinación fué del 84%. |
Description: | This work presents a model able to detect if a tweet contains hate speech or not, using as primary data tweets collected from the X platform in the context of the 2023 Chilean Plebiscite Constitutional Reform. Machine learning and deep learning approaches were used to obtain the best model and Natural Language Processing techniques to process the text data. Since the dataset used presents an imbalance in its classes, an analysis of the use of data augmentation and data reduction was performed to find out which of those techniques performs better in this dataset. It was concluded that the data augmentation technique was useful in this work because of the low number of samples on the dataset for one of its classes, but the data reduction did not present good results since the number of samples on the dataset is not too much making the data reduction technique not suitable for this dataset. From the four models used K-Nearest Neighbors, Decision Tree Classifier, Logistic Regression, and 1-dimensional Convolutional Neural Network (1D-CNN), the model that outperformed in all the experiments carried out was the 1D-CNN model. Also, the experiment that performs better is the use of data augmentation and not using data reduction. The best score obtained inthe accuracy metric for this combination was 84%. |
URI: | http://repositorio.yachaytech.edu.ec/handle/123456789/954 |
Appears in Collections: | Tecnologías de la Información |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Resumen_Thesis_ParedesJimmy.docx | 7.79 kB | Microsoft Word XML | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.