Please use this identifier to cite or link to this item:
http://repositorio.yachaytech.edu.ec/handle/123456789/674
Title: | Illicit tweet detection using Transformers |
Authors: | Cuenca Pauta, Erick Eduardo Román Niemes, Stadyn Josué |
Keywords: | Redes neuronales artificiales Procesamiento del lenguaje natural Artificial neural networks Natural language processing |
Issue Date: | Nov-2023 |
Publisher: | Universidad de Investigación de Tecnología Experimental Yachay |
Abstract: | Twitter es una red social muy amplia que permite a las personas comunicarse entre sí y expresar sus ideas gracias a su enfoque corto y rápido en las publicaciones. Desafortunadamente, no está exenta de asuntos ilícitos que ocurren en la plataforma. Un problema que surge en las redes sociales en general es cómo se utilizan para promover y difundir servicios ilegales, como la trata de personas, la prostitución, las drogas ilegales, entre otros, gracias al alcance de esas plataformas. Por lo tanto, es importante identificar esta clase de mensajes para detectar actividades ilegales y actuar al respecto. En este trabajo, se presenta y desarrolla un marco para dicha detección utilizando 4 modelos basados en Transformers, la arquitectura más potente actualmente para trabajar en procesamiento del lenguaje natural. Para alimentar y entrenar a los modelos, se seleccionó y etiquetó un dataset de tweets para identificar cuáles contienen ofertas o contenido ilícito en su texto. Dos modelos no basados en Transformers también fueron usados para propósitos de comparación. Los experimentos mostraron que los modelos basados en Transformers son bastante buenos para adaptarse a las particularidades del idioma español y a la estructura que suelen tener los tweets, siendo los modelos BERTweet y DistilBERT los mejores. Además, se observó que los modelos basados en Transformers se pueden adaptar a datasets que no tengan un desbalance fuerte (para este trabajo, una proporción de casi 2:1) y no son afectados cuando se usan datos sintéticos. |
Description: | Twitter is a very broad social network, allowing people to communicate with each other and express their ideas, thanks to its short and quick approach to posting. Unfortunately, it is not exempt from illicit affairs occurring on the platform. One arising problem in social networks, in general, is how they are used to promote and spread illegal services, such as human trafficking, prostitution, illegal drugs, etc., thanks to those platforms' reach. Thus, it is important to identify those kinds of messages in order to detect illegal activities and act upon them. In this work, a framework for such detection is presented and developed using four Transformer models, the currently most powerful architecture to work in natural language processing. To feed and train the models, a dataset of Spanish tweets was curated and labeled to identify which tweets contained illicit offerings or content in their text. Two non-Transformer models were also used for comparison. The experiments showed that Transformer models are very good at adapting to the particularities of the Spanish language and the structure of tweets, with BERTweet and DistilBERT obtaining the highest results. Also, the Transformer models can adapt to not heavily imbalanced datasets (in this work, a proportion of near 2:1) and are not affected by the use of data augmentation. |
URI: | http://repositorio.yachaytech.edu.ec/handle/123456789/674 |
Appears in Collections: | Tecnologías de la Información |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
ECMC0137.pdf | 1.41 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.