Please use this identifier to cite or link to this item: http://repositorio.yachaytech.edu.ec/handle/123456789/633
Title: Data analysis using Sparse PCA
Authors: Amaro Martín, Isidro Rafael
Narea Navarrete, Fausto Alejandro
Keywords: Big data
Análisis multivariante
Sparse PCA
Shrinkage methods
Multivariate analysis
Issue Date: Jul-2023
Publisher: Universidad de Investigación de Tecnología Experimental Yachay
Abstract: En el campo de la investigación y la ciencia, los datos de estudio cada vez son más grandes, lo que conlleva a una difícil gestión de estos, es aquí donde surgen muchas técnicas de Análisis Multivariante que nos permiten gestionar estas bases de datos mediante la reducción de dimensión de estas. El método de reducción utilizado en este trabajo se denomina Análisis de Componentes Principales Sparse, el cual se encarga de obtener componentes principales cuya matriz de carga está mayoritariamente conformada por ceros, facilitando su interpretación. Se aplicaron algunos algoritmos de este método a una base de datos de Pruebas Clínicas COVID-19 de la cual se obtuvo que, de las 7 variables, 4 de ellas eran las más importantes ya que con ellas se alcanzaba alrededor del 91% de la varianza explicada. Finalmente, estos algoritmos fueron más efectivos que un PCA clásico ya que, debido a la forma de su matriz de carga, son más fáciles de interpretar. Además, estos no presentan dificultades a la hora de trabajar con outliers y, finalmente, presentan un bajo coste computacional.
Description: In the field of research and science, the study data is getting larger, which leads to difficult management of these, it is here where many Multivariate Analysis techniques arise that allow us to manage these databases by reducing of dimension of these. The reduction method used in this work is called Sparse Principal Component Analysis, which is responsible for obtaining principal components whose loadings matrix is mostly made up of zeros, facilitating its interpretation. Some algorithms of this method were applied to a Clinical test COVID-19 database from which it was obtained that of the 7 variables, 4 of them were the most important since with them around 91% of the explained variance was reached. Finally, these algorithms were more effective than classic PCA since, due to the structure of their loadings matrix, they are easier to interpret. In addition, they do not present difficulties when working with outliers and, finally, they present a low computational cost.
URI: http://repositorio.yachaytech.edu.ec/handle/123456789/633
Appears in Collections:Matemática

Files in This Item:
File Description SizeFormat 
ECMC0128.pdf754.05 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.