Please use this identifier to cite or link to this item:
http://repositorio.yachaytech.edu.ec/handle/123456789/427
Title: | Big Data Analysis using CUR Algorithm |
Authors: | Amaro Martín, Isidro Rafael Enríquez Pinto, Marco Andrés |
Keywords: | CUR Algorithm Principal Components Analysis COVID-19 Electroencephalography Algoritmo CUR Análisis de componentes principales COVID19 Electroencefalografía |
Issue Date: | Dec-2021 |
Publisher: | Universidad de Investigación de Tecnología Experimental Yachay |
Abstract: | In this thesis, we present the results of two well known analyses, Principal Component Analysis (PCA) and CUR algorithm, conducted on two data sets: one related to clinical test such as COVID-19 test and the other related to electroencephalography (EEG). In some cases, PCA and other dimensionality reduction methods based on the truncation of the Singular Value Decomposition (SVD), could have a problem with the interpretation of their results. It happens because PCA creates new variables that are linear combination of the original variables and, in applications, these not necessarily have a physical interpretation. For that reason we used the CUR Algorithm and applied it to our selected data sets to show that it is easier to interpret the reduced matrix it returns. We also developed the mathematics behind PCA and the CUR Algorithm. For example, we have proven that the CUR Matrix Decomposition (from which the CUR Algorithm is based) exists only using linear algebra. Also we proved that the CUR Matrix Decomposition is as good approximation as the truncation of the SVD. Since the data sets we used are of different dimension, it was useful to see the behavior of the CUR Algorithm when it works with small an large data matrices. For the clinical tests (COVID-19) data set we analyzed the effectiveness of CUR Algorithm over PCA and found out that, for this data matrix, CUR Algorithm is more effective than PCA whenever the control parameters of the CUR algorithm c and k are equal. Furthermore, the results of CUR algorithm suggest that the laboratory tests D-dimer, ferritin and CRP are the most important variables. For the EEG data set, we concluded that the CUR Algorithm is more effective for this data matrix if its input parameters hold: c = 8 and k ≤ 57, c = 16 and k ≤ 50, c = 24 and k ≤ 43, c = 32 and k ≤ 36, c = 40 and k ≤ 29, c = 48 and k ≤ 22, c = 56 and k ≤ 15, c = 64 and k ≤ 8. |
Description: | En esta tesis, presentamos los resultados the dos análisis bien conocidos como son el Análisis de Componentes Principales (ACP) y el Algorithmo CUR, en dos conjuntos de datos: uno relacionado con pruebas clinicas tal como las pruebas del COVID-19 y el otro esta relacionado con la electroencefalografía (EEG). En algunos casos, ACP y otros métodos de reducción de dimensión basados en la truncación de la Descomposición en Valores Singulares (DCS), pueden tener ciertos problemas con la interpretación de sus resultados. Esto sucede porque ACP crea nuevas variables que son combinaciones lineales tha las variables originales y, en aplicaciones, estas no tienen un significado físico necesariamente. Por esta razón, nosotros usamos el Algoritmo CUR y lo aplicamos a nuestros conjuntos de datos selectos para mostrar que es más facil de interpretar la matriz reducida que nos retorna. También desarrolamos la matemática detrás ACP y el Algoritmo CUR. Por ejemplo, hemos demostrado que la Descomposición Matricial CUR (de la cual el Algoritmo CUR está basado) existe solo usando algebra lineal. Además, demostramos que la Descomposición Matricial CUR es una aproximación tan buena como la truncació de la DVS. Como los conjuntos de datos que usamos tienen diferente dimensión, esto fue útil para ver el comportamiento de el Algoritmo CUR cuando trabaja con pequeñas y grandes matrices. Para el conjunto de datos de pruebas clínicas (COVID-19) analizamos la efectividad de el Algoritmo CUR frente a ACP y descubrimos que, para esta matriz, el Algoritmo CUR resulta mas efectivo que el ACP cuando los parametros de control de el Algoritmo CUR c y k son iguales. Adem´asm los resultados de el Algoritmo CUR sugieren que las pruebas de laboratorio Dimero D, Ferritina y PCR son las variables más importantes. Para el conjunto de datos EEG, concluimos que el Algoritmo CUR es más efectivo para esta matriz de datos si sus parametros de entrada cumple lo siquiente: c = 8 y k ≤ 57, c = 16 y k ≤ 50, c = 24 y k ≤ 43, c = 32 y k ≤ 36, c = 40 y k ≤ 29, c = 48 y k ≤ 22, c = 56 y k ≤ 15, c = 64 y k ≤ 8. |
URI: | http://repositorio.yachaytech.edu.ec/handle/123456789/427 |
Appears in Collections: | Matemática |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
ECMC0075.pdf | 1.12 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.