Please use this identifier to cite or link to this item:
http://repositorio.yachaytech.edu.ec/handle/123456789/307
Title: | A data marketplace system for prediction and statistical analysis over sensitive data |
Authors: | Cuenca Lucero, Fredy Enrique Serrano Palacio, Nicolás Enrique |
Keywords: | Mercado de datos Computación privada Encriptación homomórfica Libros descentralizados Aprendizaje de máquina Data marketplace Private computation Homomorphic encryption Decentralized ledgers Machine learning |
Issue Date: | Apr-2021 |
Publisher: | Universidad de Investigación de Tecnología Experimental Yachay |
Abstract: | Un mercado de datos es un sistema que permite una transacción entre aquellos que desean monetizar sus datos y aquellos interesados en conseguir información de los datos adquiridos. A cambio de un pago, es posible comprar datos de publicidad, demografía, salud pública, inteligencia de negocios y sensores en un mercado de datos. Lamentablemente, el paradigma dominante de los mercados de datos actuales sufre de filtración de datos: el que compra datos puede, en teoría, revender esos datos múltiples veces incluso ignorando un acuerdo de confidencialidad. Al igual que la propiedad intelectual confiere derechos exclusivos al autor, y por lo tanto previene que la invención sea comercializada sin su consentimiento, nosotros creemos que los dueños de los datos deberían tener propiedad exclusiva sobre los datos que colectan, limpian y almacenan. Hemos desarrollado un sistema de mercado de datos que preserva la privacidad de los mismos al permitir vender datos que pueden ser computados pero no descubiertos. Primero, un vendedor envía datos encriptados a un cliente, quien computa operaciones arbitrarias en datos encriptados como si fueran datos regulares. Gracias a la encriptación homomórfica, los resultados obtenidos del lado del comprador pueden ser desencriptados en el lado del vendedor en un segundo y definitivo intercambio de datos. Contamos con un prototipo funcional y lo hemos probado con dos diferentes ejemplos que nos permitieron verificar el uso del mismo en: un cálculo de valores agregados y un entrenamiento de un modelo de predicción basado en regresión logística con datos encriptados. La capacidad de prevenir filtración de datos podría cambiar el paradigma de la venta de datos. |
Description: | A data marketplace is a system that enable trading among those who expect to monetize their data and those interested in gaining insights from the acquired data. In exchange for a payment, it is possible to buy advertising, demographics, public health, business intelligence and sensor data from a data owner via a data marketplace. Unfortunately, the paradigm that drives current marketplaces suffers from data leakage: one who buys data can, in principle, resell the acquired data as many times as he wants, even despising non-disclosure agreements. Just as copyright ownership confers the author exclusive right to use his work, thus preventing others from commercializing it without the author’s consent, we strongly believe that data owners should also have exclusive right on the data they struggle to collect, clean and store. Not content with trusting in the good faith of the data buyers, we have developed a privacy-preserving data marketplace system, which allows to sell data that can be computed, though not unveiled. First, an owner provides encrypted data to a buyer, who can perform arbitrary operations on this encrypted data as if it were regular data. Thanks to homomorphic encryption, the encrypted results obtained in the buyer-side can then be decrypted in the owner-side, in a second and definitive data exchange. The implementation uses an homomorphic encryption scheme for arithmetic of approximate numbers; making it a non deterministic solution. The final results have a small noise bounded by a constant $B$ that depends on the used encryption parameters. Therefore, this work should be used for statistical and prediction analysis that would not require exact results. This research has built a functional data marketplace and tested it with two toy examples that allowed us to verify that data buyers can do both: calculate aggregate values and train a logistic regression-based prediction model from an encrypted data set. The capability for preventing data misappropriation might foster a paradigm shift in data trading. |
URI: | http://repositorio.yachaytech.edu.ec/handle/123456789/307 |
Appears in Collections: | Tecnologías de la Información |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
ECMC0050.pdf | 2.31 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.