Deployment of machine learning services via microservices architecture
Loading...
Files
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Universidad de Investigación de Tecnología Experimental Yachay
Abstract
Este trabajo presenta el diseño e implementación de arquitecturas basadas en microservicios para el despliegue de modelos de aprendizaje automático utilizando Kubernetes. Se desarrollaron dos arquitecturas diferentes: una orientada a la clasificación de imágenes mediante redes neuronales convolucionales (CNN), y otra centrada en un sistema de recomendación musical utilizando un modelo de lenguaje grande (LLM). Cada arquitectura se compone de microservicios especializados, orquestados mediante servicios REST y desplegados en contenedores Docker gestionados por Kubernetes. Se realizaron pruebas de rendimiento comparando estas arquitecturas contra una implementación monolítica, evaluando métricas como latencia, escalabilidad y tolerancia a fallos. Los resultados mostraron que las arquitecturas basadas en microservicios, especialmente la versión optimizada, presentaron mejoras significativas en escalabilidad y capacidad de actualización, aunque con un ligero aumento en latencia. Se implementaron tres estrategias de actualización (Rolling Update, Blue-Green y Recreate) para evaluar la continuidad operativa. Este estudio demuestra que el uso de microservicios ofrece ventajas reales para el despliegue flexible, escalable y mantenible de modelos de aprendizaje automático en entornos productivos.
Description
This work presents the design and implementation of microservices-based architectures for deploying machine learning models using Kubernetes. Two distinct architectures were developed: one focused on image classification using Convolutional Neural Networks (CNNs), and the other on a music recommendation system powered by a Large Language Model (LLM). Each architecture consists of specialized microservices, orchestrated via REST services and deployed as Docker containers managed by Kubernetes. Performance tests were conducted comparing these architectures against a monolithic implementation, evaluating metrics such as latency, scalability, and fault tolerance. The results showed that microservices-based architectures—especially the optimized version—achieved significant improvements in scalability and upgradeability, with a slight increase in latency. Three deployment strategies (Rolling Update, Blue-Green, and Recreate) were implemented to assess operational continuity. This study demonstrates that adopting microservices offers tangible benefits for flexible, scalable, and maintainable deployment of machine learning models in production environments.