Please use this identifier to cite or link to this item: http://www.monografias.ufop.br/handle/35400000/3015
Title: Learning orchestra : building machine learning workflows on scalable containers.
Authors: Ribeiro, Gabriel de Oliveira
metadata.dc.contributor.advisor: Lima, Joubert de Castro
Moraes, Lauro Ângelo Gonçalves de
metadata.dc.contributor.referee: Lima, Joubert de Castro
Moraes, Lauro Ângelo Gonçalves de
Stiilpen Júnior, Milton
Faria, Felipe Lopes de Melo
Keywords: Aprendizado de máquina
Mineração de dados
Sistemas distribuídos
Computação em nuvem
Contêinerização
Issue Date: 2021
Citation: RIBEIRO, Gabriel de Oliveira. Learning orchestra: building machine learning workflows on scalable containers. 2021. 95 f. Monografia (Graduação em Ciência da Computação) - Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto, Ouro Preto, 2021.
Abstract: Esforços interessantes foram realizados nas últimas duas décadas para construir ferramentas que facilitam e agilizam o desenvolvimento de workflows de Machine Learning (ML) compostos de vários pipelines. De scripts Unix à componentes de ML desenhados para Web e soluções para automatizar e orquestrar etapas de ML e Data Mining (DM), nós tentamos muitos serviços de alto nível para o processo iterativo do cientista de dados. De outro lado, nós temos os serviços de baixo nível sendo investigados com os mesmos proprósitos, como ambientes em nuvem, orquestração de contêineres, tolerância a falhas, etc. Normalmente, scripts são produzidos para simplificar as operações dos serviços de baixo nível. Infelizmente, nenhuma solução existente coloca ambos os serviços - alto e baixo níveis - na mesma instalação. Além disso, nenhum deles possibilita a utilização de diferentes ferramenta durante a construção de um único workflow. Tais soluções não são, portanto, flexíveis o suficientes para permitir uma ferramenta, como o Scikit-Learn, construir um pipeline, e outras ferramentas de ML, como TensorFlow ou Spark MLlib, construírem outros pipelines. Uma Application Programming Interface (API) Representational State Transfer (REST) interoperável é muito útil para expor esses serviços, mas apenas algumas alternativas atendem esse requisito. Para suprir tais limitações, nós apresentamos um sistema open source denominado Learning Orchestra, uma solução para construir workflows complexos usando diferentes ferramentas de ML de forma transparente. Com uma única e interoperável API é possível construir fluxos analíticos que podem ser instalados em ambientes com contêineres em nuvens computacionais capazes de escalar e tolerar falhas. Experimentos demonstraram que nosso sistema é uma alternativa promissora e inovadora para o problema de simplificar e agilizar o processo iterativo de ML.
metadata.dc.description.abstracten: Interesting efforts were done to construct tools to facilitate and streamline the development of Machine Learning (ML) workflows composed of several pipelines in the last two decades. From Unix scripts to Web based ML components and solutions to automate and orchestrate ML and Data Mining (DM) pipes, we have tried many high level services for the data scientist iterative process. On the other hand, we have the low level services being investigated, like cloud environments, container orchestration, fault tolerance service and so forth. Normally, scripts are produced to simplify such low level services operations. Unfortunately, no existing solution put both low and high level services on a unique service stack. Furthermore, none of them enables the utilization of different existing tools during the construction of a single workflow, i.e., they are not flexible enough to permit a tool, like Scikit-learn, to build one pipeline and other ML tools, such as Spark MLlib or TensorFlow, to build other pipes. A Representational State Transfer (REST) interoperable Application Programming Interface (API) is very useful to expose these tools services, but few existing alternatives attend this requirement. To address these limitations, we present the open source Learning Orchestra system, a solution to construct complex workflows using different ML tools or players transparently, i.e., from a single interoperable API we can build interesting analytical flows. The workflows can be deployed on a containerized cloud environment capable to scale and be resilient. Experiments demonstrated that our system is a promising and innovative alternative for the problem of simplify and streamline the ML iterative process.
URI: http://www.monografias.ufop.br/handle/35400000/3015
Appears in Collections:Ciência da Computação

Files in This Item:
File Description SizeFormat 
MONOGRAFIA_LearningOrchestraBuilding.pdf1,14 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons