Learning orchestra : building machine learning workflows on scalable containers.

Ribeiro, Gabriel de Oliveira

Use este identificador para citar ou linkar para este item: http://www.monografias.ufop.br/handle/35400000/3015

Título:	Learning orchestra : building machine learning workflows on scalable containers.
Autor(es):	Ribeiro, Gabriel de Oliveira
Orientador(es):	Lima, Joubert de Castro Moraes, Lauro Ângelo Gonçalves de
Membros da banca:	Lima, Joubert de Castro Moraes, Lauro Ângelo Gonçalves de Stiilpen Júnior, Milton Faria, Felipe Lopes de Melo
Palavras-chave:	Aprendizado de máquina Mineração de dados Sistemas distribuídos Computação em nuvem Contêinerização
Data do documento:	2021
Referência:	RIBEIRO, Gabriel de Oliveira. Learning orchestra: building machine learning workflows on scalable containers. 2021. 95 f. Monografia (Graduação em Ciência da Computação) - Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto, Ouro Preto, 2021.
Resumo:	Esforços interessantes foram realizados nas últimas duas décadas para construir ferramentas que facilitam e agilizam o desenvolvimento de workflows de Machine Learning (ML) compostos de vários pipelines. De scripts Unix à componentes de ML desenhados para Web e soluções para automatizar e orquestrar etapas de ML e Data Mining (DM), nós tentamos muitos serviços de alto nível para o processo iterativo do cientista de dados. De outro lado, nós temos os serviços de baixo nível sendo investigados com os mesmos proprósitos, como ambientes em nuvem, orquestração de contêineres, tolerância a falhas, etc. Normalmente, scripts são produzidos para simplificar as operações dos serviços de baixo nível. Infelizmente, nenhuma solução existente coloca ambos os serviços - alto e baixo níveis - na mesma instalação. Além disso, nenhum deles possibilita a utilização de diferentes ferramenta durante a construção de um único workflow. Tais soluções não são, portanto, flexíveis o suficientes para permitir uma ferramenta, como o Scikit-Learn, construir um pipeline, e outras ferramentas de ML, como TensorFlow ou Spark MLlib, construírem outros pipelines. Uma Application Programming Interface (API) Representational State Transfer (REST) interoperável é muito útil para expor esses serviços, mas apenas algumas alternativas atendem esse requisito. Para suprir tais limitações, nós apresentamos um sistema open source denominado Learning Orchestra, uma solução para construir workflows complexos usando diferentes ferramentas de ML de forma transparente. Com uma única e interoperável API é possível construir fluxos analíticos que podem ser instalados em ambientes com contêineres em nuvens computacionais capazes de escalar e tolerar falhas. Experimentos demonstraram que nosso sistema é uma alternativa promissora e inovadora para o problema de simplificar e agilizar o processo iterativo de ML.
Resumo em outra língua:	Interesting efforts were done to construct tools to facilitate and streamline the development of Machine Learning (ML) workflows composed of several pipelines in the last two decades. From Unix scripts to Web based ML components and solutions to automate and orchestrate ML and Data Mining (DM) pipes, we have tried many high level services for the data scientist iterative process. On the other hand, we have the low level services being investigated, like cloud environments, container orchestration, fault tolerance service and so forth. Normally, scripts are produced to simplify such low level services operations. Unfortunately, no existing solution put both low and high level services on a unique service stack. Furthermore, none of them enables the utilization of different existing tools during the construction of a single workflow, i.e., they are not flexible enough to permit a tool, like Scikit-learn, to build one pipeline and other ML tools, such as Spark MLlib or TensorFlow, to build other pipes. A Representational State Transfer (REST) interoperable Application Programming Interface (API) is very useful to expose these tools services, but few existing alternatives attend this requirement. To address these limitations, we present the open source Learning Orchestra system, a solution to construct complex workflows using different ML tools or players transparently, i.e., from a single interoperable API we can build interesting analytical flows. The workflows can be deployed on a containerized cloud environment capable to scale and be resilient. Experiments demonstrated that our system is a promising and innovative alternative for the problem of simplify and streamline the ML iterative process.
URI:	http://www.monografias.ufop.br/handle/35400000/3015
Aparece nas coleções:	Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
MONOGRAFIA_LearningOrchestraBuilding.pdf		1,14 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas

Este item está licenciado sob uma Licença Creative Commons