Please use this identifier to cite or link to this item:
https://hdl.handle.net/10316/92477
Title: | Development of an Orchestration Engine for the DS4NP Platform | Other Titles: | Development of an Orchestration Engine for the DS4NP Platform | Authors: | Oliveira, Ana Sofia da Silva Brito de | Orientador: | Araújo, Filipe João Boavida Mendonça Machado de Paiva, Rui Pedro Pinto de Carvalho e |
Keywords: | Orchestration; Microservices; Cloud Computing; Amazon Web Services; Machine Learning; Orquestração; Microsserviços; Computação na Nuvem; Amazon Web Services; Aprendizagem Computacional | Issue Date: | 23-Jul-2020 | metadata.degois.publication.title: | Development of an Orchestration Engine for the DS4NP Platform | metadata.degois.publication.location: | DEI-FCTUC | Abstract: | The demand for qualified people capable of extracting value from the ever-increasing volume of data is growing. More data scientists need to be trained, but training can be a time-consuming task due to the diversity of disciplines it involves. A more gradual learning curve can be achieved by abstracting programming languages from the scientists’ path. The ultimate goal of the Data Science for Non-Programmers project (DataScience4NP) is to implement data science practices rightfully without requiring programming skills, thus enabling non-programmers to be part of the data science workforce.The DataScience4NP is a platform focused on machine learning (ML) workflows and is available through a Web User Interface. It follows a microservices architecture with multiple Docker containerized services running ML algorithms orchestrated in a Kubernetes cluster. These technologies provide great flexibility in deploying and managing applications, either on-premises or on the cloud. Nevertheless, we still need an orchestration solution to manage the execution of workflows (a technology to orchestrate the ML tasks fed to the ML microservices). Netflix Conductor was the technology initially adopted for this purpose, but, because it cannot support workflows with hundreds of tasks (such as workflows involving cross-validation with repetitions), Conductor turned out to be an unsuitable solution.In this dissertation, we adopt a new approach to orchestrating ML workflows using Amazon Web Services (AWS) Step Functions with the final intention of executing more complex workflows. Está a crescer a procura por pessoas qualificadas que sejam capazes de extrair valor do grande volume de dados gerados atualmente. Existe a necessidade de treinar novos cientistas de dados, no entanto este pode ser um processo lento e dispendioso devido às várias áreas interdisciplinares que a Ciência de Dados envolve. O tempo de aprendizagem pode ser reduzido se abstrairmos os cientistas das linguagens de programação. O objetivo do projeto Data Science for Non-Programmers (DataScience4NP) é implementar práticas usadas em Data Science de forma correta, sem serem necessários conhecimentos de programação. A aplicação foca-se em workflows de Machine Learning e está disponível através de uma interface web. Segue uma arquitetura de microsserviços conteinerizados com Docker e orquestrados num cluster de Kubernetes. Estas tecnologias providenciam uma alto nível de flexibilidade na gestão e no deployment de aplicações naCloud. No entanto, era ainda necessária uma solução para gerenciar a execução dos workflows de Machine Learning e assim orquestrar as tarefas de ML nos microsserviços. O Netflix Conductor foi a tecnologia inicialmente adoptada para esse fim mas que acabou por se revelar numa solução inadequada devido às suas limitações para executar workflows com centenas de tarefas, como por exemplo workflows que envolvam validação cruzada com repetições.Nesta dissertação, é adoptada uma nova abordagem para a orquestração dos workflows de ML usando Amazon Web Services (AWS) Step Functions para que seja possível executar workflows mais complexos. |
Description: | Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia | URI: | https://hdl.handle.net/10316/92477 | Rights: | openAccess |
Appears in Collections: | UC - Dissertações de Mestrado |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Ana_Sofia_Oliveira.pdf | 9.56 MB | Adobe PDF | View/Open |
Page view(s)
182
checked on Oct 30, 2024
Download(s)
280
checked on Oct 30, 2024
Google ScholarTM
Check
This item is licensed under a Creative Commons License