Escalonamento adaptativo para o Apache Hadoop
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES === Many alternatives have been employed in order to process all the data generated by current applications in a timely manner. One of these alternatives, the Apache Hadoop, combines parallel and distributed processing with the Ma...
Main Author: | |
---|---|
Other Authors: | |
Language: | Portuguese |
Published: |
Universidade Federal de Santa Maria
2017
|
Subjects: | |
Online Access: | http://repositorio.ufsm.br/handle/1/12025 |
id |
ndltd-IBICT-oai-repositorio.ufsm.br-1-12025 |
---|---|
record_format |
oai_dc |
collection |
NDLTD |
language |
Portuguese |
sources |
NDLTD |
topic |
Apache Hadoop Escalonamento Sensibilidade ao contexto Scheduling Context-aware CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
spellingShingle |
Apache Hadoop Escalonamento Sensibilidade ao contexto Scheduling Context-aware CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Cassales, Guilherme Weigert Escalonamento adaptativo para o Apache Hadoop |
description |
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES === Many alternatives have been employed in order to process all the data generated by
current applications in a timely manner. One of these alternatives, the Apache Hadoop,
combines parallel and distributed processing with the MapReduce paradigm in order to
provide an environment that is able to process a huge data volume using a simple
programming model. However, Apache Hadoop has been designed for dedicated and
homogeneous clusters, a limitation that creates challenges for those who wish to use the
framework in other circumstances. Often, acquiring a dedicated cluster can be
impracticable due to the cost, and the acquisition of reposition parts can be a threat to
the homogeneity of a cluster. In these cases, an option commonly used by the
companies is the usage of idle computing resources in their network, however the
original distribution of Hadoop would show serious performance issues in these
conditions. Thus, this study was aimed to improve Hadoop’s capacity of adapting to
pervasive and shared environments, where the availability of resources will undergo
variations during the execution. Therefore, context-awareness techniques were used in
order to collect information about the available capacity in each worker node and
distributed communication techniques were used to update this information on
scheduler. The joint usage of both techniques aimed at minimizing and/or eliminating
the overload that would happen on shared nodes, resulting in an improvement of up to
50% on performance in a shared cluster, when compared to the original distribution, and
indicated that a simple solution can positively impact the scheduling, increasing the
variety of environments where the use of Hadoop is possible. === Diversas alternativas têm sido empregadas para o processamento, em tempo hábil, da
grande quantidade de dados que é gerada pelas aplicações atuais. Uma destas
alternativas, o Apache Hadoop, combina processamento paralelo e distribuído com o
paradigma MapReduce para fornecer um ambiente capaz de processar um grande
volume de informações através de um modelo de programação simplificada. No
entanto, o Apache Hadoop foi projetado para utilização em clusters dedicados e
homogêneos, uma limitação que gera desafios para aqueles que desejam utilizá-lo sob
outras circunstâncias. Muitas vezes um cluster dedicado pode ser inviável pelo custo de
aquisição e a homogeneidade pode ser ameaçada devido à dificuldade de adquirir peças
de reposição. Em muitos desses casos, uma opção encontrada pelas empresas é a
utilização dos recursos computacionais ociosos em sua rede, porém a distribuição
original do Hadoop apresentaria sérios problemas de desempenho nestas condições.
Sendo assim, este estudo propôs melhorar a capacidade do Hadoop em adaptar-se a
ambientes, pervasivos e compartilhados, onde a disponibilidade de recursos sofrerá
variações no decorrer da execução. Para tanto, utilizaram-se técnicas de sensibilidade ao
contexto para coletar informações sobre a capacidade disponível nos nós trabalhadores e
técnicas de comunicação distribuída para atualizar estas informações no escalonador. A
utilização conjunta dessas técnicas teve como objetivo a minimização e/ou eliminação
da sobrecarga que seria causada em nós com compartilhamento, resultando em uma
melhora de até 50% no desempenho em um cluster compartilhado, quando comparado
com a distribuição original, e indicou que uma solução simples pode impactar
positivamente o escalonamento, aumentando a variedade de ambientes onde a utilização
do Hadoop é possível. |
author2 |
Charão, Andrea Schwertner |
author_facet |
Charão, Andrea Schwertner Cassales, Guilherme Weigert |
author |
Cassales, Guilherme Weigert |
author_sort |
Cassales, Guilherme Weigert |
title |
Escalonamento adaptativo para o Apache Hadoop |
title_short |
Escalonamento adaptativo para o Apache Hadoop |
title_full |
Escalonamento adaptativo para o Apache Hadoop |
title_fullStr |
Escalonamento adaptativo para o Apache Hadoop |
title_full_unstemmed |
Escalonamento adaptativo para o Apache Hadoop |
title_sort |
escalonamento adaptativo para o apache hadoop |
publisher |
Universidade Federal de Santa Maria |
publishDate |
2017 |
url |
http://repositorio.ufsm.br/handle/1/12025 |
work_keys_str_mv |
AT cassalesguilhermeweigert escalonamentoadaptativoparaoapachehadoop AT cassalesguilhermeweigert adaptativeschedulingforapachehadoop |
_version_ |
1718644343338696704 |
spelling |
ndltd-IBICT-oai-repositorio.ufsm.br-1-120252018-05-23T17:15:47Z Escalonamento adaptativo para o Apache Hadoop Adaptative scheduling for Apache Hadoop Cassales, Guilherme Weigert Charão, Andrea Schwertner Stein, Benhur de Oliveira Senger, Hermes Apache Hadoop Escalonamento Sensibilidade ao contexto Scheduling Context-aware CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES Many alternatives have been employed in order to process all the data generated by current applications in a timely manner. One of these alternatives, the Apache Hadoop, combines parallel and distributed processing with the MapReduce paradigm in order to provide an environment that is able to process a huge data volume using a simple programming model. However, Apache Hadoop has been designed for dedicated and homogeneous clusters, a limitation that creates challenges for those who wish to use the framework in other circumstances. Often, acquiring a dedicated cluster can be impracticable due to the cost, and the acquisition of reposition parts can be a threat to the homogeneity of a cluster. In these cases, an option commonly used by the companies is the usage of idle computing resources in their network, however the original distribution of Hadoop would show serious performance issues in these conditions. Thus, this study was aimed to improve Hadoop’s capacity of adapting to pervasive and shared environments, where the availability of resources will undergo variations during the execution. Therefore, context-awareness techniques were used in order to collect information about the available capacity in each worker node and distributed communication techniques were used to update this information on scheduler. The joint usage of both techniques aimed at minimizing and/or eliminating the overload that would happen on shared nodes, resulting in an improvement of up to 50% on performance in a shared cluster, when compared to the original distribution, and indicated that a simple solution can positively impact the scheduling, increasing the variety of environments where the use of Hadoop is possible. Diversas alternativas têm sido empregadas para o processamento, em tempo hábil, da grande quantidade de dados que é gerada pelas aplicações atuais. Uma destas alternativas, o Apache Hadoop, combina processamento paralelo e distribuído com o paradigma MapReduce para fornecer um ambiente capaz de processar um grande volume de informações através de um modelo de programação simplificada. No entanto, o Apache Hadoop foi projetado para utilização em clusters dedicados e homogêneos, uma limitação que gera desafios para aqueles que desejam utilizá-lo sob outras circunstâncias. Muitas vezes um cluster dedicado pode ser inviável pelo custo de aquisição e a homogeneidade pode ser ameaçada devido à dificuldade de adquirir peças de reposição. Em muitos desses casos, uma opção encontrada pelas empresas é a utilização dos recursos computacionais ociosos em sua rede, porém a distribuição original do Hadoop apresentaria sérios problemas de desempenho nestas condições. Sendo assim, este estudo propôs melhorar a capacidade do Hadoop em adaptar-se a ambientes, pervasivos e compartilhados, onde a disponibilidade de recursos sofrerá variações no decorrer da execução. Para tanto, utilizaram-se técnicas de sensibilidade ao contexto para coletar informações sobre a capacidade disponível nos nós trabalhadores e técnicas de comunicação distribuída para atualizar estas informações no escalonador. A utilização conjunta dessas técnicas teve como objetivo a minimização e/ou eliminação da sobrecarga que seria causada em nós com compartilhamento, resultando em uma melhora de até 50% no desempenho em um cluster compartilhado, quando comparado com a distribuição original, e indicou que uma solução simples pode impactar positivamente o escalonamento, aumentando a variedade de ambientes onde a utilização do Hadoop é possível. 2017-11-13T11:43:37Z 2017-11-13T11:43:37Z 2016-03-11 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis http://repositorio.ufsm.br/handle/1/12025 por 100300000007 600 8e97fb90-c83e-4bab-9a46-35b74a26d687 0a80aa0a-705f-4e3d-99f8-c924956511ad 2fa86ce3-f602-449c-b18d-476466841e8c 32307fec-3dc1-4bd8-a191-e89ee73f1bd6 Attribution-NonCommercial-NoDerivatives 4.0 International http://creativecommons.org/licenses/by-nc-nd/4.0/ info:eu-repo/semantics/openAccess Universidade Federal de Santa Maria Centro de Tecnologia Programa de Pós-Graduação em Informática UFSM Brasil Ciência da Computação reponame:Repositório Institucional da UFSM instname:Universidade Federal de Santa Maria instacron:UFSM |