Efficient Stream Analysis and its Application to Big Data Processing

L’analyse de flux de données est utilisée dans beaucoup de contexte où la masse des données et/ou le débit auquel elles sont générées, excluent d’autres approches (par exemple le traitement par lots). Le modèle flux fourni des solutions aléatoires et/ou fondées sur des approximations pour calculer d...

Full description

Bibliographic Details
Main Author: Rivetti di Val Cervo, Nicolo
Other Authors: Nantes
Language:en
Published: 2016
Subjects:
Online Access:http://www.theses.fr/2016NANT4046/document
id ndltd-theses.fr-2016NANT4046
record_format oai_dc
spelling ndltd-theses.fr-2016NANT40462017-09-16T04:18:32Z Efficient Stream Analysis and its Application to Big Data Processing Analyse efficace de flux de données et applications au traitement des grandes masses de données Modèle flux Délestage de charge Data streaming Heavy hitter Load balancing Load shedding L’analyse de flux de données est utilisée dans beaucoup de contexte où la masse des données et/ou le débit auquel elles sont générées, excluent d’autres approches (par exemple le traitement par lots). Le modèle flux fourni des solutions aléatoires et/ou fondées sur des approximations pour calculer des fonctions d’intérêt sur des flux (repartis) de n-uplets, en considérant le pire cas, et en essayant de minimiser l’utilisation des ressources. En particulier, nous nous intéressons à deux problèmes classiques : l’estimation de fréquence et les poids lourds. Un champ d’application moins courant est le traitement de flux qui est d’une certaine façon un champ complémentaire aux modèle flux. Celui-ci fournis des systèmes pour effectuer des calculs génériques sur les flux en temps réel souple, qui passent à l’échèle. Cette dualité nous permet d’appliquer des solutions du modèle flux pour optimiser des systèmes de traitement de flux. Dans cette thèse, nous proposons un nouvel algorithme pour la détection d’éléments surabondants dans des flux repartis, ainsi que deux extensions d’un algorithme classique pour l’estimation des fréquences des items. Nous nous intéressons également à deux problèmes : construire un partitionnement équitable de l’univers des n-uplets par rapport à leurs poids et l’estimation des valeurs de ces n-uplets. Nous utilisons ces algorithmes pour équilibrer et/ou délester la charge dans les systèmes de traitement de flux. Nowadays stream analysis is used in many context where the amount of data and/or the rate at which it is generated rules out other approaches (e.g., batch processing). The data streaming model provides randomized and/or approximated solutions to compute specific functions over (distributed) stream(s) of data-items in worst case scenarios, while striving for small resources usage. In particular, we look into two classical and related data streaming problems: frequency estimation and (distributed) heavy hitters. A less common field of application is stream processing which is somehow complementary and more practical, providing efficient and highly scalable frameworks to perform soft real-time generic computation on streams, relying on cloud computing. This duality allows us to apply data streaming solutions to optimize stream processing systems. In this thesis, we provide a novel algorithm to track heavy hitters in distributed streams and two extensions of a well-known algorithm to estimate the frequencies of data items. We also tackle two related problems and their solution: provide even partitioning of the item universe based on their weights and provide an estimation of the values carried by the items of the stream. We then apply these results to both network monitoring and stream processing. In particular, we leverage these solutions to perform load shedding as well as to load balance parallelized operators in stream processing systems. Electronic Thesis or Dissertation Text en http://www.theses.fr/2016NANT4046/document Rivetti di Val Cervo, Nicolo 2016-09-30 Nantes Università degli studi La Sapienza (Rome) Mostefaoui, Achour Busnel, Yann Querzoni, Leonardo
collection NDLTD
language en
sources NDLTD
topic Modèle flux
Délestage de charge
Data streaming
Heavy hitter
Load balancing
Load shedding

spellingShingle Modèle flux
Délestage de charge
Data streaming
Heavy hitter
Load balancing
Load shedding

Rivetti di Val Cervo, Nicolo
Efficient Stream Analysis and its Application to Big Data Processing
description L’analyse de flux de données est utilisée dans beaucoup de contexte où la masse des données et/ou le débit auquel elles sont générées, excluent d’autres approches (par exemple le traitement par lots). Le modèle flux fourni des solutions aléatoires et/ou fondées sur des approximations pour calculer des fonctions d’intérêt sur des flux (repartis) de n-uplets, en considérant le pire cas, et en essayant de minimiser l’utilisation des ressources. En particulier, nous nous intéressons à deux problèmes classiques : l’estimation de fréquence et les poids lourds. Un champ d’application moins courant est le traitement de flux qui est d’une certaine façon un champ complémentaire aux modèle flux. Celui-ci fournis des systèmes pour effectuer des calculs génériques sur les flux en temps réel souple, qui passent à l’échèle. Cette dualité nous permet d’appliquer des solutions du modèle flux pour optimiser des systèmes de traitement de flux. Dans cette thèse, nous proposons un nouvel algorithme pour la détection d’éléments surabondants dans des flux repartis, ainsi que deux extensions d’un algorithme classique pour l’estimation des fréquences des items. Nous nous intéressons également à deux problèmes : construire un partitionnement équitable de l’univers des n-uplets par rapport à leurs poids et l’estimation des valeurs de ces n-uplets. Nous utilisons ces algorithmes pour équilibrer et/ou délester la charge dans les systèmes de traitement de flux. === Nowadays stream analysis is used in many context where the amount of data and/or the rate at which it is generated rules out other approaches (e.g., batch processing). The data streaming model provides randomized and/or approximated solutions to compute specific functions over (distributed) stream(s) of data-items in worst case scenarios, while striving for small resources usage. In particular, we look into two classical and related data streaming problems: frequency estimation and (distributed) heavy hitters. A less common field of application is stream processing which is somehow complementary and more practical, providing efficient and highly scalable frameworks to perform soft real-time generic computation on streams, relying on cloud computing. This duality allows us to apply data streaming solutions to optimize stream processing systems. In this thesis, we provide a novel algorithm to track heavy hitters in distributed streams and two extensions of a well-known algorithm to estimate the frequencies of data items. We also tackle two related problems and their solution: provide even partitioning of the item universe based on their weights and provide an estimation of the values carried by the items of the stream. We then apply these results to both network monitoring and stream processing. In particular, we leverage these solutions to perform load shedding as well as to load balance parallelized operators in stream processing systems.
author2 Nantes
author_facet Nantes
Rivetti di Val Cervo, Nicolo
author Rivetti di Val Cervo, Nicolo
author_sort Rivetti di Val Cervo, Nicolo
title Efficient Stream Analysis and its Application to Big Data Processing
title_short Efficient Stream Analysis and its Application to Big Data Processing
title_full Efficient Stream Analysis and its Application to Big Data Processing
title_fullStr Efficient Stream Analysis and its Application to Big Data Processing
title_full_unstemmed Efficient Stream Analysis and its Application to Big Data Processing
title_sort efficient stream analysis and its application to big data processing
publishDate 2016
url http://www.theses.fr/2016NANT4046/document
work_keys_str_mv AT rivettidivalcervonicolo efficientstreamanalysisanditsapplicationtobigdataprocessing
AT rivettidivalcervonicolo analyseefficacedefluxdedonneesetapplicationsautraitementdesgrandesmassesdedonnees
_version_ 1718536927993397248