Utilisation des modèles de co-clustering pour l'analyse exploratoire des données

Le co-clustering est une technique de classification consistant à réaliser une partition simultanée des lignes et des colonnes d’une matrice de données. Parmi les approches existantes, MODL permet de traiter des données volumineuses et de réaliser une partition de plusieurs variables, continues ou no...

Full description

Bibliographic Details
Main Author: Guigourès, Romain
Other Authors: Paris 1
Language:fr
Published: 2013
Subjects:
519
Online Access:http://www.theses.fr/2013PA010070
id ndltd-theses.fr-2013PA010070
record_format oai_dc
spelling ndltd-theses.fr-2013PA0100702019-12-22T04:47:35Z Utilisation des modèles de co-clustering pour l'analyse exploratoire des données No English title available Co-clustering MODL Graphes Données volumineuses Co-clustering MODL Graphs partitioning 519 Le co-clustering est une technique de classification consistant à réaliser une partition simultanée des lignes et des colonnes d’une matrice de données. Parmi les approches existantes, MODL permet de traiter des données volumineuses et de réaliser une partition de plusieurs variables, continues ou nominales. Nous utilisons cette approche comme référence dans l’ensemble des travaux de la thèse et montrons la diversité des problèmes de data mining pouvant être traités, comme le partitionnement de graphes, de graphes temporels ou encore le clustering de courbes. L’approche MODL permet d’obtenir des résultats fins sur des données volumineuses, ce qui les rend difficilement interprétables. Des outils d’analyse exploratoire sont alors nécessaires pour les exploiter. Afin de guider l'utilisateur dans l'interprétation de tels résultats, nous définissons plusieurs outils consistant à simplifier des résultats fins afin d’en avoir une interprétation globale, à détecter les clusters remarquables, à déterminer les valeurs représentatives de leurs clusters et enfin à visualiser les résultats. Les comportements asymptotiques de ces outils d’analyse exploratoire sont étudiés afin de faire le lien avec les approches existantes.Enfin une application sur des comptes-rendus d’appels de l’opérateur Orange, collectés en Côte d’Ivoire, montre l’intérêt de l’approche et des outils d’analyse exploratoire dans un contexte industriel. Co-clustering is a clustering technique aiming at simultaneously partitioning the rows and the columns of a data matrix. Among the existing approaches, MODL is suitable for processing huge data sets with several continuous or categorical variables. We use it as the baseline approach in this thesis. We discuss the reliability of applying such an approach on data mining problems like graphs partitioning, temporal graphs segmentation or curve clustering.MODL tracks very fine patterns in huge data sets, that makes the results difficult to study. That is why, exploratory analysis tools must be defined in order to explore them. In order to help the user in interpreting the results, we define exploratory analysis tools aiming at simplifying the results in order to make possible an overall interpretation, tracking the most interesting patterns, determining the most representative values of the clusters and visualizing the results. We investigate the asymptotic behavior of these exploratory analysis tools in order to make the connection with the existing approaches.Finally, we highlight the value of MODL and the exploratory analysis tools owing to an application on call detailed records from the telecom operator Orange, collected in Ivory Coast. Electronic Thesis or Dissertation Text fr http://www.theses.fr/2013PA010070 Guigourès, Romain 2013-12-04 Paris 1 Rossi, Fabrice Boullé, Marc
collection NDLTD
language fr
sources NDLTD
topic Co-clustering
MODL
Graphes
Données volumineuses
Co-clustering
MODL
Graphs partitioning
519
spellingShingle Co-clustering
MODL
Graphes
Données volumineuses
Co-clustering
MODL
Graphs partitioning
519
Guigourès, Romain
Utilisation des modèles de co-clustering pour l'analyse exploratoire des données
description Le co-clustering est une technique de classification consistant à réaliser une partition simultanée des lignes et des colonnes d’une matrice de données. Parmi les approches existantes, MODL permet de traiter des données volumineuses et de réaliser une partition de plusieurs variables, continues ou nominales. Nous utilisons cette approche comme référence dans l’ensemble des travaux de la thèse et montrons la diversité des problèmes de data mining pouvant être traités, comme le partitionnement de graphes, de graphes temporels ou encore le clustering de courbes. L’approche MODL permet d’obtenir des résultats fins sur des données volumineuses, ce qui les rend difficilement interprétables. Des outils d’analyse exploratoire sont alors nécessaires pour les exploiter. Afin de guider l'utilisateur dans l'interprétation de tels résultats, nous définissons plusieurs outils consistant à simplifier des résultats fins afin d’en avoir une interprétation globale, à détecter les clusters remarquables, à déterminer les valeurs représentatives de leurs clusters et enfin à visualiser les résultats. Les comportements asymptotiques de ces outils d’analyse exploratoire sont étudiés afin de faire le lien avec les approches existantes.Enfin une application sur des comptes-rendus d’appels de l’opérateur Orange, collectés en Côte d’Ivoire, montre l’intérêt de l’approche et des outils d’analyse exploratoire dans un contexte industriel. === Co-clustering is a clustering technique aiming at simultaneously partitioning the rows and the columns of a data matrix. Among the existing approaches, MODL is suitable for processing huge data sets with several continuous or categorical variables. We use it as the baseline approach in this thesis. We discuss the reliability of applying such an approach on data mining problems like graphs partitioning, temporal graphs segmentation or curve clustering.MODL tracks very fine patterns in huge data sets, that makes the results difficult to study. That is why, exploratory analysis tools must be defined in order to explore them. In order to help the user in interpreting the results, we define exploratory analysis tools aiming at simplifying the results in order to make possible an overall interpretation, tracking the most interesting patterns, determining the most representative values of the clusters and visualizing the results. We investigate the asymptotic behavior of these exploratory analysis tools in order to make the connection with the existing approaches.Finally, we highlight the value of MODL and the exploratory analysis tools owing to an application on call detailed records from the telecom operator Orange, collected in Ivory Coast.
author2 Paris 1
author_facet Paris 1
Guigourès, Romain
author Guigourès, Romain
author_sort Guigourès, Romain
title Utilisation des modèles de co-clustering pour l'analyse exploratoire des données
title_short Utilisation des modèles de co-clustering pour l'analyse exploratoire des données
title_full Utilisation des modèles de co-clustering pour l'analyse exploratoire des données
title_fullStr Utilisation des modèles de co-clustering pour l'analyse exploratoire des données
title_full_unstemmed Utilisation des modèles de co-clustering pour l'analyse exploratoire des données
title_sort utilisation des modèles de co-clustering pour l'analyse exploratoire des données
publishDate 2013
url http://www.theses.fr/2013PA010070
work_keys_str_mv AT guigouresromain utilisationdesmodelesdecoclusteringpourlanalyseexploratoiredesdonnees
AT guigouresromain noenglishtitleavailable
_version_ 1719305930735091712