Utilisation des modèles de co-clustering pour l'analyse exploratoire des données

Le co-clustering est une technique de classiﬁcation consistant à réaliser une partition simultanée des lignes et des colonnes d’une matrice de données. Parmi les approches existantes, MODL permet de traiter des données volumineuses et de réaliser une partition de plusieurs variables, continues ou no...

Full description

Bibliographic Details
Main Author:	Guigourès, Romain
Other Authors:	Paris 1
Language:	fr
Published:	2013
Subjects:	Co-clustering MODL Graphes Données volumineuses Graphs partitioning 519
Online Access:	http://www.theses.fr/2013PA010070

id	ndltd-theses.fr-2013PA010070
record_format	oai_dc
spelling	ndltd-theses.fr-2013PA0100702019-12-22T04:47:35Z Utilisation des modèles de co-clustering pour l'analyse exploratoire des données No English title available Co-clustering MODL Graphes Données volumineuses Co-clustering MODL Graphs partitioning 519 Le co-clustering est une technique de classiﬁcation consistant à réaliser une partition simultanée des lignes et des colonnes d’une matrice de données. Parmi les approches existantes, MODL permet de traiter des données volumineuses et de réaliser une partition de plusieurs variables, continues ou nominales. Nous utilisons cette approche comme référence dans l’ensemble des travaux de la thèse et montrons la diversité des problèmes de data mining pouvant être traités, comme le partitionnement de graphes, de graphes temporels ou encore le clustering de courbes. L’approche MODL permet d’obtenir des résultats ﬁns sur des données volumineuses, ce qui les rend diﬃcilement interprétables. Des outils d’analyse exploratoire sont alors nécessaires pour les exploiter. Aﬁn de guider l'utilisateur dans l'interprétation de tels résultats, nous déﬁnissons plusieurs outils consistant à simplifier des résultats ﬁns aﬁn d’en avoir une interprétation globale, à détecter les clusters remarquables, à déterminer les valeurs représentatives de leurs clusters et enﬁn à visualiser les résultats. Les comportements asymptotiques de ces outils d’analyse exploratoire sont étudiés aﬁn de faire le lien avec les approches existantes.Enﬁn une application sur des comptes-rendus d’appels de l’opérateur Orange, collectés en Côte d’Ivoire, montre l’intérêt de l’approche et des outils d’analyse exploratoire dans un contexte industriel. Co-clustering is a clustering technique aiming at simultaneously partitioning the rows and the columns of a data matrix. Among the existing approaches, MODL is suitable for processing huge data sets with several continuous or categorical variables. We use it as the baseline approach in this thesis. We discuss the reliability of applying such an approach on data mining problems like graphs partitioning, temporal graphs segmentation or curve clustering.MODL tracks very ﬁne patterns in huge data sets, that makes the results diﬃcult to study. That is why, exploratory analysis tools must be defined in order to explore them. In order to help the user in interpreting the results, we deﬁne exploratory analysis tools aiming at simplifying the results in order to make possible an overall interpretation, tracking the most interesting patterns, determining the most representative values of the clusters and visualizing the results. We investigate the asymptotic behavior of these exploratory analysis tools in order to make the connection with the existing approaches.Finally, we highlight the value of MODL and the exploratory analysis tools owing to an application on call detailed records from the telecom operator Orange, collected in Ivory Coast. Electronic Thesis or Dissertation Text fr http://www.theses.fr/2013PA010070 Guigourès, Romain 2013-12-04 Paris 1 Rossi, Fabrice Boullé, Marc
collection	NDLTD
language	fr
sources	NDLTD
topic	Co-clustering MODL Graphes Données volumineuses Co-clustering MODL Graphs partitioning 519
spellingShingle	Co-clustering MODL Graphes Données volumineuses Co-clustering MODL Graphs partitioning 519 Guigourès, Romain Utilisation des modèles de co-clustering pour l'analyse exploratoire des données
description	Le co-clustering est une technique de classiﬁcation consistant à réaliser une partition simultanée des lignes et des colonnes d’une matrice de données. Parmi les approches existantes, MODL permet de traiter des données volumineuses et de réaliser une partition de plusieurs variables, continues ou nominales. Nous utilisons cette approche comme référence dans l’ensemble des travaux de la thèse et montrons la diversité des problèmes de data mining pouvant être traités, comme le partitionnement de graphes, de graphes temporels ou encore le clustering de courbes. L’approche MODL permet d’obtenir des résultats ﬁns sur des données volumineuses, ce qui les rend diﬃcilement interprétables. Des outils d’analyse exploratoire sont alors nécessaires pour les exploiter. Aﬁn de guider l'utilisateur dans l'interprétation de tels résultats, nous déﬁnissons plusieurs outils consistant à simplifier des résultats ﬁns aﬁn d’en avoir une interprétation globale, à détecter les clusters remarquables, à déterminer les valeurs représentatives de leurs clusters et enﬁn à visualiser les résultats. Les comportements asymptotiques de ces outils d’analyse exploratoire sont étudiés aﬁn de faire le lien avec les approches existantes.Enﬁn une application sur des comptes-rendus d’appels de l’opérateur Orange, collectés en Côte d’Ivoire, montre l’intérêt de l’approche et des outils d’analyse exploratoire dans un contexte industriel. === Co-clustering is a clustering technique aiming at simultaneously partitioning the rows and the columns of a data matrix. Among the existing approaches, MODL is suitable for processing huge data sets with several continuous or categorical variables. We use it as the baseline approach in this thesis. We discuss the reliability of applying such an approach on data mining problems like graphs partitioning, temporal graphs segmentation or curve clustering.MODL tracks very ﬁne patterns in huge data sets, that makes the results diﬃcult to study. That is why, exploratory analysis tools must be defined in order to explore them. In order to help the user in interpreting the results, we deﬁne exploratory analysis tools aiming at simplifying the results in order to make possible an overall interpretation, tracking the most interesting patterns, determining the most representative values of the clusters and visualizing the results. We investigate the asymptotic behavior of these exploratory analysis tools in order to make the connection with the existing approaches.Finally, we highlight the value of MODL and the exploratory analysis tools owing to an application on call detailed records from the telecom operator Orange, collected in Ivory Coast.
author2	Paris 1
author_facet	Paris 1 Guigourès, Romain
author	Guigourès, Romain
author_sort	Guigourès, Romain
title	Utilisation des modèles de co-clustering pour l'analyse exploratoire des données
title_short	Utilisation des modèles de co-clustering pour l'analyse exploratoire des données
title_full	Utilisation des modèles de co-clustering pour l'analyse exploratoire des données
title_fullStr	Utilisation des modèles de co-clustering pour l'analyse exploratoire des données
title_full_unstemmed	Utilisation des modèles de co-clustering pour l'analyse exploratoire des données
title_sort	utilisation des modèles de co-clustering pour l'analyse exploratoire des données
publishDate	2013
url	http://www.theses.fr/2013PA010070
work_keys_str_mv	AT guigouresromain utilisationdesmodelesdecoclusteringpourlanalyseexploratoiredesdonnees AT guigouresromain noenglishtitleavailable
_version_	1719305930735091712

Utilisation des modèles de co-clustering pour l'analyse exploratoire des données

Similar Items