Mineração de padrões de correlação estrutural em grandes grafos

=== Graphs have been established as a powerful theoretical framework for modeling several types of interactions in a variety of scenarios. While the availability of large scale data led to the development of aframework for large scale graph analysis, the enrichment of such data drives the graph res...

Full description

Bibliographic Details
Main Author: Arlei Lopes da Silva
Other Authors: Wagner Meira Junior
Format: Others
Language:English
Published: Universidade Federal de Minas Gerais 2011
Online Access:http://hdl.handle.net/1843/SLSS-8GRHQ9
id ndltd-IBICT-oai-bibliotecadigital.ufmg.br-MTD2BR-SLSS-8GRHQ9
record_format oai_dc
collection NDLTD
language English
format Others
sources NDLTD
description === Graphs have been established as a powerful theoretical framework for modeling several types of interactions in a variety of scenarios. While the availability of large scale data led to the development of aframework for large scale graph analysis, the enrichment of such data drives the graph research to new methods able to explore such richness in a useful manner. An interesting extended graph representation iscalled attributed graph. Vertex attributes play an important role in several real life graphs. Moreover, it is broadly known that in several of these graphs vertices are organized into dense subgraphs.Such subgraphs have a relevant meaning in several real life graphs, being called communities in social networks and identifying protein complexes in protein-protein interaction networks.In this work, we study the correlation between attribute sets and the formation of dense subgraphs in large attributed graphs, which we call structural correlation pattern mining. The structural correlationmeasures how a set of attributes induces dense subgraphs in attributed graphs. A structural correlation pattern is a dense subgraph induced by a particular attribute set. We model the structural correlationpattern mining in terms of existing data mining patterns. Based on such definitions, we propose normalization approaches in order to assess how the structural correlation of a given attribute set deviates from the expected. Moreover, we propose efficient and scalable algorithms for structural correlation pattern mining.We show that the structural correlation pattern mining is able to provide relevant knowledge about the relation between attribute sets and dense subgraphs in real attributed graphs. In particular, we applythe proposed algorithms to the correlation between keywords associated with researchers and the formation of research groups in collaboration networks, in the study of communities induced by musical taste in asocial network, in the analysis of how well connected groups of papers emerge around research topics in a citation network, and in the evaluation of the relation between expression and functionality in a PPI network. We also evaluate the performance of such algorithms, verifying that they enable the analysis of large datasets. === Grafos têm se estabelecido como um poderoso arcabouço teórico para a modelagem de interações em cenários variados. Enquanto a disponibilidade de dados em larga escala motivou o desenvolvimento de tal arcabouço, o enriquecimento desses dados guia a pesquisa em grafos na direção de novos métodos capazes de explorar essa riqueza de forma útil. Uma representação estendida interessante de grafos é a de grafos com atributos nos vértices. Atributos de vértices desempenham um papel importante em diversos grafos reais. Além disso, sabe-se que, em muitos desses grafos, vértices se organizam naturalmente como subgrafos densos. Tais subgrafos possuem signficado relevante em diversos grafos reais, sendo denominados comunidades em redes sociais e identificando complexos proteicos em redes de proteínas, dentre outras aplicações.Neste trabalho, estudamos a correlação entre conjuntos de atributos e a formação de subgrafos densos, o que denominamos mineração de padrões de correlação estrutural. A correlação estrutural mede como umconjunto de atributos induz subgrafos denss em grafos com atributos. Um padrão de correlação estrutural é um subgrafo denso induzido por um conjunto de atributos em particular. Modelamos padrões de correlação estrutural em termos de padrões de mineração de dados existentes. Com base em tal modelagem, propomos técnicas de normalização que avaliam o quanto a correlação estrutural de um conjunto de atributos desvia do esperado. Além disso, propomos algoritmos eficientes e escaláveis para a mineração de padrões de correlação estrutural. Nós mostramos que a mineração de padrões de correlação estrutural é capaz de prover conhecimento relevante sobre a relação entre conjuntos de atributos e subgrafos densos em grafos reais. Em particular, aplicamos os algoritmos propostos na correlação entre palavras-chave associadas a pesquisadores e a formação de grupos de pesquisa em redes de colaboração, no estudo de comunidades induzidas pelo gosto musical em uma rede social, na análise de como grupos conectados de artigos emergem em torno de tópicos de pesquisa em uma rede de citação, e na avaliação da relação entre expressão e funcionalidade em uma rede de interação proteica. Também avaliamos o desempenho de tais algoritmos, verificando que eles possibilitam a análise de grandes bases de dados.
author2 Wagner Meira Junior
author_facet Wagner Meira Junior
Arlei Lopes da Silva
author Arlei Lopes da Silva
spellingShingle Arlei Lopes da Silva
Mineração de padrões de correlação estrutural em grandes grafos
author_sort Arlei Lopes da Silva
title Mineração de padrões de correlação estrutural em grandes grafos
title_short Mineração de padrões de correlação estrutural em grandes grafos
title_full Mineração de padrões de correlação estrutural em grandes grafos
title_fullStr Mineração de padrões de correlação estrutural em grandes grafos
title_full_unstemmed Mineração de padrões de correlação estrutural em grandes grafos
title_sort mineração de padrões de correlação estrutural em grandes grafos
publisher Universidade Federal de Minas Gerais
publishDate 2011
url http://hdl.handle.net/1843/SLSS-8GRHQ9
work_keys_str_mv AT arleilopesdasilva mineracaodepadroesdecorrelacaoestruturalemgrandesgrafos
_version_ 1718844627706970112
spelling ndltd-IBICT-oai-bibliotecadigital.ufmg.br-MTD2BR-SLSS-8GRHQ92019-01-21T17:56:37Z Mineração de padrões de correlação estrutural em grandes grafos Arlei Lopes da Silva Wagner Meira Junior Alberto Henrique Frade Laender Loïc Pascal Gilles Cerf Graphs have been established as a powerful theoretical framework for modeling several types of interactions in a variety of scenarios. While the availability of large scale data led to the development of aframework for large scale graph analysis, the enrichment of such data drives the graph research to new methods able to explore such richness in a useful manner. An interesting extended graph representation iscalled attributed graph. Vertex attributes play an important role in several real life graphs. Moreover, it is broadly known that in several of these graphs vertices are organized into dense subgraphs.Such subgraphs have a relevant meaning in several real life graphs, being called communities in social networks and identifying protein complexes in protein-protein interaction networks.In this work, we study the correlation between attribute sets and the formation of dense subgraphs in large attributed graphs, which we call structural correlation pattern mining. The structural correlationmeasures how a set of attributes induces dense subgraphs in attributed graphs. A structural correlation pattern is a dense subgraph induced by a particular attribute set. We model the structural correlationpattern mining in terms of existing data mining patterns. Based on such definitions, we propose normalization approaches in order to assess how the structural correlation of a given attribute set deviates from the expected. Moreover, we propose efficient and scalable algorithms for structural correlation pattern mining.We show that the structural correlation pattern mining is able to provide relevant knowledge about the relation between attribute sets and dense subgraphs in real attributed graphs. In particular, we applythe proposed algorithms to the correlation between keywords associated with researchers and the formation of research groups in collaboration networks, in the study of communities induced by musical taste in asocial network, in the analysis of how well connected groups of papers emerge around research topics in a citation network, and in the evaluation of the relation between expression and functionality in a PPI network. We also evaluate the performance of such algorithms, verifying that they enable the analysis of large datasets. Grafos têm se estabelecido como um poderoso arcabouço teórico para a modelagem de interações em cenários variados. Enquanto a disponibilidade de dados em larga escala motivou o desenvolvimento de tal arcabouço, o enriquecimento desses dados guia a pesquisa em grafos na direção de novos métodos capazes de explorar essa riqueza de forma útil. Uma representação estendida interessante de grafos é a de grafos com atributos nos vértices. Atributos de vértices desempenham um papel importante em diversos grafos reais. Além disso, sabe-se que, em muitos desses grafos, vértices se organizam naturalmente como subgrafos densos. Tais subgrafos possuem signficado relevante em diversos grafos reais, sendo denominados comunidades em redes sociais e identificando complexos proteicos em redes de proteínas, dentre outras aplicações.Neste trabalho, estudamos a correlação entre conjuntos de atributos e a formação de subgrafos densos, o que denominamos mineração de padrões de correlação estrutural. A correlação estrutural mede como umconjunto de atributos induz subgrafos denss em grafos com atributos. Um padrão de correlação estrutural é um subgrafo denso induzido por um conjunto de atributos em particular. Modelamos padrões de correlação estrutural em termos de padrões de mineração de dados existentes. Com base em tal modelagem, propomos técnicas de normalização que avaliam o quanto a correlação estrutural de um conjunto de atributos desvia do esperado. Além disso, propomos algoritmos eficientes e escaláveis para a mineração de padrões de correlação estrutural. Nós mostramos que a mineração de padrões de correlação estrutural é capaz de prover conhecimento relevante sobre a relação entre conjuntos de atributos e subgrafos densos em grafos reais. Em particular, aplicamos os algoritmos propostos na correlação entre palavras-chave associadas a pesquisadores e a formação de grupos de pesquisa em redes de colaboração, no estudo de comunidades induzidas pelo gosto musical em uma rede social, na análise de como grupos conectados de artigos emergem em torno de tópicos de pesquisa em uma rede de citação, e na avaliação da relação entre expressão e funcionalidade em uma rede de interação proteica. Também avaliamos o desempenho de tais algoritmos, verificando que eles possibilitam a análise de grandes bases de dados. 2011-05-05 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis http://hdl.handle.net/1843/SLSS-8GRHQ9 eng info:eu-repo/semantics/openAccess text/html Universidade Federal de Minas Gerais 32001010004P6 - CIÊNCIA DA COMPUTAÇÃO UFMG BR reponame:Biblioteca Digital de Teses e Dissertações da UFMG instname:Universidade Federal de Minas Gerais instacron:UFMG