Inferência de redes gênicas por agrupamento, busca exaustiva e análise de predição intrinsecamente multivariada.

A inferência de redes gênicas (GN) a partir de dados de expressão gênica temporal é um problema crucial e desafiador em Biologia Sistêmica. Os conjuntos de dados de expressão geralmente consistem em dezenas de amostras temporais e as redes consistem em milhares de genes, tornando inúmeros métodos de...

Full description

Bibliographic Details
Main Author: Jacomini, Ricardo de Souza
Other Authors: Martins Junior, David Corrêa
Format: Others
Language:pt
Published: Biblioteca Digitais de Teses e Dissertações da USP 2017
Subjects:
Online Access:http://www.teses.usp.br/teses/disponiveis/3/3141/tde-05092017-111639/
id ndltd-usp.br-oai-teses.usp.br-tde-05092017-111639
record_format oai_dc
collection NDLTD
language pt
format Others
sources NDLTD
topic Biologia
Clustering
Complex networks
Computação aplicada
Exhaustive search
Feature selection
Gene regulatory networks inference
Genes
Geometria e modelagem computacional
Inferência estatística
Intrinsically multivariate Prediction
Probabilistic gene networks
spellingShingle Biologia
Clustering
Complex networks
Computação aplicada
Exhaustive search
Feature selection
Gene regulatory networks inference
Genes
Geometria e modelagem computacional
Inferência estatística
Intrinsically multivariate Prediction
Probabilistic gene networks
Jacomini, Ricardo de Souza
Inferência de redes gênicas por agrupamento, busca exaustiva e análise de predição intrinsecamente multivariada.
description A inferência de redes gênicas (GN) a partir de dados de expressão gênica temporal é um problema crucial e desafiador em Biologia Sistêmica. Os conjuntos de dados de expressão geralmente consistem em dezenas de amostras temporais e as redes consistem em milhares de genes, tornando inúmeros métodos de inferência inviáveis na prática. Para melhorar a escalabilidade dos métodos de inferência de GNs, esta tese propõe um arcabouço chamado GeNICE, baseado no modelo de redes gênicas probabilísticas. A principal novidade é a introdução de um procedimento de agrupamento de genes, com perfis de expressão relacionados, para fornecer uma solução aproximada com complexidade computacional reduzida. Os agrupamentos definidos são usados para reduzir a dimensionalidade permitindo uma busca exaustiva mais eficiente pelos melhores subconjuntos de genes preditores para cada gene alvo de acordo com funções critério multivariadas. GeNICE reduz consideravelmente o espaço de busca porque os candidatos a preditores ficam restritos a um gene representante por agrupamento. No final, uma análise multivariada é realizada para cada subconjunto preditor definido, visando recuperar subconjuntos mínimos para simplificar a rede gênica inferida. Em experimentos com conjuntos de dados sintéticos, GeNICE obteve uma redução substancial de tempo quando comparado a uma solução anterior sem a etapa de agrupamento, preservando a precisão da predição de expressão gênica mesmo quando o número de agrupamentos é pequeno (cerca de cinquenta) e o número de genes é grande (ordem de milhares). Para um conjunto de dados reais de microarrays de Plasmodium falciparum, a precisão da predição alcançada pelo GeNICE foi de aproximadamente 97% em média. As redes inferidas para os genes alvos da glicólise e do apicoplasto refletem propriedades topológicas de redes complexas do tipo \"mundo pequeno\" e \"livre de escala\", para os quais grande parte das conexões são estabelecidas entre os genes de um mesmo módulo e algumas poucas conexões fazem o papel de estabelecer uma ponte entre os módulos (redes mundo pequeno), e o grau de distribuição das conexões entre os genes segue uma lei de potência, na qual a maioria dos genes têm poucas conexões e poucos genes (hubs) apresentam um elevado número de conexões (redes livres de escala), como esperado. === Gene network (GN) inference from temporal gene expression data is a crucial and challenging problem in Systems Biology. Expression datasets usually consist of dozens of temporal samples, while networks consist of thousands of genes, thus rendering many inference methods unfeasible in practice. To improve the scalability of GN inference methods, this work proposes a framework called GeNICE, based on Probabilistic Gene Networks; the main novelty is the introduction of a clustering procedure to group genes with related expression profiles, to provide an approximate solution with reduced computational complexity. The defined clusters were used to perform an exhaustive search to retrieve the best predictor gene subsets for each target gene, according to multivariate criterion functions. GeNICE greatly reduces the search space because predictor candidates are restricted to one representative gene per cluster. Finally, a multivariate analysis is performed for each defined predictor subset to retrieve minimal subsets and to simplify the network. In experiments with in silico generated datasets, GeNICE achieved substantial computational time reduction when compared to an existing solution without the clustering step, while preserving the gene expression prediction accuracy even when the number of clusters is small (about fifty) relative to the number of genes (order of thousands). For a Plasmodium falciparum microarray dataset, the prediction accuracy achieved by GeNICE was roughly 97% on average. The inferred networks for the apicoplast and glycolytic target genes reflects the topological properties of \"small-world\"and \"scale-free\"complex network models in which a large part of the connections is established between genes of the same functional module (smallworld networks) and the degree distribution of the connections between genes tends to form a power law, in which most genes present few connections and few genes (hubs) present a large number of connections (scale-free networks), as expected.
author2 Martins Junior, David Corrêa
author_facet Martins Junior, David Corrêa
Jacomini, Ricardo de Souza
author Jacomini, Ricardo de Souza
author_sort Jacomini, Ricardo de Souza
title Inferência de redes gênicas por agrupamento, busca exaustiva e análise de predição intrinsecamente multivariada.
title_short Inferência de redes gênicas por agrupamento, busca exaustiva e análise de predição intrinsecamente multivariada.
title_full Inferência de redes gênicas por agrupamento, busca exaustiva e análise de predição intrinsecamente multivariada.
title_fullStr Inferência de redes gênicas por agrupamento, busca exaustiva e análise de predição intrinsecamente multivariada.
title_full_unstemmed Inferência de redes gênicas por agrupamento, busca exaustiva e análise de predição intrinsecamente multivariada.
title_sort inferência de redes gênicas por agrupamento, busca exaustiva e análise de predição intrinsecamente multivariada.
publisher Biblioteca Digitais de Teses e Dissertações da USP
publishDate 2017
url http://www.teses.usp.br/teses/disponiveis/3/3141/tde-05092017-111639/
work_keys_str_mv AT jacominiricardodesouza inferenciaderedesgenicasporagrupamentobuscaexaustivaeanalisedepredicaointrinsecamentemultivariada
AT jacominiricardodesouza genenetworksinferencebyclusteringexhaustivesearchandintrinsicallymultivariatepredictionanalysis
_version_ 1719052902516916224
spelling ndltd-usp.br-oai-teses.usp.br-tde-05092017-1116392019-05-09T18:07:52Z Inferência de redes gênicas por agrupamento, busca exaustiva e análise de predição intrinsecamente multivariada. Gene networks inference by clustering, exhaustive search and intrinsically multivariate prediction analysis. Jacomini, Ricardo de Souza Biologia Clustering Complex networks Computação aplicada Exhaustive search Feature selection Gene regulatory networks inference Genes Geometria e modelagem computacional Inferência estatística Intrinsically multivariate Prediction Probabilistic gene networks A inferência de redes gênicas (GN) a partir de dados de expressão gênica temporal é um problema crucial e desafiador em Biologia Sistêmica. Os conjuntos de dados de expressão geralmente consistem em dezenas de amostras temporais e as redes consistem em milhares de genes, tornando inúmeros métodos de inferência inviáveis na prática. Para melhorar a escalabilidade dos métodos de inferência de GNs, esta tese propõe um arcabouço chamado GeNICE, baseado no modelo de redes gênicas probabilísticas. A principal novidade é a introdução de um procedimento de agrupamento de genes, com perfis de expressão relacionados, para fornecer uma solução aproximada com complexidade computacional reduzida. Os agrupamentos definidos são usados para reduzir a dimensionalidade permitindo uma busca exaustiva mais eficiente pelos melhores subconjuntos de genes preditores para cada gene alvo de acordo com funções critério multivariadas. GeNICE reduz consideravelmente o espaço de busca porque os candidatos a preditores ficam restritos a um gene representante por agrupamento. No final, uma análise multivariada é realizada para cada subconjunto preditor definido, visando recuperar subconjuntos mínimos para simplificar a rede gênica inferida. Em experimentos com conjuntos de dados sintéticos, GeNICE obteve uma redução substancial de tempo quando comparado a uma solução anterior sem a etapa de agrupamento, preservando a precisão da predição de expressão gênica mesmo quando o número de agrupamentos é pequeno (cerca de cinquenta) e o número de genes é grande (ordem de milhares). Para um conjunto de dados reais de microarrays de Plasmodium falciparum, a precisão da predição alcançada pelo GeNICE foi de aproximadamente 97% em média. As redes inferidas para os genes alvos da glicólise e do apicoplasto refletem propriedades topológicas de redes complexas do tipo \"mundo pequeno\" e \"livre de escala\", para os quais grande parte das conexões são estabelecidas entre os genes de um mesmo módulo e algumas poucas conexões fazem o papel de estabelecer uma ponte entre os módulos (redes mundo pequeno), e o grau de distribuição das conexões entre os genes segue uma lei de potência, na qual a maioria dos genes têm poucas conexões e poucos genes (hubs) apresentam um elevado número de conexões (redes livres de escala), como esperado. Gene network (GN) inference from temporal gene expression data is a crucial and challenging problem in Systems Biology. Expression datasets usually consist of dozens of temporal samples, while networks consist of thousands of genes, thus rendering many inference methods unfeasible in practice. To improve the scalability of GN inference methods, this work proposes a framework called GeNICE, based on Probabilistic Gene Networks; the main novelty is the introduction of a clustering procedure to group genes with related expression profiles, to provide an approximate solution with reduced computational complexity. The defined clusters were used to perform an exhaustive search to retrieve the best predictor gene subsets for each target gene, according to multivariate criterion functions. GeNICE greatly reduces the search space because predictor candidates are restricted to one representative gene per cluster. Finally, a multivariate analysis is performed for each defined predictor subset to retrieve minimal subsets and to simplify the network. In experiments with in silico generated datasets, GeNICE achieved substantial computational time reduction when compared to an existing solution without the clustering step, while preserving the gene expression prediction accuracy even when the number of clusters is small (about fifty) relative to the number of genes (order of thousands). For a Plasmodium falciparum microarray dataset, the prediction accuracy achieved by GeNICE was roughly 97% on average. The inferred networks for the apicoplast and glycolytic target genes reflects the topological properties of \"small-world\"and \"scale-free\"complex network models in which a large part of the connections is established between genes of the same functional module (smallworld networks) and the degree distribution of the connections between genes tends to form a power law, in which most genes present few connections and few genes (hubs) present a large number of connections (scale-free networks), as expected. Biblioteca Digitais de Teses e Dissertações da USP Martins Junior, David Corrêa 2017-06-09 Tese de Doutorado application/pdf http://www.teses.usp.br/teses/disponiveis/3/3141/tde-05092017-111639/ pt Liberar o conteúdo para acesso público.