Integração de dados na inferência de redes de genes: avaliação de informações biológicas e características topológicas

Os componentes celulares não atuam sozinhos, mas sim em uma rede de interações. Neste sentido, é fundamental descobrir como os genes se relacionam e compreender a dinâmica do sistema biológico. Este conhecimento pode contribuir para o tratamento de doenças, para o melhoramento genético de plantas e...

Full description

Bibliographic Details
Main Author: Vicente, Fabio Fernandes da Rocha
Other Authors: Lopes, Fabricio Martins
Format: Others
Language:pt
Published: Biblioteca Digitais de Teses e Dissertações da USP 2016
Subjects:
Online Access:http://www.teses.usp.br/teses/disponiveis/95/95131/tde-27102016-162425/
id ndltd-usp.br-oai-teses.usp.br-tde-27102016-162425
record_format oai_dc
collection NDLTD
language pt
format Others
sources NDLTD
topic Bioinformática
Bioinformatics
Complex networks
Data integration
Gene networks
Integração de dados
Pattern recognition
Reconhecimento de padrões
Redes complexas
Redes de genes
spellingShingle Bioinformática
Bioinformatics
Complex networks
Data integration
Gene networks
Integração de dados
Pattern recognition
Reconhecimento de padrões
Redes complexas
Redes de genes
Vicente, Fabio Fernandes da Rocha
Integração de dados na inferência de redes de genes: avaliação de informações biológicas e características topológicas
description Os componentes celulares não atuam sozinhos, mas sim em uma rede de interações. Neste sentido, é fundamental descobrir como os genes se relacionam e compreender a dinâmica do sistema biológico. Este conhecimento pode contribuir para o tratamento de doenças, para o melhoramento genético de plantas e aumento de produção agrícola, por exemplo. Muitas redes gênicas são desconhecidas ou apenas conhecidas parcialmente. Neste contexto, a inferência de Redes Gênicas surgiu como possível solução e tem por objetivo recuperar a rede a partir de dados de expressão gênica utilizando modelos probabilísticos. No entanto, um problema intrínseco da inferência de redes é formalmente descrito como maldição da dimensionalidade (a quantidade de variáveis é muito maior que a quantidade de amostras). No contexto biológico, este problema é ainda agravado pois é necessário lidar com milhares de genes e apenas um ou duas dezenas de amostras de dados de expressão. Assim, os modelos de inferência buscam contornar este problema propondo soluções que minimizem o erro de estimação. Nos modelos de predição ainda há muitos empates, isto é, apenas os dados de expressão não são suficientes para decidir pela interação correta entre os genes. Neste contexto, a proposta de integração de outros dados biológicos além do dado de expressão gênica surge como possível solução. No entanto, estes dados são heterogêneos: referem-se a interações físicas, relacionamentos funcionais, localização, dentre outros. Além disto são representados de diferentes formas: como dado quantitativo, qualitativo, como atributos nominais ou atributos ordinais. Algumas vezes organizados em estrutura hierárquica, em outras como um grafo e ainda como anotação descritiva. Além disto, não está claro como cada tipo de dado pode contribuir com a inferência e redução do erro dos modelos. Portanto, é fundamental buscar compreender a relação entre os dados biológicos disponíveis, bem como investigar como integrá-los na inferência. Assim, neste trabalho desenvolveu-se três metodologias de integração de dados e a contribuição de cada tipo foi analisada. Os resultados mostraram que o uso conjunto de dados de expressão e outros dados biológicos melhora a predição das redes. Também apontaram para diferença no potencial de redução do erro de acordo com o tipo de dado. Além disto, os resultados mostraram que o conhecimento da topologia da rede também reduz o erro além de inferir redes topologicamente coerentes com a topologia esperada === It is widely known that the cellular components do not act in isolation but through a network of interactions. In this sense, it is essential to discover how genes interact with each other and to understand the dynamics of the biological system. This knowledge can contribute for the treatment of diseases, contribute for plant breeding and increased agricultural production. In this context, the inference of Gene Networks (GNs) has emerged as a possible solution, studying how to recover the network from gene expression data through probabilistic models. However, a known problem of network inference is formally described as curse of dimensionality (the number of variables is much larger than the number of samples). In biological problems, it is even worse since there is only few samples and thousands of genes. However, there are still many ties found in the prediction models, that is, only the expression data are frequently not enough to decide the correct interaction between genes. In this context, data integration is proposed as a possible solution. However, the data are heterogeneous, refer to physical interactions and functional location. They are represented in different ways as quantitative or qualitative information, being nominal or ordinal attributes. Sometimes organized in hierarchical structure or as a graph. In addition, it is unclear how each type of data can contribute to the inference and reduction of the error. Therefore, it is very important to understand the relationship between the biological information available. Also, it is important to investigate how to integrate them in the inference algorithm. Thus, this work has developed three data integration methodologies and also, the contribution of biological information was analyzed. The results showed that the combined use of expression data and biological information improves the inference. Moreover, the results shows distinct behaviour of distinct data in error reduction. Also, experiments that include topological features into the models, shows that the knowledge of the network topology can increase the corrctness of the inferred newtorks
author2 Lopes, Fabricio Martins
author_facet Lopes, Fabricio Martins
Vicente, Fabio Fernandes da Rocha
author Vicente, Fabio Fernandes da Rocha
author_sort Vicente, Fabio Fernandes da Rocha
title Integração de dados na inferência de redes de genes: avaliação de informações biológicas e características topológicas
title_short Integração de dados na inferência de redes de genes: avaliação de informações biológicas e características topológicas
title_full Integração de dados na inferência de redes de genes: avaliação de informações biológicas e características topológicas
title_fullStr Integração de dados na inferência de redes de genes: avaliação de informações biológicas e características topológicas
title_full_unstemmed Integração de dados na inferência de redes de genes: avaliação de informações biológicas e características topológicas
title_sort integração de dados na inferência de redes de genes: avaliação de informações biológicas e características topológicas
publisher Biblioteca Digitais de Teses e Dissertações da USP
publishDate 2016
url http://www.teses.usp.br/teses/disponiveis/95/95131/tde-27102016-162425/
work_keys_str_mv AT vicentefabiofernandesdarocha integracaodedadosnainferenciaderedesdegenesavaliacaodeinformacoesbiologicasecaracteristicastopologicas
AT vicentefabiofernandesdarocha dataintegrationingenenetworksinferenceevaluationofbiologicalandtopologicalfeatures
_version_ 1719075451218952192
spelling ndltd-usp.br-oai-teses.usp.br-tde-27102016-1624252019-05-09T21:42:27Z Integração de dados na inferência de redes de genes: avaliação de informações biológicas e características topológicas Data integration in gene networks inference: evaluation of biological and topological features Vicente, Fabio Fernandes da Rocha Bioinformática Bioinformatics Complex networks Data integration Gene networks Integração de dados Pattern recognition Reconhecimento de padrões Redes complexas Redes de genes Os componentes celulares não atuam sozinhos, mas sim em uma rede de interações. Neste sentido, é fundamental descobrir como os genes se relacionam e compreender a dinâmica do sistema biológico. Este conhecimento pode contribuir para o tratamento de doenças, para o melhoramento genético de plantas e aumento de produção agrícola, por exemplo. Muitas redes gênicas são desconhecidas ou apenas conhecidas parcialmente. Neste contexto, a inferência de Redes Gênicas surgiu como possível solução e tem por objetivo recuperar a rede a partir de dados de expressão gênica utilizando modelos probabilísticos. No entanto, um problema intrínseco da inferência de redes é formalmente descrito como maldição da dimensionalidade (a quantidade de variáveis é muito maior que a quantidade de amostras). No contexto biológico, este problema é ainda agravado pois é necessário lidar com milhares de genes e apenas um ou duas dezenas de amostras de dados de expressão. Assim, os modelos de inferência buscam contornar este problema propondo soluções que minimizem o erro de estimação. Nos modelos de predição ainda há muitos empates, isto é, apenas os dados de expressão não são suficientes para decidir pela interação correta entre os genes. Neste contexto, a proposta de integração de outros dados biológicos além do dado de expressão gênica surge como possível solução. No entanto, estes dados são heterogêneos: referem-se a interações físicas, relacionamentos funcionais, localização, dentre outros. Além disto são representados de diferentes formas: como dado quantitativo, qualitativo, como atributos nominais ou atributos ordinais. Algumas vezes organizados em estrutura hierárquica, em outras como um grafo e ainda como anotação descritiva. Além disto, não está claro como cada tipo de dado pode contribuir com a inferência e redução do erro dos modelos. Portanto, é fundamental buscar compreender a relação entre os dados biológicos disponíveis, bem como investigar como integrá-los na inferência. Assim, neste trabalho desenvolveu-se três metodologias de integração de dados e a contribuição de cada tipo foi analisada. Os resultados mostraram que o uso conjunto de dados de expressão e outros dados biológicos melhora a predição das redes. Também apontaram para diferença no potencial de redução do erro de acordo com o tipo de dado. Além disto, os resultados mostraram que o conhecimento da topologia da rede também reduz o erro além de inferir redes topologicamente coerentes com a topologia esperada It is widely known that the cellular components do not act in isolation but through a network of interactions. In this sense, it is essential to discover how genes interact with each other and to understand the dynamics of the biological system. This knowledge can contribute for the treatment of diseases, contribute for plant breeding and increased agricultural production. In this context, the inference of Gene Networks (GNs) has emerged as a possible solution, studying how to recover the network from gene expression data through probabilistic models. However, a known problem of network inference is formally described as curse of dimensionality (the number of variables is much larger than the number of samples). In biological problems, it is even worse since there is only few samples and thousands of genes. However, there are still many ties found in the prediction models, that is, only the expression data are frequently not enough to decide the correct interaction between genes. In this context, data integration is proposed as a possible solution. However, the data are heterogeneous, refer to physical interactions and functional location. They are represented in different ways as quantitative or qualitative information, being nominal or ordinal attributes. Sometimes organized in hierarchical structure or as a graph. In addition, it is unclear how each type of data can contribute to the inference and reduction of the error. Therefore, it is very important to understand the relationship between the biological information available. Also, it is important to investigate how to integrate them in the inference algorithm. Thus, this work has developed three data integration methodologies and also, the contribution of biological information was analyzed. The results showed that the combined use of expression data and biological information improves the inference. Moreover, the results shows distinct behaviour of distinct data in error reduction. Also, experiments that include topological features into the models, shows that the knowledge of the network topology can increase the corrctness of the inferred newtorks Biblioteca Digitais de Teses e Dissertações da USP Lopes, Fabricio Martins 2016-05-02 Tese de Doutorado application/pdf http://www.teses.usp.br/teses/disponiveis/95/95131/tde-27102016-162425/ pt Liberar o conteúdo para acesso público.