Identificação in silico de ncRNAs no organismo modelo Halobacterium salinarum NRC-1

A regulação da expressão gênica ocorre como um fenômeno essencial nos processos celulares em resposta a dinamicidade mútua estabelecida entre um organismo e seu meio. Além dos elementos reguladores já conhecidos, como fatores de transcrição ou modificações pós-transcricionais, observa-se um cres...

Full description

Bibliographic Details
Main Author: Marcos Abraão de Souza Fonseca
Other Authors: Ricardo Zorzetto Nicoliello Vencio
Language:Portuguese
Published: Universidade de São Paulo 2016
Subjects:
Online Access:http://www.teses.usp.br/teses/disponiveis/95/95131/tde-27102016-151254/
id ndltd-IBICT-oai-teses.usp.br-tde-27102016-151254
record_format oai_dc
collection NDLTD
language Portuguese
sources NDLTD
topic Aprendizado de máquina
Halobactrium salinarum
Interação RNA-Proteína
RNAs não-codificadores
Halobacterium salinarum
Machine learning
Non-coding RNAs
RNA-Protein interaction
spellingShingle Aprendizado de máquina
Halobactrium salinarum
Interação RNA-Proteína
RNAs não-codificadores
Halobacterium salinarum
Machine learning
Non-coding RNAs
RNA-Protein interaction
Marcos Abraão de Souza Fonseca
Identificação in silico de ncRNAs no organismo modelo Halobacterium salinarum NRC-1
description A regulação da expressão gênica ocorre como um fenômeno essencial nos processos celulares em resposta a dinamicidade mútua estabelecida entre um organismo e seu meio. Além dos elementos reguladores já conhecidos, como fatores de transcrição ou modificações pós-transcricionais, observa-se um crescente interesse no papel de regulação desempenhado por moléculas de RNA não codificadores (ncRNA), que podem atuar em vários níveis de processamento da informação biológica. Organismos modelos oferecem uma forma conveniente de pesquisa e diferentes grupos buscam direcionar seus estudos para um entendimento mais amplo no que se refere aos mecanismos celulares presentes nesses organismos. Apesar da existência de alguns elementos conhecidos para o organismo modelo Halobacterium salinarum, acreditamos que nem todos seus elementos de ncRNAs foram identificados. Nesse contexto, desenvolvemos uma análise in silico para a identificação de novos ncRNAs em H. salinarum NRC-1 e aplicamos metodologias para a predição de possíveis interações RNA-Proteína. Com base em uma pespectiva de integração de dados e diferentes metodologias existentes, modelos de Aprendizado de Máquina (AM) foram criados e utilizados para a definição de regiões candidatas a ncRNAs. De acordo com os resultados, 42 novos ncRNAs puderam ser identificados e possibilitaram completar o catálogo de genes ncRNAs de H. salinarum NRC-1 e aumentar o universo conhecido destes em 82%. A análise dos resultados obtidos por outras abordagens disponíveis para a identificação de ncRNAs corroboram com alguns dos candidatos sugeridos neste trabalho. Adicionalmente, foram aplicados e avaliados métodos, também baseados em AM, para a identificação de candidatos à interação com a proteína de interesse LSm, presente no organismo em estudo, no intuito de incluir uma possível caracterização funcional de ncRNAs. Os resultados alcançados na aplicação metodologias para a predição de interações RNA-Proteína não foram suficientes para a criação de um modelo com predições de alto grau de acurácia porém, contribuem como estudos preliminares e discussões para o desenvolvimento de outras estratégias. === The gene expression regulation occurs on different cell levels in response to dynamics established between an organism and its environment. In addition to the regulatory elements already known, for instance, transcription factors or post-translation modifications, there is growing interests in the regulatory role played by non-coding RNA molecules (ncRNA) whose functions can be performed on different level of biological information processing. Model organisms allow a convenient way to work on laboratory and different research groups aiming to guide their studies for a mutual and wide understanding of the cellular mechanisms present on these organisms. Although some ncRNAs elements have been found in Halobacterium salinarum model organism we believe that not enough is knowing about these genomic regions. In these context, an in silico analysis for ncRNAs identification and RNA-protein prediction approach were applied to H. salinarum NRC-1. Considering a data integration perspective and some available methodologies, several machine learning models was built and used to designate candidate ncRNAs genome regions. According to achieve results, 42 new ncRNAs could be identified, increasing 82% the total of known ncRNAs in H. salinarum NRC-1. Combing analysis with other available tools, it had been observed that some suggested candidates also was found with different methodologies and thus, it highlights the proposed results. Additionally, we developed and analyzed methods, also machine learning based, to predict ncRNAs candidates to interact with LSm protein, present on the interested model organism aiming a basic ncRNA characterization. The achieved results in this part was not satisfactory since the applied models were not substantially accurate predictions. However, we believe that these preliminary results can contribute with some discussions to new different approaches.
author2 Ricardo Zorzetto Nicoliello Vencio
author_facet Ricardo Zorzetto Nicoliello Vencio
Marcos Abraão de Souza Fonseca
author Marcos Abraão de Souza Fonseca
author_sort Marcos Abraão de Souza Fonseca
title Identificação in silico de ncRNAs no organismo modelo Halobacterium salinarum NRC-1
title_short Identificação in silico de ncRNAs no organismo modelo Halobacterium salinarum NRC-1
title_full Identificação in silico de ncRNAs no organismo modelo Halobacterium salinarum NRC-1
title_fullStr Identificação in silico de ncRNAs no organismo modelo Halobacterium salinarum NRC-1
title_full_unstemmed Identificação in silico de ncRNAs no organismo modelo Halobacterium salinarum NRC-1
title_sort identificação in silico de ncrnas no organismo modelo halobacterium salinarum nrc-1
publisher Universidade de São Paulo
publishDate 2016
url http://www.teses.usp.br/teses/disponiveis/95/95131/tde-27102016-151254/
work_keys_str_mv AT marcosabraaodesouzafonseca identificacaoinsilicodencrnasnoorganismomodelohalobacteriumsalinarumnrc1
AT marcosabraaodesouzafonseca insilicoidentificationofnoncodingrnasinhalobacteriumsalinarumnrc1modelarcheonorganism
_version_ 1718921246885806080
spelling ndltd-IBICT-oai-teses.usp.br-tde-27102016-1512542019-01-22T00:26:08Z Identificação in silico de ncRNAs no organismo modelo Halobacterium salinarum NRC-1 In Silico identification of non-coding RNAs in Halobacterium salinarum NRC-1 model archeon organism Marcos Abraão de Souza Fonseca Ricardo Zorzetto Nicoliello Vencio Angela Kaysel Cruz Georgios Joannis Pappas Junior Aline Maria da Silva Maria Emília Machado Telles Walter Aprendizado de máquina Halobactrium salinarum Interação RNA-Proteína RNAs não-codificadores Halobacterium salinarum Machine learning Non-coding RNAs RNA-Protein interaction A regulação da expressão gênica ocorre como um fenômeno essencial nos processos celulares em resposta a dinamicidade mútua estabelecida entre um organismo e seu meio. Além dos elementos reguladores já conhecidos, como fatores de transcrição ou modificações pós-transcricionais, observa-se um crescente interesse no papel de regulação desempenhado por moléculas de RNA não codificadores (ncRNA), que podem atuar em vários níveis de processamento da informação biológica. Organismos modelos oferecem uma forma conveniente de pesquisa e diferentes grupos buscam direcionar seus estudos para um entendimento mais amplo no que se refere aos mecanismos celulares presentes nesses organismos. Apesar da existência de alguns elementos conhecidos para o organismo modelo Halobacterium salinarum, acreditamos que nem todos seus elementos de ncRNAs foram identificados. Nesse contexto, desenvolvemos uma análise in silico para a identificação de novos ncRNAs em H. salinarum NRC-1 e aplicamos metodologias para a predição de possíveis interações RNA-Proteína. Com base em uma pespectiva de integração de dados e diferentes metodologias existentes, modelos de Aprendizado de Máquina (AM) foram criados e utilizados para a definição de regiões candidatas a ncRNAs. De acordo com os resultados, 42 novos ncRNAs puderam ser identificados e possibilitaram completar o catálogo de genes ncRNAs de H. salinarum NRC-1 e aumentar o universo conhecido destes em 82%. A análise dos resultados obtidos por outras abordagens disponíveis para a identificação de ncRNAs corroboram com alguns dos candidatos sugeridos neste trabalho. Adicionalmente, foram aplicados e avaliados métodos, também baseados em AM, para a identificação de candidatos à interação com a proteína de interesse LSm, presente no organismo em estudo, no intuito de incluir uma possível caracterização funcional de ncRNAs. Os resultados alcançados na aplicação metodologias para a predição de interações RNA-Proteína não foram suficientes para a criação de um modelo com predições de alto grau de acurácia porém, contribuem como estudos preliminares e discussões para o desenvolvimento de outras estratégias. The gene expression regulation occurs on different cell levels in response to dynamics established between an organism and its environment. In addition to the regulatory elements already known, for instance, transcription factors or post-translation modifications, there is growing interests in the regulatory role played by non-coding RNA molecules (ncRNA) whose functions can be performed on different level of biological information processing. Model organisms allow a convenient way to work on laboratory and different research groups aiming to guide their studies for a mutual and wide understanding of the cellular mechanisms present on these organisms. Although some ncRNAs elements have been found in Halobacterium salinarum model organism we believe that not enough is knowing about these genomic regions. In these context, an in silico analysis for ncRNAs identification and RNA-protein prediction approach were applied to H. salinarum NRC-1. Considering a data integration perspective and some available methodologies, several machine learning models was built and used to designate candidate ncRNAs genome regions. According to achieve results, 42 new ncRNAs could be identified, increasing 82% the total of known ncRNAs in H. salinarum NRC-1. Combing analysis with other available tools, it had been observed that some suggested candidates also was found with different methodologies and thus, it highlights the proposed results. Additionally, we developed and analyzed methods, also machine learning based, to predict ncRNAs candidates to interact with LSm protein, present on the interested model organism aiming a basic ncRNA characterization. The achieved results in this part was not satisfactory since the applied models were not substantially accurate predictions. However, we believe that these preliminary results can contribute with some discussions to new different approaches. 2016-04-25 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/doctoralThesis http://www.teses.usp.br/teses/disponiveis/95/95131/tde-27102016-151254/ por info:eu-repo/semantics/openAccess Universidade de São Paulo Bioinformática USP BR reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo instacron:USP