Predição de regiões promotoras em Bacillus subtilis através do uso de redes neurais artificiais e máquinas de vetor de suporte

O processo de transcrição diz respeito à leitura da informação contida no DNA para geração do RNA mensageiro correspondente. Para iniciar o processo de transcrição de um determinado gene, a enzima RNA polimerase necessita reconhecer a região promotora, atuando assim na regulação da expressão dos gen...

Full description

Bibliographic Details
Main Author: Coelho, Rafael Vieira
Other Authors: Lemke, Ney
Language:Portuguese
Published: 2018
Subjects:
Online Access:https://repositorio.ucs.br/handle/11338/3795
id ndltd-IBICT-oai-repositorio.ucs.br-11338-3795
record_format oai_dc
collection NDLTD
language Portuguese
sources NDLTD
topic Bacillus subtilis
Biotecnologia
Redes neurais (Computação)
Bacillus subtilis
Biotechnology
Neural networks (Computer science)
spellingShingle Bacillus subtilis
Biotecnologia
Redes neurais (Computação)
Bacillus subtilis
Biotechnology
Neural networks (Computer science)
Coelho, Rafael Vieira
Predição de regiões promotoras em Bacillus subtilis através do uso de redes neurais artificiais e máquinas de vetor de suporte
description O processo de transcrição diz respeito à leitura da informação contida no DNA para geração do RNA mensageiro correspondente. Para iniciar o processo de transcrição de um determinado gene, a enzima RNA polimerase necessita reconhecer a região promotora, atuando assim na regulação da expressão dos genes. A literatura propõe diversos métodos computacionais para a predição de sequências promotoras, mas a maioria dos trabalhos concentra-se em bactérias Gram-negativas. O objetivo deste trabalho é predizer promotores em regiões intergênicas da bactéria Bacillus subtilis (Gram-positiva) através da aplicação de técnicas de aprendizado de máquina: Redes Neurais Artificias (RN) e Máquinas de Vetor de Suporte (SVM). O treinamento das RN foi realizado através do algoritmo Multilayer Perceptron (MLP) que se baseia na regra de aprendizagem por correção de erro (backpropagation). Já para SVM, destaca-se os kernels (faz o mapeamento no espaço de características para a identificação dos vetores de suporte ideais) Radial Basis Function (RBF) que utiliza uma função gaussiana; SIGMOID que utiliza uma função de tangente hiperbólica; e Nu-Support Vector Classification (Nu-SVC) que limita o custo de penalização entre 0 e 1. O primeiro passo do trabalho foi a coleta do genoma e dos promotores reconhecidos pelos fatores sigma da bactéria Bacillus subtilis a partir dos dadoscontidos em bancos de dados públicos. O processamento dos dados biológicos obtidos da bactéria Bacillus subtilis gerou 767 regiões promotoras, sendo a maioria encontrada a partir do fator Sigma SigA. Estes dados foram processados e utilizados como entrada na aplicação das técnicas de aprendizado de máquina RN e SVM. Desta forma, foi possível comparar o desempenho das duas soluções para o problema em questão. Em ambas as soluções foram usados os mesmos dados de entrada e validação cruzada (k-cross validation) de 5-fold. Os resultados são condizentes e competitivos com os encontrados na literatura, obtendo 93.20% e 95.63% de acurácia em sua predição com o SVM (combinando os kernels SIGMOID e RBF com o algoritmo Nu-SVC) e obtendo 98.57% e 97.69% de acurácia em sua predição com RN (MLP com 5 e 7 neurônios na camada oculta e 1 neurônio na camada de saída). A partir dos resultados obtidos, é possível afirmar que a predição, reconhecimento e caracterização de regiões promotoras de Bacillus subtilis pode ser realizado com sucesso tanto usando RN quanto SVM, embora RN tenha obtido melhor desempenho. === Coordenação de Aperfeiçoamento de Pessoal de Nível Superior === The transcription process concerns reading the information contained in DNA to generate the corresponding messenger RNA. To initiate the transcription process of a given gene, RNA polymerase enzyme needs to recognize the promoter region, thereby regulating gene expression. Literature proposes several computational methods to predict promoter sequences, but most of them is focused on Gramnegative bacteria. Therefore, the objective of this work is to predict promoters in intergenic regions of the Bacillus subtilis bacterium (Gram-positive) through the application of machine learning techniques: Artificial Neural Networks (RN) and Support Vector Machines (SVM). The training of the RN was performed through the Multilayer Perceptron (MLP) algorithm that is based on the error correction learning rule (backpropagation). For SVM, the kernels (maps the characteristics space to identify ideal support vectors) that stands out are Radial Basis Function (RBF) that uses a Gaussian function; SIGMOID that uses a hyperbolic tangent function; and Nu- Support Vector Classification (Nu-SVC) that limits the penalty cost between 0 and 1. The first step was to obtain the genome and the promoters recognized by the Sigma factors of Bacillus subtilis from data in public data bases. Biological data gathered from Bacillus subtilis generated 767 promoter regions, being the majority found by Sigma SigA factor. These data were processed and used as input in RN and SVM machine learning techniques. Hence, it was possible to compare the efficiency of the two solutions. In both solutions, the same input data and 5-fold cross-validation were used. We obtained 93.20% and 95.63% accuracy in the SVM application (combining the SIGMOID and RBF kernels with the Nu-SVC algorithm). With RN (MLP with 5 and 7 neurons in the hidden layer and 1 neuron in the output layer), the best results were 98.57% and 97.69% accuracy. Both results are consistent and competitive when compared to those in literature. In addition, both solutions proved the reliability of the obtained data. Finally, it is possible to state that the prediction of Bacillus subtilis promoter regions can be successfully performed both using RN and SVM, although RN has obtained better performance.
author2 Lemke, Ney
author_facet Lemke, Ney
Coelho, Rafael Vieira
author Coelho, Rafael Vieira
author_sort Coelho, Rafael Vieira
title Predição de regiões promotoras em Bacillus subtilis através do uso de redes neurais artificiais e máquinas de vetor de suporte
title_short Predição de regiões promotoras em Bacillus subtilis através do uso de redes neurais artificiais e máquinas de vetor de suporte
title_full Predição de regiões promotoras em Bacillus subtilis através do uso de redes neurais artificiais e máquinas de vetor de suporte
title_fullStr Predição de regiões promotoras em Bacillus subtilis através do uso de redes neurais artificiais e máquinas de vetor de suporte
title_full_unstemmed Predição de regiões promotoras em Bacillus subtilis através do uso de redes neurais artificiais e máquinas de vetor de suporte
title_sort predição de regiões promotoras em bacillus subtilis através do uso de redes neurais artificiais e máquinas de vetor de suporte
publishDate 2018
url https://repositorio.ucs.br/handle/11338/3795
work_keys_str_mv AT coelhorafaelvieira predicaoderegioespromotorasembacillussubtilisatravesdousoderedesneuraisartificiaisemaquinasdevetordesuporte
_version_ 1718858210859810816
spelling ndltd-IBICT-oai-repositorio.ucs.br-11338-37952019-01-21T18:58:20Z Predição de regiões promotoras em Bacillus subtilis através do uso de redes neurais artificiais e máquinas de vetor de suporte Coelho, Rafael Vieira Lemke, Ney Dorn, Marcio Notari, Daniel Luís Delamare, Ana Paula Longaray Bacillus subtilis Biotecnologia Redes neurais (Computação) Bacillus subtilis Biotechnology Neural networks (Computer science) O processo de transcrição diz respeito à leitura da informação contida no DNA para geração do RNA mensageiro correspondente. Para iniciar o processo de transcrição de um determinado gene, a enzima RNA polimerase necessita reconhecer a região promotora, atuando assim na regulação da expressão dos genes. A literatura propõe diversos métodos computacionais para a predição de sequências promotoras, mas a maioria dos trabalhos concentra-se em bactérias Gram-negativas. O objetivo deste trabalho é predizer promotores em regiões intergênicas da bactéria Bacillus subtilis (Gram-positiva) através da aplicação de técnicas de aprendizado de máquina: Redes Neurais Artificias (RN) e Máquinas de Vetor de Suporte (SVM). O treinamento das RN foi realizado através do algoritmo Multilayer Perceptron (MLP) que se baseia na regra de aprendizagem por correção de erro (backpropagation). Já para SVM, destaca-se os kernels (faz o mapeamento no espaço de características para a identificação dos vetores de suporte ideais) Radial Basis Function (RBF) que utiliza uma função gaussiana; SIGMOID que utiliza uma função de tangente hiperbólica; e Nu-Support Vector Classification (Nu-SVC) que limita o custo de penalização entre 0 e 1. O primeiro passo do trabalho foi a coleta do genoma e dos promotores reconhecidos pelos fatores sigma da bactéria Bacillus subtilis a partir dos dadoscontidos em bancos de dados públicos. O processamento dos dados biológicos obtidos da bactéria Bacillus subtilis gerou 767 regiões promotoras, sendo a maioria encontrada a partir do fator Sigma SigA. Estes dados foram processados e utilizados como entrada na aplicação das técnicas de aprendizado de máquina RN e SVM. Desta forma, foi possível comparar o desempenho das duas soluções para o problema em questão. Em ambas as soluções foram usados os mesmos dados de entrada e validação cruzada (k-cross validation) de 5-fold. Os resultados são condizentes e competitivos com os encontrados na literatura, obtendo 93.20% e 95.63% de acurácia em sua predição com o SVM (combinando os kernels SIGMOID e RBF com o algoritmo Nu-SVC) e obtendo 98.57% e 97.69% de acurácia em sua predição com RN (MLP com 5 e 7 neurônios na camada oculta e 1 neurônio na camada de saída). A partir dos resultados obtidos, é possível afirmar que a predição, reconhecimento e caracterização de regiões promotoras de Bacillus subtilis pode ser realizado com sucesso tanto usando RN quanto SVM, embora RN tenha obtido melhor desempenho. Coordenação de Aperfeiçoamento de Pessoal de Nível Superior The transcription process concerns reading the information contained in DNA to generate the corresponding messenger RNA. To initiate the transcription process of a given gene, RNA polymerase enzyme needs to recognize the promoter region, thereby regulating gene expression. Literature proposes several computational methods to predict promoter sequences, but most of them is focused on Gramnegative bacteria. Therefore, the objective of this work is to predict promoters in intergenic regions of the Bacillus subtilis bacterium (Gram-positive) through the application of machine learning techniques: Artificial Neural Networks (RN) and Support Vector Machines (SVM). The training of the RN was performed through the Multilayer Perceptron (MLP) algorithm that is based on the error correction learning rule (backpropagation). For SVM, the kernels (maps the characteristics space to identify ideal support vectors) that stands out are Radial Basis Function (RBF) that uses a Gaussian function; SIGMOID that uses a hyperbolic tangent function; and Nu- Support Vector Classification (Nu-SVC) that limits the penalty cost between 0 and 1. The first step was to obtain the genome and the promoters recognized by the Sigma factors of Bacillus subtilis from data in public data bases. Biological data gathered from Bacillus subtilis generated 767 promoter regions, being the majority found by Sigma SigA factor. These data were processed and used as input in RN and SVM machine learning techniques. Hence, it was possible to compare the efficiency of the two solutions. In both solutions, the same input data and 5-fold cross-validation were used. We obtained 93.20% and 95.63% accuracy in the SVM application (combining the SIGMOID and RBF kernels with the Nu-SVC algorithm). With RN (MLP with 5 and 7 neurons in the hidden layer and 1 neuron in the output layer), the best results were 98.57% and 97.69% accuracy. Both results are consistent and competitive when compared to those in literature. In addition, both solutions proved the reliability of the obtained data. Finally, it is possible to state that the prediction of Bacillus subtilis promoter regions can be successfully performed both using RN and SVM, although RN has obtained better performance. 2018-06-06T12:45:00Z 2018-06-06T12:45:00Z 2018-06-07 2017-04-13 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/doctoralThesis https://repositorio.ucs.br/handle/11338/3795 por info:eu-repo/semantics/openAccess reponame:Repositório Institucional da UCS instname:Universidade de Caxias do Sul instacron:UCS