Predição de estruturas de proteínas utilizando restrições de ângulo diedrais

Submitted by Maria Cristina (library@lncc.br) on 2015-04-10T18:35:20Z No. of bitstreams: 1 Karina_Dissertacao_versao_final.pdf: 14328590 bytes, checksum: b09ee552401b05045498580540b46215 (MD5) === Approved for entry into archive by Maria Cristina (library@lncc.br) on 2015-04-10T18:35:35Z (GMT) No....

Full description

Bibliographic Details
Main Author: Santos, Karina Baptista dos
Other Authors: Dardenne, Laurent Emmanuel
Format: Others
Language:Portuguese
Published: Laboratório Nacional de Computação Científica 2015
Subjects:
Online Access:https://tede.lncc.br/handle/tede/204
Description
Summary:Submitted by Maria Cristina (library@lncc.br) on 2015-04-10T18:35:20Z No. of bitstreams: 1 Karina_Dissertacao_versao_final.pdf: 14328590 bytes, checksum: b09ee552401b05045498580540b46215 (MD5) === Approved for entry into archive by Maria Cristina (library@lncc.br) on 2015-04-10T18:35:35Z (GMT) No. of bitstreams: 1 Karina_Dissertacao_versao_final.pdf: 14328590 bytes, checksum: b09ee552401b05045498580540b46215 (MD5) === Made available in DSpace on 2015-04-10T18:35:48Z (GMT). No. of bitstreams: 1 Karina_Dissertacao_versao_final.pdf: 14328590 bytes, checksum: b09ee552401b05045498580540b46215 (MD5) Previous issue date: 2014-07-18 === Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (Capes) === Protein structure prediction is one of the most important problems in computational molecular biology and aims to determine the three dimensional structure of proteins solely from the amino acid sequence. It is considered that the amino acid sequence contains all the necessary information for the chain to adopt its native conformation under physiological conditions. The prediction of protein structure constitutes an extremely difficult optimization problem because, depending on the approximations made, it deals with hundreds or thousands of degrees of freedom and a complex search space associated with the multimodal energy hyper surface. Even for smaller proteins, the problem is computationally costly due the complexity of the optimization process. The goal of this work was the development of genetic operators for the GAPF program (Genetic Algorithm for Protein Folding – developed by GMSSB/LNCC). The operators work through the use of constraints in the search space of the main chain dihedral angles to accelerate the search algorithm and improve the predictive ability of the program. This work was developed in six stages: I - Building an matrix of dihedral angles phi and psi from a database of experimentally determined protein structures, with up to 20% identity; II - Development and introduction in the GAPF program of the RAMA mutation operators in order to use the dihedral angles matrix; III - Generation of initial population using information supplied by the matrix of dihedral angles; IV - Use of matrix of dihedral angles generated from fragments libraries specifically built for each sequence target; V - Verify the performance of the methodology when information from secondary structure prediction of the target sequence and protein structures database are provided; and VI - Evaluate the effect of these changes in terms of reducing the computational cost and quality of the predicted structures. The operators were tested in a set of eight proteins belonging to the following classes: preferably-alpha, alpha+beta, alpha\beta and preferably-beta. The results showed that the imposition the more favorable phi and psi for each amino acid as angular constraints reduced up to 75% the number of energy function evaluations necessary to obtain equivalent results without the use of these operators. Additionally, it was possible to obtain more accurate models, with a reduction of up to 4Å for RMSD and an increase of approximately 6% in GDT-TS of the bigger proteins of the test set, i.e. 1BDD and 1GYZ, when comparing with the values obtained for standard version of the GAPF program using the same number of evaluations. === A predição de estrutura de proteínas é um dos propósitos mais importantes da biologia molecular computacional e possui como objetivo determinar a estrutura tridimensional de proteínas a partir de suas sequências de aminoácidos. Na técnica de predição por primeiros princípios se considera que a sequência de aminoácidos de uma proteína contém toda a informação necessária para que a cadeia adote, em condições fisiológicas, sua conformação tridimensional nativa. Esse tipo de predição se constitui em um problema de otimização extremamente difícil visto que, dependendo das aproximações efetuadas, se lidam com centenas ou milhares de graus de liberdade e com um espaço de busca conformacional muito complexo associado à uma superfície de energia multimodal. Mesmo para uma pequena molécula de proteína, o problema é difícil de ser tratado computacionalmente devido ao alto custo em tempo de execução, além da complexidade associada ao processo de otimização. O objetivo deste trabalho foi o desenvolvimento de operadores genéticos que atuem no processo de otimização do programa GAPF (Genetic Algorithm for Protein Folding – desenvolvido pelo GMSSB/LNCC) através do uso de restrições no espaço de busca de ângulos diedrais associados à cadeia principal da proteína de modo a acelerar o processo de busca do algoritmo e melhorar a capacidade preditiva do programa. Esse trabalho se desenvolveu em seis etapas: I – Construção uma matriz de ângulos diedrais phi e psi a partir do banco de estruturas de proteínas determinadas experimentalmente, com até 20% de identidade; II - Desenvolvimento e introdução de operadores genéticos de mutação RAMA ao programa GAPF tendo em vista o uso da matriz de ângulos diedrais; III - Geração da população inicial empregando informações fornecidas pelas matrizes de ângulos diedrais; IV - Investigação do uso de matrizes de ângulos diedrais geradas a partir de bibliotecas de fragmentos específicas para cada sequência alvo; V - Verificar o desempenho da metodologia ao serem introduzidas informações a respeito da estrutura secundária da sequência alvo e das proteínas do banco de estruturas usado; e VI - Avaliar o efeito das modificações introduzidas no algoritmo em termos de redução do custo computacional e qualidade das estruturas preditas. A utilização dos operadores foi testada na predição de um conjunto de oito proteínas, pertencentes às classes: preferencialmente alpha; alpha+beta; alpha\beta e preferencialmente beta. Os resultados obtidos mostraram que a imposição de restrições angulares associadas à utilização dos ângulos phi e psi mais favoráveis para cada tipo de resíduo, proporcionaram uma redução de até 75\% do número de avaliações de função de energia necessário para se obter um resultado equivalente sem o uso desses operadores. Adicionalmente, foi possível obter predições de estruturas mais acuradas, com uma redução de até 4Å nos valores de RMSD e um acréscimo de aproximadamente 6% nos valores de GDT-TS das maiores proteínas do conjunto teste, isto é, 1BDD e 1GYZ, quando comparados aos valores obtidos com o GAPF padrão para o mesmo número de avaliações.