Geometria diferencial e teoria da informação aplicada a análise de ensembles conformacionais de proteínas

Um dos maiores desafios atuais na biologia estrutural é como lidar com flexibilidade de proteínas. Além do desafio experimental, uma limitação teórica é a falta de uma linguagem matemática conveniente para representação do espaço conformacional de proteínas. As representações mais populares apre...

Full description

Bibliographic Details
Main Author: Antonio Marinho da Silva Neto
Other Authors: Glaucius Oliva
Language:Portuguese
Published: Universidade de São Paulo 2017
Subjects:
Online Access:http://www.teses.usp.br/teses/disponiveis/76/76132/tde-07032018-150722/
id ndltd-IBICT-oai-teses.usp.br-tde-07032018-150722
record_format oai_dc
collection NDLTD
language Portuguese
sources NDLTD
topic Análise conformacional
Espaço conformacional
Estrutura de proteínas
Geometria diferencial
Teoria da informação
Conformational analyses
Differential geometry
Flexibility
Information theory
Protein structure
spellingShingle Análise conformacional
Espaço conformacional
Estrutura de proteínas
Geometria diferencial
Teoria da informação
Conformational analyses
Differential geometry
Flexibility
Information theory
Protein structure
Antonio Marinho da Silva Neto
Geometria diferencial e teoria da informação aplicada a análise de ensembles conformacionais de proteínas
description Um dos maiores desafios atuais na biologia estrutural é como lidar com flexibilidade de proteínas. Além do desafio experimental, uma limitação teórica é a falta de uma linguagem matemática conveniente para representação do espaço conformacional de proteínas. As representações mais populares apresentam diversas limitações, que se refletem nas dificuldades associadas à análise de ensembles conformacionais. Nesse contexto, a aplicação de geometria diferencial (GD) e teoria da informação (TI) foi pouco explorada. Neste trabalho investigamos o uso de descritores de GD e TI como uma representação matemática do espaço conformacional de proteínas aplicada à análise de ensembles conformacionais. O cálculo dos descritores de GD consiste em representar o backbone de proteínas como curvas espaciais e caracterizá-las utilizando os seus valores de curvatura, κ, e torção, τ . Baseado nesses valores, definimos medidas de flexibilidade, de distância entre conformações e aplicamos uma estratégia de clustering para identificação de estados conformacionais. Para permitir a aplicação de TI, desenvolvemos um sistema de codificação desses descritores para expressar cada conformação por uma sequência de símbolos finitos. A partir dessas sequências, definimos uma medida da informação associada a um resíduo, Rres, e a uma conformação, Rconf. Para investigar sua eficácia, aplicamos os métodos propostos aos ensembles conformacionais de três sistemas testes: 1) Ubiquitina, 2) E1-DBD do HPV18 e 3) as etapas de formação do complexo c-Myb-KIX. A análise da representação por geometria diferencial se mostrou igualmente eficaz ou superior aos métodos comumente utilizados em todos os sistemas analisados. O método é especialmente útil para monitoramento de estabilidade de hélices e para análise de proteínas e regiões muito flexíveis, pois evita a necessidade de sobreposição estrutural. Os valores de Rconf se apresentaram úteis para análise de processos de enovelamento e resíduos próximos a regiões funcionais tendem a apresentar maiores valores Rres. No entanto, o papel desses resíduos é incerto e mais estudos são necessários para determinar se há e qual é seu real significado. Apesar disso, as medidas de informação se mostraram úteis para comparação de estados conformacionais e permitem levantar hipóteses testáveis em laboratório. Por fim, a representação por GD é computacionalmente conveniente, intuitiva, evita todas as limitações dos métodos popularmente utilizados e se mostrou eficaz para análise de ensembles conformacionais. === One of the major challenges of modern structural biology is how to deal with protein flexibility. Besides the experimental difficulties, a relatively overlooked theoretical challenge is the lack of a proper mathematical language to represent proteín conformational space. The most popular representations have severe limitations, which reflects on the difficulties associated with conformational ensemble analyses. However, differential geometry (GD) and information theory (TI) can help to overcome such difficulties and were not well explored in this context. Here we investigate the usage of DG and TI as a mathematical representation of protein conformational space applied to the analyses of conformational ensembles. The DG descriptors calculation consists of representing protein backbone as a spatial curve and describes it by its curvature, κ, and torsion, τ . Based on those values, the distance between conformation and flexibility measurements were defined and a clustering algorithm was applied to identify conformational states. For the application of TI, a coding system for DG descriptors was developed to express each conformation as a sequence of finite symbols. Based on those sequences, information measurements associated to a residue, Rres, and to a conformation, Rconf , were defined. To investigate its efficacy, the proposed method was applied to conformation ensembles of three test systems: 1) Ubiquitin, 2) E1-DBD of HPV18 and 3) the steps of c-Myb-KIX binding. The DG analyses show equally good or superior performance when compared with popular methods on all tested system. In addition, the methods are especially useful to monitoring helix stability and analyses of very flexible proteins (or regions), since avoids the necessity of superposing structures. The values of Rconf are useful to compare different steps of a folding process and residues near regions involved in binding events tend to present higher values of Rres. However, those residues importance is uncertain and further studies are necessary to determinate if and how those can contribute to protein function. Nevertheless, the information measurements were informative on the comparison of compare conformational states and allow to formulate a testable hypothesis. On the other hand, the GD representation is computationally convenient, intuitive and avoid most of the limitations of the popular method applied to conformational ensemble analyses.
author2 Glaucius Oliva
author_facet Glaucius Oliva
Antonio Marinho da Silva Neto
author Antonio Marinho da Silva Neto
author_sort Antonio Marinho da Silva Neto
title Geometria diferencial e teoria da informação aplicada a análise de ensembles conformacionais de proteínas
title_short Geometria diferencial e teoria da informação aplicada a análise de ensembles conformacionais de proteínas
title_full Geometria diferencial e teoria da informação aplicada a análise de ensembles conformacionais de proteínas
title_fullStr Geometria diferencial e teoria da informação aplicada a análise de ensembles conformacionais de proteínas
title_full_unstemmed Geometria diferencial e teoria da informação aplicada a análise de ensembles conformacionais de proteínas
title_sort geometria diferencial e teoria da informação aplicada a análise de ensembles conformacionais de proteínas
publisher Universidade de São Paulo
publishDate 2017
url http://www.teses.usp.br/teses/disponiveis/76/76132/tde-07032018-150722/
work_keys_str_mv AT antoniomarinhodasilvaneto geometriadiferencialeteoriadainformacaoaplicadaaanalisedeensemblesconformacionaisdeproteinas
AT antoniomarinhodasilvaneto differentialgeometryandinformationtheoryapplicationtoproteinconformationalanalyses
_version_ 1718908190148526080
spelling ndltd-IBICT-oai-teses.usp.br-tde-07032018-1507222019-01-21T23:32:10Z Geometria diferencial e teoria da informação aplicada a análise de ensembles conformacionais de proteínas Differential geometry and information theory application to protein conformational analyses Antonio Marinho da Silva Neto Glaucius Oliva Rinaldo Wander Montalvão Jorge Chahine Kaline Rabelo Coutinho Luiz Carlos Gomide Freitas João Renato Carvalho Muniz Análise conformacional Espaço conformacional Estrutura de proteínas Geometria diferencial Teoria da informação Conformational analyses Differential geometry Flexibility Information theory Protein structure Um dos maiores desafios atuais na biologia estrutural é como lidar com flexibilidade de proteínas. Além do desafio experimental, uma limitação teórica é a falta de uma linguagem matemática conveniente para representação do espaço conformacional de proteínas. As representações mais populares apresentam diversas limitações, que se refletem nas dificuldades associadas à análise de ensembles conformacionais. Nesse contexto, a aplicação de geometria diferencial (GD) e teoria da informação (TI) foi pouco explorada. Neste trabalho investigamos o uso de descritores de GD e TI como uma representação matemática do espaço conformacional de proteínas aplicada à análise de ensembles conformacionais. O cálculo dos descritores de GD consiste em representar o backbone de proteínas como curvas espaciais e caracterizá-las utilizando os seus valores de curvatura, κ, e torção, τ . Baseado nesses valores, definimos medidas de flexibilidade, de distância entre conformações e aplicamos uma estratégia de clustering para identificação de estados conformacionais. Para permitir a aplicação de TI, desenvolvemos um sistema de codificação desses descritores para expressar cada conformação por uma sequência de símbolos finitos. A partir dessas sequências, definimos uma medida da informação associada a um resíduo, Rres, e a uma conformação, Rconf. Para investigar sua eficácia, aplicamos os métodos propostos aos ensembles conformacionais de três sistemas testes: 1) Ubiquitina, 2) E1-DBD do HPV18 e 3) as etapas de formação do complexo c-Myb-KIX. A análise da representação por geometria diferencial se mostrou igualmente eficaz ou superior aos métodos comumente utilizados em todos os sistemas analisados. O método é especialmente útil para monitoramento de estabilidade de hélices e para análise de proteínas e regiões muito flexíveis, pois evita a necessidade de sobreposição estrutural. Os valores de Rconf se apresentaram úteis para análise de processos de enovelamento e resíduos próximos a regiões funcionais tendem a apresentar maiores valores Rres. No entanto, o papel desses resíduos é incerto e mais estudos são necessários para determinar se há e qual é seu real significado. Apesar disso, as medidas de informação se mostraram úteis para comparação de estados conformacionais e permitem levantar hipóteses testáveis em laboratório. Por fim, a representação por GD é computacionalmente conveniente, intuitiva, evita todas as limitações dos métodos popularmente utilizados e se mostrou eficaz para análise de ensembles conformacionais. One of the major challenges of modern structural biology is how to deal with protein flexibility. Besides the experimental difficulties, a relatively overlooked theoretical challenge is the lack of a proper mathematical language to represent proteín conformational space. The most popular representations have severe limitations, which reflects on the difficulties associated with conformational ensemble analyses. However, differential geometry (GD) and information theory (TI) can help to overcome such difficulties and were not well explored in this context. Here we investigate the usage of DG and TI as a mathematical representation of protein conformational space applied to the analyses of conformational ensembles. The DG descriptors calculation consists of representing protein backbone as a spatial curve and describes it by its curvature, κ, and torsion, τ . Based on those values, the distance between conformation and flexibility measurements were defined and a clustering algorithm was applied to identify conformational states. For the application of TI, a coding system for DG descriptors was developed to express each conformation as a sequence of finite symbols. Based on those sequences, information measurements associated to a residue, Rres, and to a conformation, Rconf , were defined. To investigate its efficacy, the proposed method was applied to conformation ensembles of three test systems: 1) Ubiquitin, 2) E1-DBD of HPV18 and 3) the steps of c-Myb-KIX binding. The DG analyses show equally good or superior performance when compared with popular methods on all tested system. In addition, the methods are especially useful to monitoring helix stability and analyses of very flexible proteins (or regions), since avoids the necessity of superposing structures. The values of Rconf are useful to compare different steps of a folding process and residues near regions involved in binding events tend to present higher values of Rres. However, those residues importance is uncertain and further studies are necessary to determinate if and how those can contribute to protein function. Nevertheless, the information measurements were informative on the comparison of compare conformational states and allow to formulate a testable hypothesis. On the other hand, the GD representation is computationally convenient, intuitive and avoid most of the limitations of the popular method applied to conformational ensemble analyses. 2017-12-19 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/doctoralThesis http://www.teses.usp.br/teses/disponiveis/76/76132/tde-07032018-150722/ por info:eu-repo/semantics/openAccess Universidade de São Paulo Física USP BR reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo instacron:USP