Algorithmique pour l’annotation automatique de peptides non ribosomiques

La composition monomérique de polymères joue un rôle essentiel dans la comparaison de structures et dans la biologie de synthèse. Cependant, la plupart des ressources moléculaires en ligne donne accès à la structure atomique des molécules et non à leur structure monomérique. Nous avons donc créé un...

Full description

Bibliographic Details
Main Author: Dufresne, Yoann
Other Authors: Lille 1
Language:fr
Published: 2016
Subjects:
Online Access:http://www.theses.fr/2016LIL10147/document
id ndltd-theses.fr-2016LIL10147
record_format oai_dc
spelling ndltd-theses.fr-2016LIL101472019-02-13T04:29:48Z Algorithmique pour l’annotation automatique de peptides non ribosomiques Algorithms for automatic annotation of non ribosomal peptides Annotation de polymères 005.74 La composition monomérique de polymères joue un rôle essentiel dans la comparaison de structures et dans la biologie de synthèse. Cependant, la plupart des ressources moléculaires en ligne donne accès à la structure atomique des molécules et non à leur structure monomérique. Nous avons donc créé un logiciel appelé smiles2monomers (s2m) pour inférer la structure monomérique passer des atomes aux monomères. L’algorithme sous-jacent se déroule en deux phases : une phase de recherche par isomorphisme de sous graphe des monomères au sein de la structure atomique puis une recherche du meilleur pavage non chevauchant des monomères trouvés. La recherche est basée sur un index markovien améliorant les vitesses de recherche de 30% par rapport à l’état de l’art. Le pavage est lui constitué d’un algorithme glouton couplé à un raffinement par “branch & cut”. s2m a été testé sur deux jeux de données déjà annotés. Il retrouve les annotations manuelles avec une excellente sensibilité en des temps très courts. Notre équipe développe Norine, base de données de référence de polymères particuliers appelés Peptides Non Ribosomiques (NRP). s2m, exécuté sur l’ensemble des données de Norine, a mis à jour de nombreuses annotations erronées en base. s2m est donc à la fois capable de créer de nouvelles annotations et d’en corriger des anciennes. Les nouvelles annotations nous servent à la fois à découvrir de nouveaux NRP, de nouvelles fonctionnalités NRP et potentiellement dans le futur à synthétiser des NRP non naturels. The monomeric composition of polymers is powerful for structure comparison and synthetic biology, among others. However, most of the online molecular resources only provide atomic structures but not monomeric structures. So, we designed a software called smiles2monomers (s2m) to infer monomeric structures from chemical ones. The underlying algorithm is composed of two steps: a search of the monomers using a subgraph isomorphism algorithm fitted to our data and a tiling algorithm to obtain the best coverage of the polymer by non-overlapping monomers. The search is based on a Markovian index improving the execution time by 30% compared to the state of art. The tiling is performed using a greedy algorithm refined by a “branch & cut” algorithm. s2m had been tested on two different already annotated datasets. The software reconstructed the manual annotations with an excellent sensibility in a very short time. Norine database, the reference knowledge base about specific polymers called Non Ri bosomal Peptides (NRP), is developed by our research group. s2m, executed on the Norine database, alerted us about wrong manual annotations. So, s2m not only creates new annotations, but also facilitates the process of annotation curation. The new annotations generated by the software are currently used for the discovery of new NRP, new activities and may be used to create completely new and artificial NRP. Electronic Thesis or Dissertation Text fr http://www.theses.fr/2016LIL10147/document Dufresne, Yoann 2016-12-01 Lille 1 Pupin, Maude Noé, Laurent
collection NDLTD
language fr
sources NDLTD
topic Annotation de polymères
005.74
spellingShingle Annotation de polymères
005.74
Dufresne, Yoann
Algorithmique pour l’annotation automatique de peptides non ribosomiques
description La composition monomérique de polymères joue un rôle essentiel dans la comparaison de structures et dans la biologie de synthèse. Cependant, la plupart des ressources moléculaires en ligne donne accès à la structure atomique des molécules et non à leur structure monomérique. Nous avons donc créé un logiciel appelé smiles2monomers (s2m) pour inférer la structure monomérique passer des atomes aux monomères. L’algorithme sous-jacent se déroule en deux phases : une phase de recherche par isomorphisme de sous graphe des monomères au sein de la structure atomique puis une recherche du meilleur pavage non chevauchant des monomères trouvés. La recherche est basée sur un index markovien améliorant les vitesses de recherche de 30% par rapport à l’état de l’art. Le pavage est lui constitué d’un algorithme glouton couplé à un raffinement par “branch & cut”. s2m a été testé sur deux jeux de données déjà annotés. Il retrouve les annotations manuelles avec une excellente sensibilité en des temps très courts. Notre équipe développe Norine, base de données de référence de polymères particuliers appelés Peptides Non Ribosomiques (NRP). s2m, exécuté sur l’ensemble des données de Norine, a mis à jour de nombreuses annotations erronées en base. s2m est donc à la fois capable de créer de nouvelles annotations et d’en corriger des anciennes. Les nouvelles annotations nous servent à la fois à découvrir de nouveaux NRP, de nouvelles fonctionnalités NRP et potentiellement dans le futur à synthétiser des NRP non naturels. === The monomeric composition of polymers is powerful for structure comparison and synthetic biology, among others. However, most of the online molecular resources only provide atomic structures but not monomeric structures. So, we designed a software called smiles2monomers (s2m) to infer monomeric structures from chemical ones. The underlying algorithm is composed of two steps: a search of the monomers using a subgraph isomorphism algorithm fitted to our data and a tiling algorithm to obtain the best coverage of the polymer by non-overlapping monomers. The search is based on a Markovian index improving the execution time by 30% compared to the state of art. The tiling is performed using a greedy algorithm refined by a “branch & cut” algorithm. s2m had been tested on two different already annotated datasets. The software reconstructed the manual annotations with an excellent sensibility in a very short time. Norine database, the reference knowledge base about specific polymers called Non Ri bosomal Peptides (NRP), is developed by our research group. s2m, executed on the Norine database, alerted us about wrong manual annotations. So, s2m not only creates new annotations, but also facilitates the process of annotation curation. The new annotations generated by the software are currently used for the discovery of new NRP, new activities and may be used to create completely new and artificial NRP.
author2 Lille 1
author_facet Lille 1
Dufresne, Yoann
author Dufresne, Yoann
author_sort Dufresne, Yoann
title Algorithmique pour l’annotation automatique de peptides non ribosomiques
title_short Algorithmique pour l’annotation automatique de peptides non ribosomiques
title_full Algorithmique pour l’annotation automatique de peptides non ribosomiques
title_fullStr Algorithmique pour l’annotation automatique de peptides non ribosomiques
title_full_unstemmed Algorithmique pour l’annotation automatique de peptides non ribosomiques
title_sort algorithmique pour l’annotation automatique de peptides non ribosomiques
publishDate 2016
url http://www.theses.fr/2016LIL10147/document
work_keys_str_mv AT dufresneyoann algorithmiquepourlannotationautomatiquedepeptidesnonribosomiques
AT dufresneyoann algorithmsforautomaticannotationofnonribosomalpeptides
_version_ 1718976026763067392