Algorithmique pour l’annotation automatique de peptides non ribosomiques

La composition monomérique de polymères joue un rôle essentiel dans la comparaison de structures et dans la biologie de synthèse. Cependant, la plupart des ressources moléculaires en ligne donne accès à la structure atomique des molécules et non à leur structure monomérique. Nous avons donc créé un...

Full description

Bibliographic Details
Main Author:	Dufresne, Yoann
Other Authors:	Lille 1
Language:	fr
Published:	2016
Subjects:	Annotation de polymères 005.74
Online Access:	http://www.theses.fr/2016LIL10147/document

id	ndltd-theses.fr-2016LIL10147
record_format	oai_dc
spelling	ndltd-theses.fr-2016LIL101472019-02-13T04:29:48Z Algorithmique pour l’annotation automatique de peptides non ribosomiques Algorithms for automatic annotation of non ribosomal peptides Annotation de polymères 005.74 La composition monomérique de polymères joue un rôle essentiel dans la comparaison de structures et dans la biologie de synthèse. Cependant, la plupart des ressources moléculaires en ligne donne accès à la structure atomique des molécules et non à leur structure monomérique. Nous avons donc créé un logiciel appelé smiles2monomers (s2m) pour inférer la structure monomérique passer des atomes aux monomères. L’algorithme sous-jacent se déroule en deux phases : une phase de recherche par isomorphisme de sous graphe des monomères au sein de la structure atomique puis une recherche du meilleur pavage non chevauchant des monomères trouvés. La recherche est basée sur un index markovien améliorant les vitesses de recherche de 30% par rapport à l’état de l’art. Le pavage est lui constitué d’un algorithme glouton couplé à un raffinement par “branch & cut”. s2m a été testé sur deux jeux de données déjà annotés. Il retrouve les annotations manuelles avec une excellente sensibilité en des temps très courts. Notre équipe développe Norine, base de données de référence de polymères particuliers appelés Peptides Non Ribosomiques (NRP). s2m, exécuté sur l’ensemble des données de Norine, a mis à jour de nombreuses annotations erronées en base. s2m est donc à la fois capable de créer de nouvelles annotations et d’en corriger des anciennes. Les nouvelles annotations nous servent à la fois à découvrir de nouveaux NRP, de nouvelles fonctionnalités NRP et potentiellement dans le futur à synthétiser des NRP non naturels. The monomeric composition of polymers is powerful for structure comparison and synthetic biology, among others. However, most of the online molecular resources only provide atomic structures but not monomeric structures. So, we designed a software called smiles2monomers (s2m) to infer monomeric structures from chemical ones. The underlying algorithm is composed of two steps: a search of the monomers using a subgraph isomorphism algorithm fitted to our data and a tiling algorithm to obtain the best coverage of the polymer by non-overlapping monomers. The search is based on a Markovian index improving the execution time by 30% compared to the state of art. The tiling is performed using a greedy algorithm refined by a “branch & cut” algorithm. s2m had been tested on two different already annotated datasets. The software reconstructed the manual annotations with an excellent sensibility in a very short time. Norine database, the reference knowledge base about specific polymers called Non Ri bosomal Peptides (NRP), is developed by our research group. s2m, executed on the Norine database, alerted us about wrong manual annotations. So, s2m not only creates new annotations, but also facilitates the process of annotation curation. The new annotations generated by the software are currently used for the discovery of new NRP, new activities and may be used to create completely new and artificial NRP. Electronic Thesis or Dissertation Text fr http://www.theses.fr/2016LIL10147/document Dufresne, Yoann 2016-12-01 Lille 1 Pupin, Maude Noé, Laurent
collection	NDLTD
language	fr
sources	NDLTD
topic	Annotation de polymères 005.74
spellingShingle	Annotation de polymères 005.74 Dufresne, Yoann Algorithmique pour l’annotation automatique de peptides non ribosomiques
description	La composition monomérique de polymères joue un rôle essentiel dans la comparaison de structures et dans la biologie de synthèse. Cependant, la plupart des ressources moléculaires en ligne donne accès à la structure atomique des molécules et non à leur structure monomérique. Nous avons donc créé un logiciel appelé smiles2monomers (s2m) pour inférer la structure monomérique passer des atomes aux monomères. L’algorithme sous-jacent se déroule en deux phases : une phase de recherche par isomorphisme de sous graphe des monomères au sein de la structure atomique puis une recherche du meilleur pavage non chevauchant des monomères trouvés. La recherche est basée sur un index markovien améliorant les vitesses de recherche de 30% par rapport à l’état de l’art. Le pavage est lui constitué d’un algorithme glouton couplé à un raffinement par “branch & cut”. s2m a été testé sur deux jeux de données déjà annotés. Il retrouve les annotations manuelles avec une excellente sensibilité en des temps très courts. Notre équipe développe Norine, base de données de référence de polymères particuliers appelés Peptides Non Ribosomiques (NRP). s2m, exécuté sur l’ensemble des données de Norine, a mis à jour de nombreuses annotations erronées en base. s2m est donc à la fois capable de créer de nouvelles annotations et d’en corriger des anciennes. Les nouvelles annotations nous servent à la fois à découvrir de nouveaux NRP, de nouvelles fonctionnalités NRP et potentiellement dans le futur à synthétiser des NRP non naturels. === The monomeric composition of polymers is powerful for structure comparison and synthetic biology, among others. However, most of the online molecular resources only provide atomic structures but not monomeric structures. So, we designed a software called smiles2monomers (s2m) to infer monomeric structures from chemical ones. The underlying algorithm is composed of two steps: a search of the monomers using a subgraph isomorphism algorithm fitted to our data and a tiling algorithm to obtain the best coverage of the polymer by non-overlapping monomers. The search is based on a Markovian index improving the execution time by 30% compared to the state of art. The tiling is performed using a greedy algorithm refined by a “branch & cut” algorithm. s2m had been tested on two different already annotated datasets. The software reconstructed the manual annotations with an excellent sensibility in a very short time. Norine database, the reference knowledge base about specific polymers called Non Ri bosomal Peptides (NRP), is developed by our research group. s2m, executed on the Norine database, alerted us about wrong manual annotations. So, s2m not only creates new annotations, but also facilitates the process of annotation curation. The new annotations generated by the software are currently used for the discovery of new NRP, new activities and may be used to create completely new and artificial NRP.
author2	Lille 1
author_facet	Lille 1 Dufresne, Yoann
author	Dufresne, Yoann
author_sort	Dufresne, Yoann
title	Algorithmique pour l’annotation automatique de peptides non ribosomiques
title_short	Algorithmique pour l’annotation automatique de peptides non ribosomiques
title_full	Algorithmique pour l’annotation automatique de peptides non ribosomiques
title_fullStr	Algorithmique pour l’annotation automatique de peptides non ribosomiques
title_full_unstemmed	Algorithmique pour l’annotation automatique de peptides non ribosomiques
title_sort	algorithmique pour l’annotation automatique de peptides non ribosomiques
publishDate	2016
url	http://www.theses.fr/2016LIL10147/document
work_keys_str_mv	AT dufresneyoann algorithmiquepourlannotationautomatiquedepeptidesnonribosomiques AT dufresneyoann algorithmsforautomaticannotationofnonribosomalpeptides
_version_	1718976026763067392

Algorithmique pour l’annotation automatique de peptides non ribosomiques

Similar Items