Use of data analysis techniques to solve specific bioinformatics problems

De nos jours, la quantité de données génétiques séquencées augmente de manière exponentielle sous l'impulsion d'outils de séquençage de plus en plus performants, tels que les outils de séquençage haut débit en particulier. De plus, ces données sont de plus en plus facilement accessibles gr...

Full description

Bibliographic Details
Main Author: Moulin, Serge
Other Authors: Bourgogne Franche-Comté
Language:en
fr
Published: 2018
Subjects:
005
519
Online Access:http://www.theses.fr/2018UBFCD049/document
id ndltd-theses.fr-2018UBFCD049
record_format oai_dc
spelling ndltd-theses.fr-2018UBFCD0492019-10-12T03:30:11Z Use of data analysis techniques to solve specific bioinformatics problems Apport de techniques d'analyse de données pour résoudre des problèmes spécifiques en bio-informatique Bio-Informatique Statistique Clustering de séquences génétiques Éléments transposables Courbes ROC Régression polytomique ordonnée Bioinformatics Statistic DNA clustering Transposable elements ROC analysis Ordinal polytomous regression 005 519 De nos jours, la quantité de données génétiques séquencées augmente de manière exponentielle sous l'impulsion d'outils de séquençage de plus en plus performants, tels que les outils de séquençage haut débit en particulier. De plus, ces données sont de plus en plus facilement accessibles grâce aux bases de données en ligne. Cette plus grande disponibilité des données ouvre de nouveaux sujets d'étude qui nécessitent de la part des statisticiens et bio-informaticiens de développer des outils adaptés. Par ailleurs, les progrès constants de la statistique, dans des domaines tels que le clustering, la réduction de dimension, ou les régressions entre autres, nécessitent d'être régulièrement adaptés au contexte de la bio-informatique. L’objectif de cette thèse est l’application de techniques avancées de statistiques à des problématiques de bio-informatique. Dans ce manuscrit, nous présentons les résultats de nos travaux concernant le clustering de séquences génétiques via Laplacian eigenmaps et modèle de mélange gaussien, l'étude de la propagation des éléments transposables dans le génome via un processus de branchement, l'analyse de données métagénomiques en écologie via des courbes ROC ou encore la régression polytomique ordonnée pénalisée par la norme l1. Nowadays, the quantity of sequenced genetic data is increasing exponentially under the impetus of increasingly powerful sequencing tools, such as high-throughput sequencing tools in particular. In addition, these data are increasingly accessible through online databases. This greater availability of data opens up new areas of study that require statisticians and bioinformaticians to develop appropriate tools. In addition, constant statistical progress in areas such as clustering, dimensionality reduction, regressions and others needs to be regularly adapted to the context of bioinformatics. The objective of this thesis is the application of advanced statistical techniques to bioinformatics issues. In this manuscript we present the results of our works concerning the clustering of genetic sequences via Laplacian eigenmaps and Gaussian mixture model, the study of the propagation of transposable elements in the genome via a branching process, the analysis of metagenomic data in ecology via ROC curves or the ordinal polytomous regression penalized by the l1-norm. Electronic Thesis or Dissertation Text en fr http://www.theses.fr/2018UBFCD049/document Moulin, Serge 2018-12-12 Bourgogne Franche-Comté Guyeux, Christophe Chrétien, Stéphane
collection NDLTD
language en
fr
sources NDLTD
topic Bio-Informatique
Statistique
Clustering de séquences génétiques
Éléments transposables
Courbes ROC
Régression polytomique ordonnée
Bioinformatics
Statistic
DNA clustering
Transposable elements
ROC analysis
Ordinal polytomous regression
005
519
spellingShingle Bio-Informatique
Statistique
Clustering de séquences génétiques
Éléments transposables
Courbes ROC
Régression polytomique ordonnée
Bioinformatics
Statistic
DNA clustering
Transposable elements
ROC analysis
Ordinal polytomous regression
005
519
Moulin, Serge
Use of data analysis techniques to solve specific bioinformatics problems
description De nos jours, la quantité de données génétiques séquencées augmente de manière exponentielle sous l'impulsion d'outils de séquençage de plus en plus performants, tels que les outils de séquençage haut débit en particulier. De plus, ces données sont de plus en plus facilement accessibles grâce aux bases de données en ligne. Cette plus grande disponibilité des données ouvre de nouveaux sujets d'étude qui nécessitent de la part des statisticiens et bio-informaticiens de développer des outils adaptés. Par ailleurs, les progrès constants de la statistique, dans des domaines tels que le clustering, la réduction de dimension, ou les régressions entre autres, nécessitent d'être régulièrement adaptés au contexte de la bio-informatique. L’objectif de cette thèse est l’application de techniques avancées de statistiques à des problématiques de bio-informatique. Dans ce manuscrit, nous présentons les résultats de nos travaux concernant le clustering de séquences génétiques via Laplacian eigenmaps et modèle de mélange gaussien, l'étude de la propagation des éléments transposables dans le génome via un processus de branchement, l'analyse de données métagénomiques en écologie via des courbes ROC ou encore la régression polytomique ordonnée pénalisée par la norme l1. === Nowadays, the quantity of sequenced genetic data is increasing exponentially under the impetus of increasingly powerful sequencing tools, such as high-throughput sequencing tools in particular. In addition, these data are increasingly accessible through online databases. This greater availability of data opens up new areas of study that require statisticians and bioinformaticians to develop appropriate tools. In addition, constant statistical progress in areas such as clustering, dimensionality reduction, regressions and others needs to be regularly adapted to the context of bioinformatics. The objective of this thesis is the application of advanced statistical techniques to bioinformatics issues. In this manuscript we present the results of our works concerning the clustering of genetic sequences via Laplacian eigenmaps and Gaussian mixture model, the study of the propagation of transposable elements in the genome via a branching process, the analysis of metagenomic data in ecology via ROC curves or the ordinal polytomous regression penalized by the l1-norm.
author2 Bourgogne Franche-Comté
author_facet Bourgogne Franche-Comté
Moulin, Serge
author Moulin, Serge
author_sort Moulin, Serge
title Use of data analysis techniques to solve specific bioinformatics problems
title_short Use of data analysis techniques to solve specific bioinformatics problems
title_full Use of data analysis techniques to solve specific bioinformatics problems
title_fullStr Use of data analysis techniques to solve specific bioinformatics problems
title_full_unstemmed Use of data analysis techniques to solve specific bioinformatics problems
title_sort use of data analysis techniques to solve specific bioinformatics problems
publishDate 2018
url http://www.theses.fr/2018UBFCD049/document
work_keys_str_mv AT moulinserge useofdataanalysistechniquestosolvespecificbioinformaticsproblems
AT moulinserge apportdetechniquesdanalysededonneespourresoudredesproblemesspecifiquesenbioinformatique
_version_ 1719264099384164352