Bioinformatique et infertilité : analyse des données de séquençage haut-débit et caractérisation moléculaire du gène DPY19L2

Ces dix dernières années, l’investigation des maladies génétiques a été bouleversée par l’émergence des techniques de séquençage haut-débit. Celles-ci permettent désormais de ne plus séquencer les gènes un par un, mais d’avoir accès à l’intégralité de la séquence génomique ou transcriptomique d’un i...

Full description

Bibliographic Details
Main Author: Karaouzene, Thomas
Other Authors: Grenoble Alpes
Language:fr
Published: 2017
Subjects:
570
004
610
Online Access:http://www.theses.fr/2017GREAS041/document
id ndltd-theses.fr-2017GREAS041
record_format oai_dc
collection NDLTD
language fr
sources NDLTD
topic Séquençage Exomique
Algorithme
Infertilité
Variation du nombre de copie (CNV)
Exome sequencing
Algorithm
Infertility
Copy number variation (CNV)
570
004
610
spellingShingle Séquençage Exomique
Algorithme
Infertilité
Variation du nombre de copie (CNV)
Exome sequencing
Algorithm
Infertility
Copy number variation (CNV)
570
004
610
Karaouzene, Thomas
Bioinformatique et infertilité : analyse des données de séquençage haut-débit et caractérisation moléculaire du gène DPY19L2
description Ces dix dernières années, l’investigation des maladies génétiques a été bouleversée par l’émergence des techniques de séquençage haut-débit. Celles-ci permettent désormais de ne plus séquencer les gènes un par un, mais d’avoir accès à l’intégralité de la séquence génomique ou transcriptomique d’un individu. La difficulté devient alors d’identifier les variants causaux parmi une multitude d’artefacts techniques et de variants bénins, pour ensuite comprendre la physiopathologie des gènes identifiés.L’application du séquençage haut débit est particulièrement prometteuse dans le champ de la génétique de l’infertilité masculine car il s’agit d’une pathologie dont l’étiologie est souvent génétique, qui est génétiquement très hétérogène et pour laquelle peu de gènes ont été identifiés. Mon travail de thèse est donc centré sur la l’infertilité et comporte deux parties majeures : l’analyse des données issues du séquençage haut débit d’homme infertiles et de modèles animaux et la caractérisation moléculaire d’un phénotype spécifique d’infertilité, laglobozoospermie.Le nombre de variants identifiés dans le cadre d’un séquençage exomique pouvant s’élever à plusieurs dizaines de milliers, l’utilisation d’un outil informatique performant est indispensable. Pour arriver à une liste de variants suffisamment restreinte pour pouvoir être interprétée, plusieurs traitements sont nécessaires. Ainsi, j’ai développé un pipeline d’analyse de données issues de séquençage haut-débit effectuant de manière successive l’intégralité des étapes de l’analyse bio-informatique, c’est-à-dire l’alignement des reads sur un génome de référence, l’appel des génotypes, l’annotation des variants obtenus ainsi que le filtrage de ceux considérés comme non pertinents dans le contexte de l’analyse. L’ensemble de ces étapes étant interdépendantes,les réaliser au sein du même pipeline permet de mieux les calibrer pour ainsi réduire le nombre d’erreurs générées. Ce pipeline a été utilisé dans cinq études au sein du laboratoire, et a permis l’identification de variants impactant des gènes candidats prometteurs pouvant expliquer le phénotype d’infertilité des patients.L’ensemble des variants retenus ont ensuite pu être validés expérimentalement.J’ai également pris part aux investigations génétiques et moléculaires permettant la caractérisation du gène DPY19L2, identifié au laboratoire et dont la délétion homozygote entraine une globozoospermie, caractériséepar la présence dans l’éjaculât de spermatozoïdes à tête ronde dépourvus d’acrosome. Pour cela, j’ai contribué à caractériser les mécanismes responsables de cette délétion récurrente, puis, en utilisant le modèle murin Dpy19l2 knock out (KO) mimant le phénotype humain, j’ai réalisé une étude comparative des transcriptomes testiculaires de souris sauvages et de souris KO Dpy19l2-/-. Cette étude a ainsi permis de mettre en évidence la dérégulation de 76 gènes chez la souris KO. Parmi ceux-ci, 23 sont impliqués dans la liaison d’acides nucléiques et de protéines, pouvant ainsi expliquer les défauts d’ancrage de l’acrosome au noyau chez les spermatozoïdes globozoocéphales.Mon travail a donc permis de mieux comprendre la globozoospermie et de développer un pipeline d’analyse bioinformatique qui a déjà permis l’identification de plus de 15 gènes de la gamétogenèse humaine impliqués dans différents phénotypes d’infertilité. === In the last decade, the investigations of genetic diseases have been revolutionized by the rise of high throughput sequencing (HTS). Thanks to these new techniques it is now possible to analyze the totality of the coding sequences of an individual (exome sequencing) or even the sequences of his entire genome or transcriptome.The understanding of a pathology and of the genes associated with it now depends on our ability to identify causal variants within a plethora of technical artifact and benign variants.HTS is expected to be particularly useful in the field infertility as this pathology is expected to be highly genetically heterogeneous and only a few genes have so far been associated with it. My thesis focuses on male infertility and is divided into two main parts: HTS data analysis of infertile men and the molecular characterization of a specific phenotype, globozoospermia.Several thousands of distinct variants can be identified in a single exome, thereby using effective informatics is essential in order to obtain a short and actionable list of variants. It is for this purpose that I developed a HTS data analysis pipeline performing successively all bioinformatics analysis steps: 1) reads mapping along a reference genome, 2) genotype calling, 3) variant annotation and 4) the filtering of the variants considered as non-relevant for the analysis. Performing all these independent steps within a single pipeline is a good way to calibrate them and therefore to reduce the number of erroneous calls. This pipeline has been used in five studies and allowed the identification of variants impacting candidate genes that may explain the patients’ infertility phenotype. All these variants have been experimentally validated using Sanger sequencing.I also took part in the genetic and molecular investigations which permitted to demonstrate that the absence of the DPY192 gene induces male infertility due to globozoospermia, the presence in the ejaculate of only round-headed and acrosomeless spermatozoa. Most patients with globozoospermia have a homozygous deletion of the whole gene. I contributed to the characterization of the mechanisms responsible for this recurrent deletion, then, using Dpy19l2 knockout (KO) mice, I realized the comparative study of testicular transcriptome of wild type and Dpy19l2 -/- KO mice. This study highlighted a dysregulation of 76 genes in KO mice. Among them, 23 are involved in nucleic acid and protein binding, which may explain acrosome anchoring defaults observed in the sperm of globozoospermic patients.My work allowed a better understanding of globozoospermia and the development of a HTS data analysis pipeline. The latter allowed the identification of more than 15 human gametogenesis genes involved in different infertility phenotypes.
author2 Grenoble Alpes
author_facet Grenoble Alpes
Karaouzene, Thomas
author Karaouzene, Thomas
author_sort Karaouzene, Thomas
title Bioinformatique et infertilité : analyse des données de séquençage haut-débit et caractérisation moléculaire du gène DPY19L2
title_short Bioinformatique et infertilité : analyse des données de séquençage haut-débit et caractérisation moléculaire du gène DPY19L2
title_full Bioinformatique et infertilité : analyse des données de séquençage haut-débit et caractérisation moléculaire du gène DPY19L2
title_fullStr Bioinformatique et infertilité : analyse des données de séquençage haut-débit et caractérisation moléculaire du gène DPY19L2
title_full_unstemmed Bioinformatique et infertilité : analyse des données de séquençage haut-débit et caractérisation moléculaire du gène DPY19L2
title_sort bioinformatique et infertilité : analyse des données de séquençage haut-débit et caractérisation moléculaire du gène dpy19l2
publishDate 2017
url http://www.theses.fr/2017GREAS041/document
work_keys_str_mv AT karaouzenethomas bioinformatiqueetinfertiliteanalysedesdonneesdesequencagehautdebitetcaracterisationmoleculairedugenedpy19l2
AT karaouzenethomas bioinformaticsandinfertilityhighthroughputsequencingdataanalysisandmolecularcharacterizationofdpy19l2gene
_version_ 1718734791870775296
spelling ndltd-theses.fr-2017GREAS0412018-09-22T05:21:20Z Bioinformatique et infertilité : analyse des données de séquençage haut-débit et caractérisation moléculaire du gène DPY19L2 Bioinformatics and infertility : high throughput sequencing data analysis and molecular characterization of DPY19L2 gene Séquençage Exomique Algorithme Infertilité Variation du nombre de copie (CNV) Exome sequencing Algorithm Infertility Copy number variation (CNV) 570 004 610 Ces dix dernières années, l’investigation des maladies génétiques a été bouleversée par l’émergence des techniques de séquençage haut-débit. Celles-ci permettent désormais de ne plus séquencer les gènes un par un, mais d’avoir accès à l’intégralité de la séquence génomique ou transcriptomique d’un individu. La difficulté devient alors d’identifier les variants causaux parmi une multitude d’artefacts techniques et de variants bénins, pour ensuite comprendre la physiopathologie des gènes identifiés.L’application du séquençage haut débit est particulièrement prometteuse dans le champ de la génétique de l’infertilité masculine car il s’agit d’une pathologie dont l’étiologie est souvent génétique, qui est génétiquement très hétérogène et pour laquelle peu de gènes ont été identifiés. Mon travail de thèse est donc centré sur la l’infertilité et comporte deux parties majeures : l’analyse des données issues du séquençage haut débit d’homme infertiles et de modèles animaux et la caractérisation moléculaire d’un phénotype spécifique d’infertilité, laglobozoospermie.Le nombre de variants identifiés dans le cadre d’un séquençage exomique pouvant s’élever à plusieurs dizaines de milliers, l’utilisation d’un outil informatique performant est indispensable. Pour arriver à une liste de variants suffisamment restreinte pour pouvoir être interprétée, plusieurs traitements sont nécessaires. Ainsi, j’ai développé un pipeline d’analyse de données issues de séquençage haut-débit effectuant de manière successive l’intégralité des étapes de l’analyse bio-informatique, c’est-à-dire l’alignement des reads sur un génome de référence, l’appel des génotypes, l’annotation des variants obtenus ainsi que le filtrage de ceux considérés comme non pertinents dans le contexte de l’analyse. L’ensemble de ces étapes étant interdépendantes,les réaliser au sein du même pipeline permet de mieux les calibrer pour ainsi réduire le nombre d’erreurs générées. Ce pipeline a été utilisé dans cinq études au sein du laboratoire, et a permis l’identification de variants impactant des gènes candidats prometteurs pouvant expliquer le phénotype d’infertilité des patients.L’ensemble des variants retenus ont ensuite pu être validés expérimentalement.J’ai également pris part aux investigations génétiques et moléculaires permettant la caractérisation du gène DPY19L2, identifié au laboratoire et dont la délétion homozygote entraine une globozoospermie, caractériséepar la présence dans l’éjaculât de spermatozoïdes à tête ronde dépourvus d’acrosome. Pour cela, j’ai contribué à caractériser les mécanismes responsables de cette délétion récurrente, puis, en utilisant le modèle murin Dpy19l2 knock out (KO) mimant le phénotype humain, j’ai réalisé une étude comparative des transcriptomes testiculaires de souris sauvages et de souris KO Dpy19l2-/-. Cette étude a ainsi permis de mettre en évidence la dérégulation de 76 gènes chez la souris KO. Parmi ceux-ci, 23 sont impliqués dans la liaison d’acides nucléiques et de protéines, pouvant ainsi expliquer les défauts d’ancrage de l’acrosome au noyau chez les spermatozoïdes globozoocéphales.Mon travail a donc permis de mieux comprendre la globozoospermie et de développer un pipeline d’analyse bioinformatique qui a déjà permis l’identification de plus de 15 gènes de la gamétogenèse humaine impliqués dans différents phénotypes d’infertilité. In the last decade, the investigations of genetic diseases have been revolutionized by the rise of high throughput sequencing (HTS). Thanks to these new techniques it is now possible to analyze the totality of the coding sequences of an individual (exome sequencing) or even the sequences of his entire genome or transcriptome.The understanding of a pathology and of the genes associated with it now depends on our ability to identify causal variants within a plethora of technical artifact and benign variants.HTS is expected to be particularly useful in the field infertility as this pathology is expected to be highly genetically heterogeneous and only a few genes have so far been associated with it. My thesis focuses on male infertility and is divided into two main parts: HTS data analysis of infertile men and the molecular characterization of a specific phenotype, globozoospermia.Several thousands of distinct variants can be identified in a single exome, thereby using effective informatics is essential in order to obtain a short and actionable list of variants. It is for this purpose that I developed a HTS data analysis pipeline performing successively all bioinformatics analysis steps: 1) reads mapping along a reference genome, 2) genotype calling, 3) variant annotation and 4) the filtering of the variants considered as non-relevant for the analysis. Performing all these independent steps within a single pipeline is a good way to calibrate them and therefore to reduce the number of erroneous calls. This pipeline has been used in five studies and allowed the identification of variants impacting candidate genes that may explain the patients’ infertility phenotype. All these variants have been experimentally validated using Sanger sequencing.I also took part in the genetic and molecular investigations which permitted to demonstrate that the absence of the DPY192 gene induces male infertility due to globozoospermia, the presence in the ejaculate of only round-headed and acrosomeless spermatozoa. Most patients with globozoospermia have a homozygous deletion of the whole gene. I contributed to the characterization of the mechanisms responsible for this recurrent deletion, then, using Dpy19l2 knockout (KO) mice, I realized the comparative study of testicular transcriptome of wild type and Dpy19l2 -/- KO mice. This study highlighted a dysregulation of 76 genes in KO mice. Among them, 23 are involved in nucleic acid and protein binding, which may explain acrosome anchoring defaults observed in the sperm of globozoospermic patients.My work allowed a better understanding of globozoospermia and the development of a HTS data analysis pipeline. The latter allowed the identification of more than 15 human gametogenesis genes involved in different infertility phenotypes. Electronic Thesis or Dissertation Text fr http://www.theses.fr/2017GREAS041/document Karaouzene, Thomas 2017-11-29 Grenoble Alpes Ray, Pierre Thierry-Mieg, Nicolas