Approche multi-niveaux pour l'analyse des données textuelles non-standardisées : corpus de textes en moyen français

Cette thèse présente une approche d'analyse des textes non-standardisé qui consiste à modéliser une chaine de traitement permettant l’annotation automatique de textes à savoir l’annotation grammaticale en utilisant une méthode d’étiquetage morphosyntaxique et l’annotation sémantique en mettant...

Full description

Bibliographic Details
Main Author:	Aouini, Mourad
Other Authors:	Bourgogne Franche-Comté
Language:	fr
Published:	2018
Subjects:	Approche multi-Niveaux Données textuelles non-Standardisées Moyen Français Étiquetage morphosyntaxique Reconnaissance des entités nommées Tal MEDITEXT Multi-Level approach Standardized textual data Middle French Morphosyntactic tagging Named-Entity recognition Nlp 402
Online Access:	http://www.theses.fr/2018UBFCC003

id	ndltd-theses.fr-2018UBFCC003
record_format	oai_dc
spelling	ndltd-theses.fr-2018UBFCC0032019-05-16T06:30:39Z Approche multi-niveaux pour l'analyse des données textuelles non-standardisées : corpus de textes en moyen français Multi-level approach for the analysis of non-standardized textual data : corpus of texts in middle french Approche multi-Niveaux Données textuelles non-Standardisées Moyen Français Étiquetage morphosyntaxique Reconnaissance des entités nommées Tal MEDITEXT Multi-Level approach Standardized textual data Middle French Morphosyntactic tagging Named-Entity recognition Nlp 402 Cette thèse présente une approche d'analyse des textes non-standardisé qui consiste à modéliser une chaine de traitement permettant l’annotation automatique de textes à savoir l’annotation grammaticale en utilisant une méthode d’étiquetage morphosyntaxique et l’annotation sémantique en mettant en œuvre un système de reconnaissance des entités nommées. Dans ce contexte, nous présentons un système d'analyse du Moyen Français qui est une langue en pleine évolution dont l’orthographe, le système flexionnel et la syntaxe ne sont pas stables. Les textes en Moyen Français se singularisent principalement par l’absence d’orthographe normalisée et par la variabilité tant géographique que chronologique des lexiques médiévaux.L’objectif est de mettre en évidence un système dédié à la construction de ressources linguistiques, notamment la construction des dictionnaires électroniques, se basant sur des règles de morphologie. Ensuite, nous présenterons les instructions que nous avons établies pour construire un étiqueteur morphosyntaxique qui vise à produire automatiquement des analyses contextuelles à l’aide de grammaires de désambiguïsation. Finalement, nous retracerons le chemin qui nous a conduits à mettre en place des grammaires locales permettant de retrouver les entités nommées. De ce fait, nous avons été amenés à constituer un corpus MEDITEXT regroupant des textes en Moyen Français apparus entre le fin du XIIIème et XVème siècle. This thesis presents a non-standardized text analysis approach which consists a chain process modeling allowing the automatic annotation of texts: grammar annotation using a morphosyntactic tagging method and semantic annotation by putting in operates a system of named-entity recognition. In this context, we present a system analysis of the Middle French which is a language in the course of evolution including: spelling, the flexional system and the syntax are not stable. The texts in Middle French are mainly distinguished by the absence of normalized orthography and the geographical and chronological variability of medieval lexicons.The main objective is to highlight a system dedicated to the construction of linguistic resources, in particular the construction of electronic dictionaries, based on rules of morphology. Then, we will present the instructions that we have carried out to construct a morphosyntactic tagging which aims at automatically producing contextual analyzes using the disambiguation grammars. Finally, we will retrace the path that led us to set up local grammars to find the named entities. Hence, we were asked to create a MEDITEXT corpus of texts in Middle French between the end of the thirteenth and fifteenth centuries. Electronic Thesis or Dissertation Text fr http://www.theses.fr/2018UBFCC003 Aouini, Mourad 2018-03-19 Bourgogne Franche-Comté Silberztein, Max Genet, Jean-Philippe
collection	NDLTD
language	fr
sources	NDLTD
topic	Approche multi-Niveaux Données textuelles non-Standardisées Moyen Français Étiquetage morphosyntaxique Reconnaissance des entités nommées Tal MEDITEXT Multi-Level approach Standardized textual data Middle French Morphosyntactic tagging Named-Entity recognition Nlp 402
spellingShingle	Approche multi-Niveaux Données textuelles non-Standardisées Moyen Français Étiquetage morphosyntaxique Reconnaissance des entités nommées Tal MEDITEXT Multi-Level approach Standardized textual data Middle French Morphosyntactic tagging Named-Entity recognition Nlp 402 Aouini, Mourad Approche multi-niveaux pour l'analyse des données textuelles non-standardisées : corpus de textes en moyen français
description	Cette thèse présente une approche d'analyse des textes non-standardisé qui consiste à modéliser une chaine de traitement permettant l’annotation automatique de textes à savoir l’annotation grammaticale en utilisant une méthode d’étiquetage morphosyntaxique et l’annotation sémantique en mettant en œuvre un système de reconnaissance des entités nommées. Dans ce contexte, nous présentons un système d'analyse du Moyen Français qui est une langue en pleine évolution dont l’orthographe, le système flexionnel et la syntaxe ne sont pas stables. Les textes en Moyen Français se singularisent principalement par l’absence d’orthographe normalisée et par la variabilité tant géographique que chronologique des lexiques médiévaux.L’objectif est de mettre en évidence un système dédié à la construction de ressources linguistiques, notamment la construction des dictionnaires électroniques, se basant sur des règles de morphologie. Ensuite, nous présenterons les instructions que nous avons établies pour construire un étiqueteur morphosyntaxique qui vise à produire automatiquement des analyses contextuelles à l’aide de grammaires de désambiguïsation. Finalement, nous retracerons le chemin qui nous a conduits à mettre en place des grammaires locales permettant de retrouver les entités nommées. De ce fait, nous avons été amenés à constituer un corpus MEDITEXT regroupant des textes en Moyen Français apparus entre le fin du XIIIème et XVème siècle. === This thesis presents a non-standardized text analysis approach which consists a chain process modeling allowing the automatic annotation of texts: grammar annotation using a morphosyntactic tagging method and semantic annotation by putting in operates a system of named-entity recognition. In this context, we present a system analysis of the Middle French which is a language in the course of evolution including: spelling, the flexional system and the syntax are not stable. The texts in Middle French are mainly distinguished by the absence of normalized orthography and the geographical and chronological variability of medieval lexicons.The main objective is to highlight a system dedicated to the construction of linguistic resources, in particular the construction of electronic dictionaries, based on rules of morphology. Then, we will present the instructions that we have carried out to construct a morphosyntactic tagging which aims at automatically producing contextual analyzes using the disambiguation grammars. Finally, we will retrace the path that led us to set up local grammars to find the named entities. Hence, we were asked to create a MEDITEXT corpus of texts in Middle French between the end of the thirteenth and fifteenth centuries.
author2	Bourgogne Franche-Comté
author_facet	Bourgogne Franche-Comté Aouini, Mourad
author	Aouini, Mourad
author_sort	Aouini, Mourad
title	Approche multi-niveaux pour l'analyse des données textuelles non-standardisées : corpus de textes en moyen français
title_short	Approche multi-niveaux pour l'analyse des données textuelles non-standardisées : corpus de textes en moyen français
title_full	Approche multi-niveaux pour l'analyse des données textuelles non-standardisées : corpus de textes en moyen français
title_fullStr	Approche multi-niveaux pour l'analyse des données textuelles non-standardisées : corpus de textes en moyen français
title_full_unstemmed	Approche multi-niveaux pour l'analyse des données textuelles non-standardisées : corpus de textes en moyen français
title_sort	approche multi-niveaux pour l'analyse des données textuelles non-standardisées : corpus de textes en moyen français
publishDate	2018
url	http://www.theses.fr/2018UBFCC003
work_keys_str_mv	AT aouinimourad approchemultiniveauxpourlanalysedesdonneestextuellesnonstandardiseescorpusdetextesenmoyenfrancais AT aouinimourad multilevelapproachfortheanalysisofnonstandardizedtextualdatacorpusoftextsinmiddlefrench
_version_	1719190449215766528

Approche multi-niveaux pour l'analyse des données textuelles non-standardisées : corpus de textes en moyen français

Similar Items