Approche multi-niveaux pour l'analyse des données textuelles non-standardisées : corpus de textes en moyen français

Cette thèse présente une approche d'analyse des textes non-standardisé qui consiste à modéliser une chaine de traitement permettant l’annotation automatique de textes à savoir l’annotation grammaticale en utilisant une méthode d’étiquetage morphosyntaxique et l’annotation sémantique en mettant...

Full description

Bibliographic Details
Main Author: Aouini, Mourad
Other Authors: Bourgogne Franche-Comté
Language:fr
Published: 2018
Subjects:
Tal
Nlp
402
Online Access:http://www.theses.fr/2018UBFCC003
id ndltd-theses.fr-2018UBFCC003
record_format oai_dc
spelling ndltd-theses.fr-2018UBFCC0032019-05-16T06:30:39Z Approche multi-niveaux pour l'analyse des données textuelles non-standardisées : corpus de textes en moyen français Multi-level approach for the analysis of non-standardized textual data : corpus of texts in middle french Approche multi-Niveaux Données textuelles non-Standardisées Moyen Français Étiquetage morphosyntaxique Reconnaissance des entités nommées Tal MEDITEXT Multi-Level approach Standardized textual data Middle French Morphosyntactic tagging Named-Entity recognition Nlp 402 Cette thèse présente une approche d'analyse des textes non-standardisé qui consiste à modéliser une chaine de traitement permettant l’annotation automatique de textes à savoir l’annotation grammaticale en utilisant une méthode d’étiquetage morphosyntaxique et l’annotation sémantique en mettant en œuvre un système de reconnaissance des entités nommées. Dans ce contexte, nous présentons un système d'analyse du Moyen Français qui est une langue en pleine évolution dont l’orthographe, le système flexionnel et la syntaxe ne sont pas stables. Les textes en Moyen Français se singularisent principalement par l’absence d’orthographe normalisée et par la variabilité tant géographique que chronologique des lexiques médiévaux.L’objectif est de mettre en évidence un système dédié à la construction de ressources linguistiques, notamment la construction des dictionnaires électroniques, se basant sur des règles de morphologie. Ensuite, nous présenterons les instructions que nous avons établies pour construire un étiqueteur morphosyntaxique qui vise à produire automatiquement des analyses contextuelles à l’aide de grammaires de désambiguïsation. Finalement, nous retracerons le chemin qui nous a conduits à mettre en place des grammaires locales permettant de retrouver les entités nommées. De ce fait, nous avons été amenés à constituer un corpus MEDITEXT regroupant des textes en Moyen Français apparus entre le fin du XIIIème et XVème siècle. This thesis presents a non-standardized text analysis approach which consists a chain process modeling allowing the automatic annotation of texts: grammar annotation using a morphosyntactic tagging method and semantic annotation by putting in operates a system of named-entity recognition. In this context, we present a system analysis of the Middle French which is a language in the course of evolution including: spelling, the flexional system and the syntax are not stable. The texts in Middle French are mainly distinguished by the absence of normalized orthography and the geographical and chronological variability of medieval lexicons.The main objective is to highlight a system dedicated to the construction of linguistic resources, in particular the construction of electronic dictionaries, based on rules of morphology. Then, we will present the instructions that we have carried out to construct a morphosyntactic tagging which aims at automatically producing contextual analyzes using the disambiguation grammars. Finally, we will retrace the path that led us to set up local grammars to find the named entities. Hence, we were asked to create a MEDITEXT corpus of texts in Middle French between the end of the thirteenth and fifteenth centuries. Electronic Thesis or Dissertation Text fr http://www.theses.fr/2018UBFCC003 Aouini, Mourad 2018-03-19 Bourgogne Franche-Comté Silberztein, Max Genet, Jean-Philippe
collection NDLTD
language fr
sources NDLTD
topic Approche multi-Niveaux
Données textuelles non-Standardisées
Moyen Français
Étiquetage morphosyntaxique
Reconnaissance des entités nommées
Tal
MEDITEXT
Multi-Level approach
Standardized textual data
Middle French
Morphosyntactic tagging
Named-Entity recognition
Nlp
402
spellingShingle Approche multi-Niveaux
Données textuelles non-Standardisées
Moyen Français
Étiquetage morphosyntaxique
Reconnaissance des entités nommées
Tal
MEDITEXT
Multi-Level approach
Standardized textual data
Middle French
Morphosyntactic tagging
Named-Entity recognition
Nlp
402
Aouini, Mourad
Approche multi-niveaux pour l'analyse des données textuelles non-standardisées : corpus de textes en moyen français
description Cette thèse présente une approche d'analyse des textes non-standardisé qui consiste à modéliser une chaine de traitement permettant l’annotation automatique de textes à savoir l’annotation grammaticale en utilisant une méthode d’étiquetage morphosyntaxique et l’annotation sémantique en mettant en œuvre un système de reconnaissance des entités nommées. Dans ce contexte, nous présentons un système d'analyse du Moyen Français qui est une langue en pleine évolution dont l’orthographe, le système flexionnel et la syntaxe ne sont pas stables. Les textes en Moyen Français se singularisent principalement par l’absence d’orthographe normalisée et par la variabilité tant géographique que chronologique des lexiques médiévaux.L’objectif est de mettre en évidence un système dédié à la construction de ressources linguistiques, notamment la construction des dictionnaires électroniques, se basant sur des règles de morphologie. Ensuite, nous présenterons les instructions que nous avons établies pour construire un étiqueteur morphosyntaxique qui vise à produire automatiquement des analyses contextuelles à l’aide de grammaires de désambiguïsation. Finalement, nous retracerons le chemin qui nous a conduits à mettre en place des grammaires locales permettant de retrouver les entités nommées. De ce fait, nous avons été amenés à constituer un corpus MEDITEXT regroupant des textes en Moyen Français apparus entre le fin du XIIIème et XVème siècle. === This thesis presents a non-standardized text analysis approach which consists a chain process modeling allowing the automatic annotation of texts: grammar annotation using a morphosyntactic tagging method and semantic annotation by putting in operates a system of named-entity recognition. In this context, we present a system analysis of the Middle French which is a language in the course of evolution including: spelling, the flexional system and the syntax are not stable. The texts in Middle French are mainly distinguished by the absence of normalized orthography and the geographical and chronological variability of medieval lexicons.The main objective is to highlight a system dedicated to the construction of linguistic resources, in particular the construction of electronic dictionaries, based on rules of morphology. Then, we will present the instructions that we have carried out to construct a morphosyntactic tagging which aims at automatically producing contextual analyzes using the disambiguation grammars. Finally, we will retrace the path that led us to set up local grammars to find the named entities. Hence, we were asked to create a MEDITEXT corpus of texts in Middle French between the end of the thirteenth and fifteenth centuries.
author2 Bourgogne Franche-Comté
author_facet Bourgogne Franche-Comté
Aouini, Mourad
author Aouini, Mourad
author_sort Aouini, Mourad
title Approche multi-niveaux pour l'analyse des données textuelles non-standardisées : corpus de textes en moyen français
title_short Approche multi-niveaux pour l'analyse des données textuelles non-standardisées : corpus de textes en moyen français
title_full Approche multi-niveaux pour l'analyse des données textuelles non-standardisées : corpus de textes en moyen français
title_fullStr Approche multi-niveaux pour l'analyse des données textuelles non-standardisées : corpus de textes en moyen français
title_full_unstemmed Approche multi-niveaux pour l'analyse des données textuelles non-standardisées : corpus de textes en moyen français
title_sort approche multi-niveaux pour l'analyse des données textuelles non-standardisées : corpus de textes en moyen français
publishDate 2018
url http://www.theses.fr/2018UBFCC003
work_keys_str_mv AT aouinimourad approchemultiniveauxpourlanalysedesdonneestextuellesnonstandardiseescorpusdetextesenmoyenfrancais
AT aouinimourad multilevelapproachfortheanalysisofnonstandardizedtextualdatacorpusoftextsinmiddlefrench
_version_ 1719190449215766528