Grammaires locales étendues : principes, mise en œuvre et applications pour l’extraction de l’information

Les grammaires locales constituent un formalisme de description de constructions linguistiques et sont communément représentées sous la forme de graphes orientés. Utilisées pour la recherche et l'extraction de motifs dans un texte, elles trouvent leurs limites dans le traitement de variations n...

Full description

Bibliographic Details
Main Author: Martinez, Cristian
Other Authors: Paris Est
Language:fr
Published: 2017
Subjects:
Online Access:http://www.theses.fr/2017PESC1075/document
id ndltd-theses.fr-2017PESC1075
record_format oai_dc
spelling ndltd-theses.fr-2017PESC10752018-10-01T18:30:43Z Grammaires locales étendues : principes, mise en œuvre et applications pour l’extraction de l’information Extended local grammars : principles, implementation and applications for information extraction Grammaire locale Grammaire locale étendue Extraction de l'information Apprentissage automatique Local grammar Extended local grammar Information extraction Machine learning Les grammaires locales constituent un formalisme de description de constructions linguistiques et sont communément représentées sous la forme de graphes orientés. Utilisées pour la recherche et l'extraction de motifs dans un texte, elles trouvent leurs limites dans le traitement de variations non décrites ou fautives ainsi que dans la capacité à accéder à des connaissances exogènes, c'est-à-dire des informations à extraire, au cours de l'analyse, de ressources externes à la grammaire et qui peuvent s'avérer utiles pour normaliser, enrichir, valider ou mettre en relation les motifs reconnus. Dans cette thèse nous introduisons la notion de grammaire locale étendue. Il s'agit d'un formalisme capable d'étendre le modèle classique des grammaires locales. Premièrement, en ajoutant des fonctions arbitraires à satisfaire, appelées fonctions étendues, qui ne sont pas prédéfinies à l'avance et qui sont évaluées en dehors de la grammaire. De surcroît, ce formalisme fournit à l'analyseur syntaxique la possibilité de déclencher des événements qui peuvent également être traités sous la forme de fonctions étendues. Le travail présenté se divise en trois parties: dans un premier temps, nous étudions les principes concernant la construction des grammaires locales étendues. Nous présentons ensuite la mise en œuvre d'un moteur d'analyse textuelle implémentant le formalisme proposé. Enfin, nous étudions quelques applications pour l'extraction de l'information dans des textes bien formés et des textes bruités. Nous nous focalisons sur le couplage des ressources externes et des méthodes non-symboliques dans la construction de nos grammaires en montrant la pertinence de cette approche pour dépasser les limites des grammaires locales classiques Local grammars constitute a descriptive formalism of linguistic phenomena and are commonly represented using directed graphs. Local grammars are used to recognize and extract patterns in a text, but they had some inherent limits in dealing with unexpected variations as well as in their capacity to access exogenous knowledge, in other words information to extract, during the analysis, from external resources and which may be useful to normalize, enhance validate or link the recognized patterns. In this thesis, we introduce the notion of extended local grammar, a formalism capable to extend the classic model of local grammars. The means are twofold: on the one hand, it is achieved by adding arbitrary conditional-functions, called extended functions, which are not predefined in advance and are evaluated from outside of the grammar. On the other hand, it is achieved by allowing the parsing engine to trigger events that can also be processed as extended functions. The work presented herewith is divided into three parts: In the first part, we study the principles regarding the construction of the extended local grammars. Then, we present a proof-of-concept of a corpus-processing tool which implements the proposed formalism. Finally, we study some techniques to extract information from both well-formed and noisy texts. We focus on the coupling of external resources and non-symbolic methods in the construction of our grammars and we highlight the suitability of this approach in order to overcome the inherent limitations of classical local grammars Electronic Thesis or Dissertation Text fr http://www.theses.fr/2017PESC1075/document Martinez, Cristian 2017-12-19 Paris Est Kyriacopoulou, Tita
collection NDLTD
language fr
sources NDLTD
topic Grammaire locale
Grammaire locale étendue
Extraction de l'information
Apprentissage automatique
Local grammar
Extended local grammar
Information extraction
Machine learning

spellingShingle Grammaire locale
Grammaire locale étendue
Extraction de l'information
Apprentissage automatique
Local grammar
Extended local grammar
Information extraction
Machine learning

Martinez, Cristian
Grammaires locales étendues : principes, mise en œuvre et applications pour l’extraction de l’information
description Les grammaires locales constituent un formalisme de description de constructions linguistiques et sont communément représentées sous la forme de graphes orientés. Utilisées pour la recherche et l'extraction de motifs dans un texte, elles trouvent leurs limites dans le traitement de variations non décrites ou fautives ainsi que dans la capacité à accéder à des connaissances exogènes, c'est-à-dire des informations à extraire, au cours de l'analyse, de ressources externes à la grammaire et qui peuvent s'avérer utiles pour normaliser, enrichir, valider ou mettre en relation les motifs reconnus. Dans cette thèse nous introduisons la notion de grammaire locale étendue. Il s'agit d'un formalisme capable d'étendre le modèle classique des grammaires locales. Premièrement, en ajoutant des fonctions arbitraires à satisfaire, appelées fonctions étendues, qui ne sont pas prédéfinies à l'avance et qui sont évaluées en dehors de la grammaire. De surcroît, ce formalisme fournit à l'analyseur syntaxique la possibilité de déclencher des événements qui peuvent également être traités sous la forme de fonctions étendues. Le travail présenté se divise en trois parties: dans un premier temps, nous étudions les principes concernant la construction des grammaires locales étendues. Nous présentons ensuite la mise en œuvre d'un moteur d'analyse textuelle implémentant le formalisme proposé. Enfin, nous étudions quelques applications pour l'extraction de l'information dans des textes bien formés et des textes bruités. Nous nous focalisons sur le couplage des ressources externes et des méthodes non-symboliques dans la construction de nos grammaires en montrant la pertinence de cette approche pour dépasser les limites des grammaires locales classiques === Local grammars constitute a descriptive formalism of linguistic phenomena and are commonly represented using directed graphs. Local grammars are used to recognize and extract patterns in a text, but they had some inherent limits in dealing with unexpected variations as well as in their capacity to access exogenous knowledge, in other words information to extract, during the analysis, from external resources and which may be useful to normalize, enhance validate or link the recognized patterns. In this thesis, we introduce the notion of extended local grammar, a formalism capable to extend the classic model of local grammars. The means are twofold: on the one hand, it is achieved by adding arbitrary conditional-functions, called extended functions, which are not predefined in advance and are evaluated from outside of the grammar. On the other hand, it is achieved by allowing the parsing engine to trigger events that can also be processed as extended functions. The work presented herewith is divided into three parts: In the first part, we study the principles regarding the construction of the extended local grammars. Then, we present a proof-of-concept of a corpus-processing tool which implements the proposed formalism. Finally, we study some techniques to extract information from both well-formed and noisy texts. We focus on the coupling of external resources and non-symbolic methods in the construction of our grammars and we highlight the suitability of this approach in order to overcome the inherent limitations of classical local grammars
author2 Paris Est
author_facet Paris Est
Martinez, Cristian
author Martinez, Cristian
author_sort Martinez, Cristian
title Grammaires locales étendues : principes, mise en œuvre et applications pour l’extraction de l’information
title_short Grammaires locales étendues : principes, mise en œuvre et applications pour l’extraction de l’information
title_full Grammaires locales étendues : principes, mise en œuvre et applications pour l’extraction de l’information
title_fullStr Grammaires locales étendues : principes, mise en œuvre et applications pour l’extraction de l’information
title_full_unstemmed Grammaires locales étendues : principes, mise en œuvre et applications pour l’extraction de l’information
title_sort grammaires locales étendues : principes, mise en œuvre et applications pour l’extraction de l’information
publishDate 2017
url http://www.theses.fr/2017PESC1075/document
work_keys_str_mv AT martinezcristian grammaireslocalesetenduesprincipesmiseenœuvreetapplicationspourlextractiondelinformation
AT martinezcristian extendedlocalgrammarsprinciplesimplementationandapplicationsforinformationextraction
_version_ 1718757335339368448