Méthode d’extraction d’informations géographiques à des fins d’enrichissement d’une ontologie de domaine

Notre thèse se situe dans le contexte du projet ANR GEONTO qui porte sur la constitution, l’alignement, la comparaison et l’exploitation d’ontologies géographiques hétérogènes. Dans ce contexte, notre objectif est d'extraire automatiquement des termes topographiques à partir des récits de voyag...

Full description

Bibliographic Details
Main Author:	Nguyen, Van Tien
Other Authors:	Pau
Language:	fr
Published:	2012
Subjects:	Extractions terminologiques Enrichissement d'ontologie de domaine Expressions spatiales dans le texte Relations n-aires Patrons syntaxico-sémantiques Entités nommées Métriques de chaînes. Term extraction Geographical ontology enrichment Spatial expressions in the text N-ary relation, Syntatic-semantic patterns, Named entities String metrics.
Online Access:	http://www.theses.fr/2012PAUU3052/document

id	ndltd-theses.fr-2012PAUU3052
record_format	oai_dc
collection	NDLTD
language	fr
sources	NDLTD
topic	Extractions terminologiques Enrichissement d'ontologie de domaine Expressions spatiales dans le texte Relations n-aires Patrons syntaxico-sémantiques Entités nommées Métriques de chaînes. Term extraction Geographical ontology enrichment Spatial expressions in the text N-ary relation, Syntatic-semantic patterns, Named entities String metrics.
spellingShingle	Extractions terminologiques Enrichissement d'ontologie de domaine Expressions spatiales dans le texte Relations n-aires Patrons syntaxico-sémantiques Entités nommées Métriques de chaînes. Term extraction Geographical ontology enrichment Spatial expressions in the text N-ary relation, Syntatic-semantic patterns, Named entities String metrics. Nguyen, Van Tien Méthode d’extraction d’informations géographiques à des fins d’enrichissement d’une ontologie de domaine
description	Notre thèse se situe dans le contexte du projet ANR GEONTO qui porte sur la constitution, l’alignement, la comparaison et l’exploitation d’ontologies géographiques hétérogènes. Dans ce contexte, notre objectif est d'extraire automatiquement des termes topographiques à partir des récits de voyage afin d'enrichir une ontologie géographique initialement conçue par l'IGN. La méthode proposée permet de repérer et d'extraire des termes à connotation topographiques contenus dans un texte. Notre méthode est basée sur le repérage automatique de certaines relations linguistiques afin d'annoter ces termes. Sa mise en œuvre s'appuie sur le principe des relations n-aires et passe par l'utilisation de méthodes ou de techniques de TAL (Traitement Automatique de la Langue). Il s'agit de relations n-aires entre les termes à extraire et d'autres éléments du textes qui peuvent être repérés à l'aide de ressources externes prédéfinies, telles que des lexiques spécifiques: les verbes de récit de voyage (verbes de déplacement, verbes de perceptions, et verbes topographiques), les pré-positions (prépositions de lieu, adverbes, adjectifs), les noms toponymiques, des thésaurus génériques, des ontologies de domaine (ici l'ontologie géographique initialement conçue par l'IGN). Une fois marquées par des patrons linguistiques, les relations proposées nous permettent d'annoter et d'extraire automatiquement des termes dont les différents indices permettent de déduire qu'ils évoquent des concepts topographiques. Les règles de raisonnement qui permettent ces déductions s'appuient sur des connaissances intrinsèques (évocation du spatial dans la langue) et des connaissances externes contenues dans les ressources ci-dessus évoquées, ou leur combinaison. Le point fort de notre approche est que la méthode proposée permet d'extraire non seulement des termes rattachés directement aux noms toponymiques mais également dans des structures de phrase où d'autres termes s'intercalent. L'expérimentation sur un corpus comportant 12 récits de voyage (2419 pages, fournit par la médiathèque de Pau) a montré que notre méthode est robuste. En résultat, elle a permis d'extraire 2173 termes distincts dont 1191 termes valides, soit une précision de 0,55. Cela démontre que l'utilisation des relations proposées est plus efficace que celle des couples (termes, nom toponymique)(qui donne 733 termes distincts valides avec une précision de 0,38). Notre méthode peut également être utilisée pour d'autres applications telles que la reconnaissance des entités nommées géographiques, l'indexation spatiale des documents textuels. === This thesis is in the context of the ANR project GEONTO covering the constitution, alignment, comparison and exploitation of heterogeneous geographic ontologies. The goal is to automatically extract terms from topographic travelogues to enrich a geographical ontology originally designed by IGN. The proposed method allows identification and extraction of terms contained in a text with a topographical connotation. Our method is based on a model that relies on certain grammatical relations to locate these terms. The implementation of this model requires the use of methods or techniques of NLP (Processing of Language). Our model represents the relationships between terms to extract and other elements of the texts that can be identified by using external predefined resources, such as specific lexicons: verbs of travelogue (verbs of displacement, verbs of perceptions, topographical verbs), pre-positions (prepositions of place, adverbs, adjectives), place name, generic thesauri, ontologies of domain (in our case the geographical ontology originally designed by IGN). Once marked by linguistic patterns, the proposed relationships allow us to annotate and automatically retrieve terms. Then various indices help deduce whether the extracted terms evoke topographical concepts. It is through reasoning rules that deductions are made. These rules are based on intrinsic knowledge (evocation of space in the language) and external knowledge contained in external resources mentioned above, or their combination. The advantage of our approach is that the method can extract not only the terms related directly to place name but also those embedded in sentence structure in which other terms coexisted. Experiments on a corpus consisting of 12 travel stories (2419 pages, provided by the library of Pau) showed that our method is robust. As a result, it was used to extract 2173 distinct terms with 1191 valid terms, with a precision of 0.55. This demonstrates that the use of the proposed relationships is more effective than that of couples (term, place name) (which gives 733 distinct terms valid with an accuracy of 0.38). Our method can also be used for other applications such as geographic named entity recognition, spatial indexing of textual documents.
author2	Pau
author_facet	Pau Nguyen, Van Tien
author	Nguyen, Van Tien
author_sort	Nguyen, Van Tien
title	Méthode d’extraction d’informations géographiques à des fins d’enrichissement d’une ontologie de domaine
title_short	Méthode d’extraction d’informations géographiques à des fins d’enrichissement d’une ontologie de domaine
title_full	Méthode d’extraction d’informations géographiques à des fins d’enrichissement d’une ontologie de domaine
title_fullStr	Méthode d’extraction d’informations géographiques à des fins d’enrichissement d’une ontologie de domaine
title_full_unstemmed	Méthode d’extraction d’informations géographiques à des fins d’enrichissement d’une ontologie de domaine
title_sort	méthode d’extraction d’informations géographiques à des fins d’enrichissement d’une ontologie de domaine
publishDate	2012
url	http://www.theses.fr/2012PAUU3052/document
work_keys_str_mv	AT nguyenvantien methodedextractiondinformationsgeographiquesadesfinsdenrichissementduneontologiededomaine AT nguyenvantien geographicalinformationextractionmethodinordertoenrichadomainontology
_version_	1719047535367028736
spelling	ndltd-theses.fr-2012PAUU30522019-05-09T15:56:37Z Méthode d’extraction d’informations géographiques à des fins d’enrichissement d’une ontologie de domaine Geographical information extraction method in order to enrich a domain ontology Extractions terminologiques Enrichissement d'ontologie de domaine Expressions spatiales dans le texte Relations n-aires Patrons syntaxico-sémantiques Entités nommées Métriques de chaînes. Term extraction Geographical ontology enrichment Spatial expressions in the text N-ary relation, Syntatic-semantic patterns, Named entities String metrics. Notre thèse se situe dans le contexte du projet ANR GEONTO qui porte sur la constitution, l’alignement, la comparaison et l’exploitation d’ontologies géographiques hétérogènes. Dans ce contexte, notre objectif est d'extraire automatiquement des termes topographiques à partir des récits de voyage afin d'enrichir une ontologie géographique initialement conçue par l'IGN. La méthode proposée permet de repérer et d'extraire des termes à connotation topographiques contenus dans un texte. Notre méthode est basée sur le repérage automatique de certaines relations linguistiques afin d'annoter ces termes. Sa mise en œuvre s'appuie sur le principe des relations n-aires et passe par l'utilisation de méthodes ou de techniques de TAL (Traitement Automatique de la Langue). Il s'agit de relations n-aires entre les termes à extraire et d'autres éléments du textes qui peuvent être repérés à l'aide de ressources externes prédéfinies, telles que des lexiques spécifiques: les verbes de récit de voyage (verbes de déplacement, verbes de perceptions, et verbes topographiques), les pré-positions (prépositions de lieu, adverbes, adjectifs), les noms toponymiques, des thésaurus génériques, des ontologies de domaine (ici l'ontologie géographique initialement conçue par l'IGN). Une fois marquées par des patrons linguistiques, les relations proposées nous permettent d'annoter et d'extraire automatiquement des termes dont les différents indices permettent de déduire qu'ils évoquent des concepts topographiques. Les règles de raisonnement qui permettent ces déductions s'appuient sur des connaissances intrinsèques (évocation du spatial dans la langue) et des connaissances externes contenues dans les ressources ci-dessus évoquées, ou leur combinaison. Le point fort de notre approche est que la méthode proposée permet d'extraire non seulement des termes rattachés directement aux noms toponymiques mais également dans des structures de phrase où d'autres termes s'intercalent. L'expérimentation sur un corpus comportant 12 récits de voyage (2419 pages, fournit par la médiathèque de Pau) a montré que notre méthode est robuste. En résultat, elle a permis d'extraire 2173 termes distincts dont 1191 termes valides, soit une précision de 0,55. Cela démontre que l'utilisation des relations proposées est plus efficace que celle des couples (termes, nom toponymique)(qui donne 733 termes distincts valides avec une précision de 0,38). Notre méthode peut également être utilisée pour d'autres applications telles que la reconnaissance des entités nommées géographiques, l'indexation spatiale des documents textuels. This thesis is in the context of the ANR project GEONTO covering the constitution, alignment, comparison and exploitation of heterogeneous geographic ontologies. The goal is to automatically extract terms from topographic travelogues to enrich a geographical ontology originally designed by IGN. The proposed method allows identification and extraction of terms contained in a text with a topographical connotation. Our method is based on a model that relies on certain grammatical relations to locate these terms. The implementation of this model requires the use of methods or techniques of NLP (Processing of Language). Our model represents the relationships between terms to extract and other elements of the texts that can be identified by using external predefined resources, such as specific lexicons: verbs of travelogue (verbs of displacement, verbs of perceptions, topographical verbs), pre-positions (prepositions of place, adverbs, adjectives), place name, generic thesauri, ontologies of domain (in our case the geographical ontology originally designed by IGN). Once marked by linguistic patterns, the proposed relationships allow us to annotate and automatically retrieve terms. Then various indices help deduce whether the extracted terms evoke topographical concepts. It is through reasoning rules that deductions are made. These rules are based on intrinsic knowledge (evocation of space in the language) and external knowledge contained in external resources mentioned above, or their combination. The advantage of our approach is that the method can extract not only the terms related directly to place name but also those embedded in sentence structure in which other terms coexisted. Experiments on a corpus consisting of 12 travel stories (2419 pages, provided by the library of Pau) showed that our method is robust. As a result, it was used to extract 2173 distinct terms with 1191 valid terms, with a precision of 0.55. This demonstrates that the use of the proposed relationships is more effective than that of couples (term, place name) (which gives 733 distinct terms valid with an accuracy of 0.38). Our method can also be used for other applications such as geographic named entity recognition, spatial indexing of textual documents. Electronic Thesis or Dissertation Text fr http://www.theses.fr/2012PAUU3052/document Nguyen, Van Tien 2012-11-15 Pau Gaio, Mauro

Méthode d’extraction d’informations géographiques à des fins d’enrichissement d’une ontologie de domaine

Similar Items