Enrichissement des Modèles de Classification de Textes Représentés par des Concepts

La majorité des méthodes de classification de textes utilisent le paradigme du sac de mots pour représenter les textes. Pourtant cette technique pose différents problèmes sémantiques : certains mots sont polysémiques, d'autres peuvent être des synonymes et être malgré tout différenciés, d'...

Full description

Bibliographic Details
Main Author: Risch, Jean-Charles
Other Authors: Reims
Language:fr
Published: 2017
Subjects:
Online Access:http://www.theses.fr/2017REIMS012/document
id ndltd-theses.fr-2017REIMS012
record_format oai_dc
spelling ndltd-theses.fr-2017REIMS0122019-10-16T03:33:19Z Enrichissement des Modèles de Classification de Textes Représentés par des Concepts Improving text-classification models using the bag-of-concept paradigm Classification de Textes Intelligence Artificielle Mégadonnées Apprentissage Automatique Visualisation de Données Text Classification Artificial Intelligence Big Data Machine Learning Data Visualization La majorité des méthodes de classification de textes utilisent le paradigme du sac de mots pour représenter les textes. Pourtant cette technique pose différents problèmes sémantiques : certains mots sont polysémiques, d'autres peuvent être des synonymes et être malgré tout différenciés, d'autres encore sont liés sémantiquement sans que cela soit pris en compte et enfin, certains mots perdent leur sens s'ils sont extraits de leur groupe nominal. Pour pallier ces problèmes, certaines méthodes ne représentent plus les textes par des mots mais par des concepts extraits d'une ontologie de domaine, intégrant ainsi la notion de sens au modèle. Les modèles intégrant la représentation des textes par des concepts restent peu utilisés à cause des résultats peu satisfaisants. Afin d'améliorer les performances de ces modèles, plusieurs méthodes ont été proposées pour enrichir les caractéristiques des textes à l'aide de nouveaux concepts extraits de bases de connaissances. Mes travaux donnent suite à ces approches en proposant une étape d'enrichissement des modèles à l'aide d'une ontologie de domaine associée. J'ai proposé deux mesures permettant d'estimer l'appartenance aux catégories de ces nouveaux concepts. A l'aide de l'algorithme du classifieur naïf Bayésien, j'ai testé et comparé mes contributions sur le corpus de textes labéllisés Ohsumed et l'ontologie de domaine Disease Ontology. Les résultats satisfaisants m'ont amené à analyser plus précisément le rôle des relations sémantiques dans l'enrichissement des modèles. Ces nouveaux travaux ont été le sujet d'une seconde expérience où il est question d'évaluer les apports des relations hiérarchiques d'hyperonymie et d'hyponymie. Most of text-classification methods use the ``bag of words” paradigm to represent texts. However Bloahdom and Hortho have identified four limits to this representation: (1) some words are polysemics, (2) others can be synonyms and yet differentiated in the analysis, (3) some words are strongly semantically linked without being taken into account in the representation as such and (4) certain words lose their meaning if they are extracted from their nominal group. To overcome these problems, some methods no longer represent texts with words but with concepts extracted from a domain ontology (Bag of Concept), integrating the notion of meaning into the model. Models integrating the bag of concepts remain less used because of the unsatisfactory results, thus several methods have been proposed to enrich text features using new concepts extracted from knowledge bases. My work follows these approaches by proposing a model-enrichment step using a domain ontology, I proposed two measures to estimate to belong to the categories of these new concepts. Using the naive Bayes classifier algorithm, I tested and compared my contributions on the Ohsumed corpus using the domain ontology ``Disease Ontology”. The satisfactory results led me to analyse more precisely the role of semantic relations in the enrichment step. These new works have been the subject of a second experiment in which we evaluate the contributions of the hierarchical relations of hypernymy and hyponymy. Electronic Thesis or Dissertation Text fr http://www.theses.fr/2017REIMS012/document Risch, Jean-Charles 2017-06-27 Reims Rousseaux, Francis Soulier, Eddie
collection NDLTD
language fr
sources NDLTD
topic Classification de Textes
Intelligence Artificielle
Mégadonnées
Apprentissage Automatique
Visualisation de Données
Text Classification
Artificial Intelligence
Big Data
Machine Learning
Data Visualization

spellingShingle Classification de Textes
Intelligence Artificielle
Mégadonnées
Apprentissage Automatique
Visualisation de Données
Text Classification
Artificial Intelligence
Big Data
Machine Learning
Data Visualization

Risch, Jean-Charles
Enrichissement des Modèles de Classification de Textes Représentés par des Concepts
description La majorité des méthodes de classification de textes utilisent le paradigme du sac de mots pour représenter les textes. Pourtant cette technique pose différents problèmes sémantiques : certains mots sont polysémiques, d'autres peuvent être des synonymes et être malgré tout différenciés, d'autres encore sont liés sémantiquement sans que cela soit pris en compte et enfin, certains mots perdent leur sens s'ils sont extraits de leur groupe nominal. Pour pallier ces problèmes, certaines méthodes ne représentent plus les textes par des mots mais par des concepts extraits d'une ontologie de domaine, intégrant ainsi la notion de sens au modèle. Les modèles intégrant la représentation des textes par des concepts restent peu utilisés à cause des résultats peu satisfaisants. Afin d'améliorer les performances de ces modèles, plusieurs méthodes ont été proposées pour enrichir les caractéristiques des textes à l'aide de nouveaux concepts extraits de bases de connaissances. Mes travaux donnent suite à ces approches en proposant une étape d'enrichissement des modèles à l'aide d'une ontologie de domaine associée. J'ai proposé deux mesures permettant d'estimer l'appartenance aux catégories de ces nouveaux concepts. A l'aide de l'algorithme du classifieur naïf Bayésien, j'ai testé et comparé mes contributions sur le corpus de textes labéllisés Ohsumed et l'ontologie de domaine Disease Ontology. Les résultats satisfaisants m'ont amené à analyser plus précisément le rôle des relations sémantiques dans l'enrichissement des modèles. Ces nouveaux travaux ont été le sujet d'une seconde expérience où il est question d'évaluer les apports des relations hiérarchiques d'hyperonymie et d'hyponymie. === Most of text-classification methods use the ``bag of words” paradigm to represent texts. However Bloahdom and Hortho have identified four limits to this representation: (1) some words are polysemics, (2) others can be synonyms and yet differentiated in the analysis, (3) some words are strongly semantically linked without being taken into account in the representation as such and (4) certain words lose their meaning if they are extracted from their nominal group. To overcome these problems, some methods no longer represent texts with words but with concepts extracted from a domain ontology (Bag of Concept), integrating the notion of meaning into the model. Models integrating the bag of concepts remain less used because of the unsatisfactory results, thus several methods have been proposed to enrich text features using new concepts extracted from knowledge bases. My work follows these approaches by proposing a model-enrichment step using a domain ontology, I proposed two measures to estimate to belong to the categories of these new concepts. Using the naive Bayes classifier algorithm, I tested and compared my contributions on the Ohsumed corpus using the domain ontology ``Disease Ontology”. The satisfactory results led me to analyse more precisely the role of semantic relations in the enrichment step. These new works have been the subject of a second experiment in which we evaluate the contributions of the hierarchical relations of hypernymy and hyponymy.
author2 Reims
author_facet Reims
Risch, Jean-Charles
author Risch, Jean-Charles
author_sort Risch, Jean-Charles
title Enrichissement des Modèles de Classification de Textes Représentés par des Concepts
title_short Enrichissement des Modèles de Classification de Textes Représentés par des Concepts
title_full Enrichissement des Modèles de Classification de Textes Représentés par des Concepts
title_fullStr Enrichissement des Modèles de Classification de Textes Représentés par des Concepts
title_full_unstemmed Enrichissement des Modèles de Classification de Textes Représentés par des Concepts
title_sort enrichissement des modèles de classification de textes représentés par des concepts
publishDate 2017
url http://www.theses.fr/2017REIMS012/document
work_keys_str_mv AT rischjeancharles enrichissementdesmodelesdeclassificationdetextesrepresentespardesconcepts
AT rischjeancharles improvingtextclassificationmodelsusingthebagofconceptparadigm
_version_ 1719269093903695872