Enrichissement des Modèles de Classification de Textes Représentés par des Concepts

La majorité des méthodes de classification de textes utilisent le paradigme du sac de mots pour représenter les textes. Pourtant cette technique pose différents problèmes sémantiques : certains mots sont polysémiques, d'autres peuvent être des synonymes et être malgré tout différenciés, d'...

Full description

Bibliographic Details
Main Author:	Risch, Jean-Charles
Other Authors:	Reims
Language:	fr
Published:	2017
Subjects:	Classification de Textes Intelligence Artificielle Mégadonnées Apprentissage Automatique Visualisation de Données Text Classification Artificial Intelligence Big Data Machine Learning Data Visualization
Online Access:	http://www.theses.fr/2017REIMS012/document

id	ndltd-theses.fr-2017REIMS012
record_format	oai_dc
spelling	ndltd-theses.fr-2017REIMS0122019-10-16T03:33:19Z Enrichissement des Modèles de Classification de Textes Représentés par des Concepts Improving text-classification models using the bag-of-concept paradigm Classification de Textes Intelligence Artificielle Mégadonnées Apprentissage Automatique Visualisation de Données Text Classification Artificial Intelligence Big Data Machine Learning Data Visualization La majorité des méthodes de classification de textes utilisent le paradigme du sac de mots pour représenter les textes. Pourtant cette technique pose différents problèmes sémantiques : certains mots sont polysémiques, d'autres peuvent être des synonymes et être malgré tout différenciés, d'autres encore sont liés sémantiquement sans que cela soit pris en compte et enfin, certains mots perdent leur sens s'ils sont extraits de leur groupe nominal. Pour pallier ces problèmes, certaines méthodes ne représentent plus les textes par des mots mais par des concepts extraits d'une ontologie de domaine, intégrant ainsi la notion de sens au modèle. Les modèles intégrant la représentation des textes par des concepts restent peu utilisés à cause des résultats peu satisfaisants. Afin d'améliorer les performances de ces modèles, plusieurs méthodes ont été proposées pour enrichir les caractéristiques des textes à l'aide de nouveaux concepts extraits de bases de connaissances. Mes travaux donnent suite à ces approches en proposant une étape d'enrichissement des modèles à l'aide d'une ontologie de domaine associée. J'ai proposé deux mesures permettant d'estimer l'appartenance aux catégories de ces nouveaux concepts. A l'aide de l'algorithme du classifieur naïf Bayésien, j'ai testé et comparé mes contributions sur le corpus de textes labéllisés Ohsumed et l'ontologie de domaine Disease Ontology. Les résultats satisfaisants m'ont amené à analyser plus précisément le rôle des relations sémantiques dans l'enrichissement des modèles. Ces nouveaux travaux ont été le sujet d'une seconde expérience où il est question d'évaluer les apports des relations hiérarchiques d'hyperonymie et d'hyponymie. Most of text-classification methods use the ``bag of words” paradigm to represent texts. However Bloahdom and Hortho have identified four limits to this representation: (1) some words are polysemics, (2) others can be synonyms and yet differentiated in the analysis, (3) some words are strongly semantically linked without being taken into account in the representation as such and (4) certain words lose their meaning if they are extracted from their nominal group. To overcome these problems, some methods no longer represent texts with words but with concepts extracted from a domain ontology (Bag of Concept), integrating the notion of meaning into the model. Models integrating the bag of concepts remain less used because of the unsatisfactory results, thus several methods have been proposed to enrich text features using new concepts extracted from knowledge bases. My work follows these approaches by proposing a model-enrichment step using a domain ontology, I proposed two measures to estimate to belong to the categories of these new concepts. Using the naive Bayes classifier algorithm, I tested and compared my contributions on the Ohsumed corpus using the domain ontology ``Disease Ontology”. The satisfactory results led me to analyse more precisely the role of semantic relations in the enrichment step. These new works have been the subject of a second experiment in which we evaluate the contributions of the hierarchical relations of hypernymy and hyponymy. Electronic Thesis or Dissertation Text fr http://www.theses.fr/2017REIMS012/document Risch, Jean-Charles 2017-06-27 Reims Rousseaux, Francis Soulier, Eddie
collection	NDLTD
language	fr
sources	NDLTD
topic	Classification de Textes Intelligence Artificielle Mégadonnées Apprentissage Automatique Visualisation de Données Text Classification Artificial Intelligence Big Data Machine Learning Data Visualization
spellingShingle	Classification de Textes Intelligence Artificielle Mégadonnées Apprentissage Automatique Visualisation de Données Text Classification Artificial Intelligence Big Data Machine Learning Data Visualization Risch, Jean-Charles Enrichissement des Modèles de Classification de Textes Représentés par des Concepts
description	La majorité des méthodes de classification de textes utilisent le paradigme du sac de mots pour représenter les textes. Pourtant cette technique pose différents problèmes sémantiques : certains mots sont polysémiques, d'autres peuvent être des synonymes et être malgré tout différenciés, d'autres encore sont liés sémantiquement sans que cela soit pris en compte et enfin, certains mots perdent leur sens s'ils sont extraits de leur groupe nominal. Pour pallier ces problèmes, certaines méthodes ne représentent plus les textes par des mots mais par des concepts extraits d'une ontologie de domaine, intégrant ainsi la notion de sens au modèle. Les modèles intégrant la représentation des textes par des concepts restent peu utilisés à cause des résultats peu satisfaisants. Afin d'améliorer les performances de ces modèles, plusieurs méthodes ont été proposées pour enrichir les caractéristiques des textes à l'aide de nouveaux concepts extraits de bases de connaissances. Mes travaux donnent suite à ces approches en proposant une étape d'enrichissement des modèles à l'aide d'une ontologie de domaine associée. J'ai proposé deux mesures permettant d'estimer l'appartenance aux catégories de ces nouveaux concepts. A l'aide de l'algorithme du classifieur naïf Bayésien, j'ai testé et comparé mes contributions sur le corpus de textes labéllisés Ohsumed et l'ontologie de domaine Disease Ontology. Les résultats satisfaisants m'ont amené à analyser plus précisément le rôle des relations sémantiques dans l'enrichissement des modèles. Ces nouveaux travaux ont été le sujet d'une seconde expérience où il est question d'évaluer les apports des relations hiérarchiques d'hyperonymie et d'hyponymie. === Most of text-classification methods use the ``bag of words” paradigm to represent texts. However Bloahdom and Hortho have identified four limits to this representation: (1) some words are polysemics, (2) others can be synonyms and yet differentiated in the analysis, (3) some words are strongly semantically linked without being taken into account in the representation as such and (4) certain words lose their meaning if they are extracted from their nominal group. To overcome these problems, some methods no longer represent texts with words but with concepts extracted from a domain ontology (Bag of Concept), integrating the notion of meaning into the model. Models integrating the bag of concepts remain less used because of the unsatisfactory results, thus several methods have been proposed to enrich text features using new concepts extracted from knowledge bases. My work follows these approaches by proposing a model-enrichment step using a domain ontology, I proposed two measures to estimate to belong to the categories of these new concepts. Using the naive Bayes classifier algorithm, I tested and compared my contributions on the Ohsumed corpus using the domain ontology ``Disease Ontology”. The satisfactory results led me to analyse more precisely the role of semantic relations in the enrichment step. These new works have been the subject of a second experiment in which we evaluate the contributions of the hierarchical relations of hypernymy and hyponymy.
author2	Reims
author_facet	Reims Risch, Jean-Charles
author	Risch, Jean-Charles
author_sort	Risch, Jean-Charles
title	Enrichissement des Modèles de Classification de Textes Représentés par des Concepts
title_short	Enrichissement des Modèles de Classification de Textes Représentés par des Concepts
title_full	Enrichissement des Modèles de Classification de Textes Représentés par des Concepts
title_fullStr	Enrichissement des Modèles de Classification de Textes Représentés par des Concepts
title_full_unstemmed	Enrichissement des Modèles de Classification de Textes Représentés par des Concepts
title_sort	enrichissement des modèles de classification de textes représentés par des concepts
publishDate	2017
url	http://www.theses.fr/2017REIMS012/document
work_keys_str_mv	AT rischjeancharles enrichissementdesmodelesdeclassificationdetextesrepresentespardesconcepts AT rischjeancharles improvingtextclassificationmodelsusingthebagofconceptparadigm
_version_	1719269093903695872

Enrichissement des Modèles de Classification de Textes Représentés par des Concepts

Similar Items