Similarités de données textuelles pour l'apprentissage de textes courts d'opinions et la recherche de produits

Cette thèse porte sur l'établissement de similarités de données textuelles dans le domaine de la gestion de la relation client. Elle se décline en deux parties : - l'analyse automatique de messages courts en réponse à des questionnaires de satisfaction ; - la recherche de produits...

Full description

Bibliographic Details
Main Author: Trouvilliez, Benoît
Other Authors: Artois
Language:fr
Published: 2013
Subjects:
Online Access:http://www.theses.fr/2013ARTO0403/document
id ndltd-theses.fr-2013ARTO0403
record_format oai_dc
spelling ndltd-theses.fr-2013ARTO04032017-06-27T05:06:29Z Similarités de données textuelles pour l'apprentissage de textes courts d'opinions et la recherche de produits Textual data similarities for learning short opinion texts and retrieving products Traitement automatique des langues Représentation de textes Correction orthographique Modèle colorimétrique Analyse syntaxique Analyse lexicale Analyse morphologique Apprentissage artificiel Similarité Dissimilarité Apprentissage de textes courts d'opinions Recherche de produits Recherche de couleurs \textit{Synset} Cette thèse porte sur l'établissement de similarités de données textuelles dans le domaine de la gestion de la relation client. Elle se décline en deux parties : - l'analyse automatique de messages courts en réponse à des questionnaires de satisfaction ; - la recherche de produits à partir de l'énonciation de critères au sein d'une conversation écrite mettant en jeu un humain et un programme agent. La première partie a pour objectif la production d'informations statistiques structurées extraites des réponses aux questions. Les idées exprimées dans les réponses sont identifiées, organisées selon une taxonomie et quantifiées. La seconde partie vise à transcrire les critères de recherche de produits en requêtes compréhensibles par un système de gestion de bases de données. Les critères étudiés vont de critères relativement simples comme la matière du produit jusqu'à des critères plus complexes comme le prix ou la couleur. Les deux parties se rejoignent sur la problématique d'établissement de similarités entre données textuelles par des techniques de TAL. Les principales difficultés à surmonter sont liées aux caractéristiques des textes, rédigés en langage naturel, courts, et comportant fréquemment des fautes d'orthographe ou des négations. L'établissement de similarités sémantiques entre mots (synonymie, antonymie, etc) et l'établissement de relations syntaxiques entre syntagmes (conjonction, opposition, etc) sont également des problématiques abordées. Nous étudions également dans cette thèse des méthodes de regroupements et de classification automatique de textes afin d'analyser les réponses aux questionnaires de satisfaction. This Ph.D. thesis is about the establishment of textual data similarities in the client relation domain. Two subjects are mainly considered : - the automatic analysis of short messages in response of satisfaction surveys ; - the search of products given same criteria expressed in natural language by a human through a conversation with a program. The first subject concerns the statistical informations from the surveys answers. The ideas recognized in the answers are identified, organized according to a taxonomy and quantified. The second subject concerns the transcription of some criteria over products into queries to be interpreted by a database management system. The number of criteria under consideration is wide, from simplest criteria like material or brand, until most complex criteria like color or price. The two subjects meet on the problem of establishing textual data similarities thanks to NLP techniques. The main difficulties come from the fact that the texts to be processed, written in natural language, are short ones and with lots of spell checking errors and negations. Establishment of semantic similarities between words (synonymy, antonymy, ...) and syntactic relations between syntagms (conjunction, opposition, ...) are other issues considered in our work. We also study in this Ph. D. thesis automatic clustering and classification methods in order to analyse answers to satisfaction surveys. Electronic Thesis or Dissertation Text fr http://www.theses.fr/2013ARTO0403/document Trouvilliez, Benoît 2013-05-13 Artois Marquis, Pierre
collection NDLTD
language fr
sources NDLTD
topic Traitement automatique des langues
Représentation de textes
Correction orthographique
Modèle colorimétrique
Analyse syntaxique
Analyse lexicale
Analyse morphologique
Apprentissage artificiel
Similarité
Dissimilarité
Apprentissage de textes courts d'opinions
Recherche de produits
Recherche de couleurs
\textit{Synset}

spellingShingle Traitement automatique des langues
Représentation de textes
Correction orthographique
Modèle colorimétrique
Analyse syntaxique
Analyse lexicale
Analyse morphologique
Apprentissage artificiel
Similarité
Dissimilarité
Apprentissage de textes courts d'opinions
Recherche de produits
Recherche de couleurs
\textit{Synset}

Trouvilliez, Benoît
Similarités de données textuelles pour l'apprentissage de textes courts d'opinions et la recherche de produits
description Cette thèse porte sur l'établissement de similarités de données textuelles dans le domaine de la gestion de la relation client. Elle se décline en deux parties : - l'analyse automatique de messages courts en réponse à des questionnaires de satisfaction ; - la recherche de produits à partir de l'énonciation de critères au sein d'une conversation écrite mettant en jeu un humain et un programme agent. La première partie a pour objectif la production d'informations statistiques structurées extraites des réponses aux questions. Les idées exprimées dans les réponses sont identifiées, organisées selon une taxonomie et quantifiées. La seconde partie vise à transcrire les critères de recherche de produits en requêtes compréhensibles par un système de gestion de bases de données. Les critères étudiés vont de critères relativement simples comme la matière du produit jusqu'à des critères plus complexes comme le prix ou la couleur. Les deux parties se rejoignent sur la problématique d'établissement de similarités entre données textuelles par des techniques de TAL. Les principales difficultés à surmonter sont liées aux caractéristiques des textes, rédigés en langage naturel, courts, et comportant fréquemment des fautes d'orthographe ou des négations. L'établissement de similarités sémantiques entre mots (synonymie, antonymie, etc) et l'établissement de relations syntaxiques entre syntagmes (conjonction, opposition, etc) sont également des problématiques abordées. Nous étudions également dans cette thèse des méthodes de regroupements et de classification automatique de textes afin d'analyser les réponses aux questionnaires de satisfaction. === This Ph.D. thesis is about the establishment of textual data similarities in the client relation domain. Two subjects are mainly considered : - the automatic analysis of short messages in response of satisfaction surveys ; - the search of products given same criteria expressed in natural language by a human through a conversation with a program. The first subject concerns the statistical informations from the surveys answers. The ideas recognized in the answers are identified, organized according to a taxonomy and quantified. The second subject concerns the transcription of some criteria over products into queries to be interpreted by a database management system. The number of criteria under consideration is wide, from simplest criteria like material or brand, until most complex criteria like color or price. The two subjects meet on the problem of establishing textual data similarities thanks to NLP techniques. The main difficulties come from the fact that the texts to be processed, written in natural language, are short ones and with lots of spell checking errors and negations. Establishment of semantic similarities between words (synonymy, antonymy, ...) and syntactic relations between syntagms (conjunction, opposition, ...) are other issues considered in our work. We also study in this Ph. D. thesis automatic clustering and classification methods in order to analyse answers to satisfaction surveys.
author2 Artois
author_facet Artois
Trouvilliez, Benoît
author Trouvilliez, Benoît
author_sort Trouvilliez, Benoît
title Similarités de données textuelles pour l'apprentissage de textes courts d'opinions et la recherche de produits
title_short Similarités de données textuelles pour l'apprentissage de textes courts d'opinions et la recherche de produits
title_full Similarités de données textuelles pour l'apprentissage de textes courts d'opinions et la recherche de produits
title_fullStr Similarités de données textuelles pour l'apprentissage de textes courts d'opinions et la recherche de produits
title_full_unstemmed Similarités de données textuelles pour l'apprentissage de textes courts d'opinions et la recherche de produits
title_sort similarités de données textuelles pour l'apprentissage de textes courts d'opinions et la recherche de produits
publishDate 2013
url http://www.theses.fr/2013ARTO0403/document
work_keys_str_mv AT trouvilliezbenoit similaritesdedonneestextuellespourlapprentissagedetextescourtsdopinionsetlarecherchedeproduits
AT trouvilliezbenoit textualdatasimilaritiesforlearningshortopiniontextsandretrievingproducts
_version_ 1718472734386683904