Coreference resolution with and for Wikipedia

Wikipédia est une ressource embarquée dans de nombreuses applications du traite- ment des langues naturelles. Pourtant, aucune étude à notre connaissance n’a tenté de mesurer la qualité de résolution de coréférence dans les textes de Wikipédia, une étape préliminaire à la compréhension de textes....

Full description

Bibliographic Details
Main Author: Ghaddar, Abbas
Other Authors: Langlais, Philippe
Language:en
Published: 2017
Subjects:
Online Access:http://hdl.handle.net/1866/18341
id ndltd-umontreal.ca-oai-papyrus.bib.umontreal.ca-1866-18341
record_format oai_dc
spelling ndltd-umontreal.ca-oai-papyrus.bib.umontreal.ca-1866-183412017-04-14T17:07:42Z Coreference resolution with and for Wikipedia Ghaddar, Abbas Langlais, Philippe Résolution de Coréférences Création du corpus Wikipédia Coreference Resolution Corpus Creation Wikipedia Applied Sciences - Computer Science / Sciences appliqués et technologie - Informatique (UMI : 0984) Wikipédia est une ressource embarquée dans de nombreuses applications du traite- ment des langues naturelles. Pourtant, aucune étude à notre connaissance n’a tenté de mesurer la qualité de résolution de coréférence dans les textes de Wikipédia, une étape préliminaire à la compréhension de textes. La première partie de ce mémoire consiste à construire un corpus de coréférence en anglais, construit uniquement à partir des articles de Wikipédia. Les mentions sont étiquetées par des informations syntaxiques et séman- tiques, avec lorsque cela est possible un lien vers les entités FreeBase équivalentes. Le but est de créer un corpus équilibré regroupant des articles de divers sujets et tailles. Notre schéma d’annotation est similaire à celui suivi dans le projet OntoNotes. Dans la deuxième partie, nous allons mesurer la qualité des systèmes de détection de coréférence à l’état de l’art sur une tâche simple consistant à mesurer les mentions du concept décrit dans une page Wikipédia (p. ex : les mentions du président Obama dans la page Wiki- pédia dédiée à cette personne). Nous tenterons d’améliorer ces performances en faisant usage le plus possible des informations disponibles dans Wikipédia (catégories, redi- rects, infoboxes, etc.) et Freebase (information du genre, du nombre, type de relations avec autres entités, etc.). Wikipedia is a resource of choice exploited in many NLP applications, yet we are not aware of recent attempts to adapt coreference resolution to this resource, a prelim- inary step to understand Wikipedia texts. The first part of this master thesis is to build an English coreference corpus, where all documents are from the English version of Wikipedia. We annotated each markable with coreference type, mention type and the equivalent Freebase topic. Our corpus has no restriction on the topics of the documents being annotated, and documents of various sizes have been considered for annotation. Our annotation scheme follows the one of OntoNotes with a few disparities. In part two, we propose a testbed for evaluating coreference systems in a simple task of measuring the particulars of the concept described in a Wikipedia page (eg. The statements of Pres- ident Obama the Wikipedia page dedicated to that person). We show that by exploiting the Wikipedia markup (categories, redirects, infoboxes, etc.) of a document, as well as links to external knowledge bases such as Freebase (information of the type, num- ber, type of relationship with other entities, etc.), we can acquire useful information on entities that helps to classify mentions as coreferent or not. 2017-04-12T14:38:36Z NO_RESTRICTION 2017-04-12T14:38:36Z 2017-03-28 2016-06 Thèse ou Mémoire numérique / Electronic Thesis or Dissertation http://hdl.handle.net/1866/18341 en
collection NDLTD
language en
sources NDLTD
topic Résolution de Coréférences
Création du corpus
Wikipédia
Coreference Resolution
Corpus Creation
Wikipedia
Applied Sciences - Computer Science / Sciences appliqués et technologie - Informatique (UMI : 0984)
spellingShingle Résolution de Coréférences
Création du corpus
Wikipédia
Coreference Resolution
Corpus Creation
Wikipedia
Applied Sciences - Computer Science / Sciences appliqués et technologie - Informatique (UMI : 0984)
Ghaddar, Abbas
Coreference resolution with and for Wikipedia
description Wikipédia est une ressource embarquée dans de nombreuses applications du traite- ment des langues naturelles. Pourtant, aucune étude à notre connaissance n’a tenté de mesurer la qualité de résolution de coréférence dans les textes de Wikipédia, une étape préliminaire à la compréhension de textes. La première partie de ce mémoire consiste à construire un corpus de coréférence en anglais, construit uniquement à partir des articles de Wikipédia. Les mentions sont étiquetées par des informations syntaxiques et séman- tiques, avec lorsque cela est possible un lien vers les entités FreeBase équivalentes. Le but est de créer un corpus équilibré regroupant des articles de divers sujets et tailles. Notre schéma d’annotation est similaire à celui suivi dans le projet OntoNotes. Dans la deuxième partie, nous allons mesurer la qualité des systèmes de détection de coréférence à l’état de l’art sur une tâche simple consistant à mesurer les mentions du concept décrit dans une page Wikipédia (p. ex : les mentions du président Obama dans la page Wiki- pédia dédiée à cette personne). Nous tenterons d’améliorer ces performances en faisant usage le plus possible des informations disponibles dans Wikipédia (catégories, redi- rects, infoboxes, etc.) et Freebase (information du genre, du nombre, type de relations avec autres entités, etc.). === Wikipedia is a resource of choice exploited in many NLP applications, yet we are not aware of recent attempts to adapt coreference resolution to this resource, a prelim- inary step to understand Wikipedia texts. The first part of this master thesis is to build an English coreference corpus, where all documents are from the English version of Wikipedia. We annotated each markable with coreference type, mention type and the equivalent Freebase topic. Our corpus has no restriction on the topics of the documents being annotated, and documents of various sizes have been considered for annotation. Our annotation scheme follows the one of OntoNotes with a few disparities. In part two, we propose a testbed for evaluating coreference systems in a simple task of measuring the particulars of the concept described in a Wikipedia page (eg. The statements of Pres- ident Obama the Wikipedia page dedicated to that person). We show that by exploiting the Wikipedia markup (categories, redirects, infoboxes, etc.) of a document, as well as links to external knowledge bases such as Freebase (information of the type, num- ber, type of relationship with other entities, etc.), we can acquire useful information on entities that helps to classify mentions as coreferent or not.
author2 Langlais, Philippe
author_facet Langlais, Philippe
Ghaddar, Abbas
author Ghaddar, Abbas
author_sort Ghaddar, Abbas
title Coreference resolution with and for Wikipedia
title_short Coreference resolution with and for Wikipedia
title_full Coreference resolution with and for Wikipedia
title_fullStr Coreference resolution with and for Wikipedia
title_full_unstemmed Coreference resolution with and for Wikipedia
title_sort coreference resolution with and for wikipedia
publishDate 2017
url http://hdl.handle.net/1866/18341
work_keys_str_mv AT ghaddarabbas coreferenceresolutionwithandforwikipedia
_version_ 1718438466559148032