A preliminary study in zero anaphora coreference resolution for Polish
A preliminary study in zero anaphora coreference resolution for Polish Zero anaphora is an element of the coreference resolution task that has not yet been directly addressed in Polish and, in most studies, it has been left as the most challenging aspect for further investigation. This article pres...
Main Authors: | , |
---|---|
Format: | Article |
Language: | English |
Published: |
Institute of Slavic Studies, Polish Academy of Sciences
2017-12-01
|
Series: | Cognitive Studies | Études cognitives |
Subjects: | |
Online Access: | https://ispan.waw.pl/journals/index.php/cs-ec/article/view/1316 |
id |
doaj-08ab60f0f2ed4592bd8a6b038d2162f0 |
---|---|
record_format |
Article |
spelling |
doaj-08ab60f0f2ed4592bd8a6b038d2162f02020-11-24T22:50:00ZengInstitute of Slavic Studies, Polish Academy of SciencesCognitive Studies | Études cognitives2392-23972017-12-0101710.11649/cs.13161190A preliminary study in zero anaphora coreference resolution for PolishAdam Jan Kaczmarek0Michał Marcińczuk1Uniwersytet Wrocławski [University of Wrocław], WrocławPolitechnika Wrocławska [Wrocław University of Science and Technology], WrocławA preliminary study in zero anaphora coreference resolution for Polish Zero anaphora is an element of the coreference resolution task that has not yet been directly addressed in Polish and, in most studies, it has been left as the most challenging aspect for further investigation. This article presents an initial study of this problem. The preparation of a machine learning approach, alongside engineering features based on linguistic study of the KPWr corpus, is discussed. This study utilizes existing tools for Polish coreference resolution as sources of partial coreferential clusters containing pronoun, noun and named entity mentions. They are also used as baseline zero coreference resolution systems for comparison with our system. The evaluation process is focused not only on clustering correctness, without taking into account types of mentions, using standard CoNLL-2012 measures, but also on the informativeness of the resulting relations. According to the annotation approach used for coreference to the KPWr corpus, only named entities are treated as mentions that are informative enough to constitute a link to real world objects. Consequently, we provide an evaluation of informativeness based on found links between zero anaphoras and named entities. For the same reason, we restrict coreference resolution in this study to mention clusters built around named entities. Wstępne studium rozwiązywania problemu koreferencji anafory zerowej w języku polskim Koreferencja zerowa, w języku polskim, jest jednym z zagadnień rozpoznawania koreferencji. Dotychczas nie była ona bezpośrednim przedmiotem badań, gdyż ze względu na jej złożoność była pomijana i odsuwana na dalsze etapy badań. Artykuł prezentuje wstępne studium problemu, jakim jest rozpoznawanie koreferencji zerowej. Przedstawiamy podejście wykorzystujące techniki uczenia maszynowego oraz proces tworzenia cech w oparciu o analizę lingwistyczną korpusu KPWr. W przedstawionej pracy wykorzystujemy istniejące narzędzia do rozpoznawania koreferencji dla pozostałych rodzajów wzmianek (tj. nazwy własne, frazy rzeczownikowe oraz zaimki) jako źródło częściowych zbiorów wzmianek odnoszących się do tego samego obiektu, a także jako punkt odniesienia dla uzyskanych przez nas wyników. Ocena skupia się nie tylko na poprawności uzyskanych zbiorów wzmianek, bez względu na ich typ, co odzwierciedlają wyniki podane dla standardowych metryk CoNLL-2012, ale także na wartości informacji, która zostaje uzyskana w wyniku rozpoznania koreferencji. W nawiązaniu do założeń anotacji korpusu KPWr, jedynie nazwy własne traktowane są jako wzmianki, które zawierają w sobie wystarczająco szczegółową informację, aby można było powiązać je z obiektami rzeczywistymi. W konsekwencji dostarczamy także ocenę opartą na wartości informacji dla podmiotów domyślnych połączonych relacją koreferencji z nazwami własnymi. Z tą samą motywacją rozpatrujemy jedynie zbiory wzmianek koreferencyjnych zbudowane wokół nazw własnych.https://ispan.waw.pl/journals/index.php/cs-ec/article/view/1316coreferencezero subjectzero anaphora coreference in Polish |
collection |
DOAJ |
language |
English |
format |
Article |
sources |
DOAJ |
author |
Adam Jan Kaczmarek Michał Marcińczuk |
spellingShingle |
Adam Jan Kaczmarek Michał Marcińczuk A preliminary study in zero anaphora coreference resolution for Polish Cognitive Studies | Études cognitives coreference zero subject zero anaphora coreference in Polish |
author_facet |
Adam Jan Kaczmarek Michał Marcińczuk |
author_sort |
Adam Jan Kaczmarek |
title |
A preliminary study in zero anaphora coreference resolution for Polish |
title_short |
A preliminary study in zero anaphora coreference resolution for Polish |
title_full |
A preliminary study in zero anaphora coreference resolution for Polish |
title_fullStr |
A preliminary study in zero anaphora coreference resolution for Polish |
title_full_unstemmed |
A preliminary study in zero anaphora coreference resolution for Polish |
title_sort |
preliminary study in zero anaphora coreference resolution for polish |
publisher |
Institute of Slavic Studies, Polish Academy of Sciences |
series |
Cognitive Studies | Études cognitives |
issn |
2392-2397 |
publishDate |
2017-12-01 |
description |
A preliminary study in zero anaphora coreference resolution for Polish
Zero anaphora is an element of the coreference resolution task that has not yet been directly addressed in Polish and, in most studies, it has been left as the most challenging aspect for further investigation. This article presents an initial study of this problem. The preparation of a machine learning approach, alongside engineering features based on linguistic study of the KPWr corpus, is discussed. This study utilizes existing tools for Polish coreference resolution as sources of partial coreferential clusters containing pronoun, noun and named entity mentions. They are also used as baseline zero coreference resolution systems for comparison with our system. The evaluation process is focused not only on clustering correctness, without taking into account types of mentions, using standard CoNLL-2012 measures, but also on the informativeness of the resulting relations. According to the annotation approach used for coreference to the KPWr corpus, only named entities are treated as mentions that are informative enough to constitute a link to real world objects. Consequently, we provide an evaluation of informativeness based on found links between zero anaphoras and named entities. For the same reason, we restrict coreference resolution in this study to mention clusters built around named entities.
Wstępne studium rozwiązywania problemu koreferencji anafory zerowej w języku polskim
Koreferencja zerowa, w języku polskim, jest jednym z zagadnień rozpoznawania koreferencji. Dotychczas nie była ona bezpośrednim przedmiotem badań, gdyż ze względu na jej złożoność była pomijana i odsuwana na dalsze etapy badań. Artykuł prezentuje wstępne studium problemu, jakim jest rozpoznawanie koreferencji zerowej. Przedstawiamy podejście wykorzystujące techniki uczenia maszynowego oraz proces tworzenia cech w oparciu o analizę lingwistyczną korpusu KPWr. W przedstawionej pracy wykorzystujemy istniejące narzędzia do rozpoznawania koreferencji dla pozostałych rodzajów wzmianek (tj. nazwy własne, frazy rzeczownikowe oraz zaimki) jako źródło częściowych zbiorów wzmianek odnoszących się do tego samego obiektu, a także jako punkt odniesienia dla uzyskanych przez nas wyników. Ocena skupia się nie tylko na poprawności uzyskanych zbiorów wzmianek, bez względu na ich typ, co odzwierciedlają wyniki podane dla standardowych metryk CoNLL-2012, ale także na wartości informacji, która zostaje uzyskana w wyniku rozpoznania koreferencji. W nawiązaniu do założeń anotacji korpusu KPWr, jedynie nazwy własne traktowane są jako wzmianki, które zawierają w sobie wystarczająco szczegółową informację, aby można było powiązać je z obiektami rzeczywistymi. W konsekwencji dostarczamy także ocenę opartą na wartości informacji dla podmiotów domyślnych połączonych relacją koreferencji z nazwami własnymi. Z tą samą motywacją rozpatrujemy jedynie zbiory wzmianek koreferencyjnych zbudowane wokół nazw własnych. |
topic |
coreference zero subject zero anaphora coreference in Polish |
url |
https://ispan.waw.pl/journals/index.php/cs-ec/article/view/1316 |
work_keys_str_mv |
AT adamjankaczmarek apreliminarystudyinzeroanaphoracoreferenceresolutionforpolish AT michałmarcinczuk apreliminarystudyinzeroanaphoracoreferenceresolutionforpolish AT adamjankaczmarek preliminarystudyinzeroanaphoracoreferenceresolutionforpolish AT michałmarcinczuk preliminarystudyinzeroanaphoracoreferenceresolutionforpolish |
_version_ |
1725674009249447936 |