Creating a Graph Database from a Set of Documents

In the context of search, it may be advantageous in some use-cases to have documents saved in a graph database rather than a document-orientated database. Graph databases are able to model relationships between objects, in this case documents, in ways which allow for efficient retrieval, as well as...

Full description

Bibliographic Details
Main Author: Nikolic, Vladan
Format: Others
Language:English
Published: KTH, Skolan för datavetenskap och kommunikation (CSC) 2015
Subjects:
NER
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-176042
id ndltd-UPSALLA1-oai-DiVA.org-kth-176042
record_format oai_dc
spelling ndltd-UPSALLA1-oai-DiVA.org-kth-1760422018-01-11T05:12:38ZCreating a Graph Database from a Set of DocumentsengSkapandet av en grafdatabas från ett set av dokumentNikolic, VladanKTH, Skolan för datavetenskap och kommunikation (CSC)2015graph databasedocumentsNERnamed entity recognitionnamed entity recognizerrelationsComputer SciencesDatavetenskap (datalogi)In the context of search, it may be advantageous in some use-cases to have documents saved in a graph database rather than a document-orientated database. Graph databases are able to model relationships between objects, in this case documents, in ways which allow for efficient retrieval, as well as search queries that are slightly more specific or complex. This report will attempt to explore the possibilities of storing an existing set of documents into a graph database. A Named Entity Recognizer was used on a set of news articles in order to extract entities from each news article’s body of text. News articles that contain the same entities are then connected to each other in the graph. Ideas to improve this entity extraction are also explored. The method of evaluation that was utilized in this report proved not to be ideal for this task in that only a relative measure was given, not an absolute one. As such, no absolute answer with regards to the quality of the method can be presented. It is clear that improvements can be made, and the result should be subject to further study. I ett sökkontext kan det vara födelaktigt att i några användarscenarion utgå från dokument lagrade i en grafdatabas gentemot en dokument-orienterad databas. Grafdatabaser kan modellera förhållanden mellan objekt, som i detta fall är dokument, på ett sätt som ökar effektiviteten för vissa mer specifika eller komplexa sökfrågor. Denna rapport utforskar möjligheterna i att lagra existerande dokument i en grafdatabas. En Named Entity Recognizer används för att extrahera entiter från en stor samling nyhetsartiklar. Nyhetsartiklar som innehåller samma entiteter är sedan kopplade till varandra i grafen. Dessutom undersöks möjligheter till att förbättra extraheringen av entiteter. Evalueringsmetoden som användes visade sig mindre än ideal, då endast en relativ snarare än absolut bedömning kan göras av den slutgiltiga grafen. Därav kan inget slutgiltigt svar ges angående grafens och metodens kvalitet, men resultatet bör vara av intresse för framtida undersökningar. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-176042application/pdfinfo:eu-repo/semantics/openAccess
collection NDLTD
language English
format Others
sources NDLTD
topic graph database
documents
NER
named entity recognition
named entity recognizer
relations
Computer Sciences
Datavetenskap (datalogi)
spellingShingle graph database
documents
NER
named entity recognition
named entity recognizer
relations
Computer Sciences
Datavetenskap (datalogi)
Nikolic, Vladan
Creating a Graph Database from a Set of Documents
description In the context of search, it may be advantageous in some use-cases to have documents saved in a graph database rather than a document-orientated database. Graph databases are able to model relationships between objects, in this case documents, in ways which allow for efficient retrieval, as well as search queries that are slightly more specific or complex. This report will attempt to explore the possibilities of storing an existing set of documents into a graph database. A Named Entity Recognizer was used on a set of news articles in order to extract entities from each news article’s body of text. News articles that contain the same entities are then connected to each other in the graph. Ideas to improve this entity extraction are also explored. The method of evaluation that was utilized in this report proved not to be ideal for this task in that only a relative measure was given, not an absolute one. As such, no absolute answer with regards to the quality of the method can be presented. It is clear that improvements can be made, and the result should be subject to further study. === I ett sökkontext kan det vara födelaktigt att i några användarscenarion utgå från dokument lagrade i en grafdatabas gentemot en dokument-orienterad databas. Grafdatabaser kan modellera förhållanden mellan objekt, som i detta fall är dokument, på ett sätt som ökar effektiviteten för vissa mer specifika eller komplexa sökfrågor. Denna rapport utforskar möjligheterna i att lagra existerande dokument i en grafdatabas. En Named Entity Recognizer används för att extrahera entiter från en stor samling nyhetsartiklar. Nyhetsartiklar som innehåller samma entiteter är sedan kopplade till varandra i grafen. Dessutom undersöks möjligheter till att förbättra extraheringen av entiteter. Evalueringsmetoden som användes visade sig mindre än ideal, då endast en relativ snarare än absolut bedömning kan göras av den slutgiltiga grafen. Därav kan inget slutgiltigt svar ges angående grafens och metodens kvalitet, men resultatet bör vara av intresse för framtida undersökningar.
author Nikolic, Vladan
author_facet Nikolic, Vladan
author_sort Nikolic, Vladan
title Creating a Graph Database from a Set of Documents
title_short Creating a Graph Database from a Set of Documents
title_full Creating a Graph Database from a Set of Documents
title_fullStr Creating a Graph Database from a Set of Documents
title_full_unstemmed Creating a Graph Database from a Set of Documents
title_sort creating a graph database from a set of documents
publisher KTH, Skolan för datavetenskap och kommunikation (CSC)
publishDate 2015
url http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-176042
work_keys_str_mv AT nikolicvladan creatingagraphdatabasefromasetofdocuments
AT nikolicvladan skapandetavengrafdatabasfranettsetavdokument
_version_ 1718604770155954176