Systematisierung und Evaluierung von Clustering-Verfahren im Information Retrieval

Im Rahmen der vorliegenden Diplomarbeit werden Verfahren zur Clusteranalyse sowie deren Anwendungsmöglichkeiten zur Optimierung der Rechercheergebnisse von Information Retrievalsystemen untersucht. Die Grundlage der vergleichenden Evaluation erfolgversprechender Ansätze zur Clusteranalyse anhand der...

Full description

Bibliographic Details
Main Author: Kürsten, Jens
Other Authors: Eibl, Maximilian
Format: Dissertation
Language:German
Published: 2006
Subjects:
Online Access:http://nbn-resolving.de/urn:nbn:de:swb:ch1-200602033
https://monarch.qucosa.de/id/qucosa%3A18641
https://monarch.qucosa.de/api/qucosa%3A18641/attachment/ATT-0/
https://monarch.qucosa.de/api/qucosa%3A18641/attachment/ATT-1/
id ndltd-DRESDEN-oai-qucosa-de-qucosa-18641
record_format oai_dc
spelling ndltd-DRESDEN-oai-qucosa-de-qucosa-186412021-03-30T05:05:54Z Systematisierung und Evaluierung von Clustering-Verfahren im Information Retrieval urn:nbn:de:swb:ch1-200602033 ger Im Rahmen der vorliegenden Diplomarbeit werden Verfahren zur Clusteranalyse sowie deren Anwendungsmöglichkeiten zur Optimierung der Rechercheergebnisse von Information Retrievalsystemen untersucht. Die Grundlage der vergleichenden Evaluation erfolgversprechender Ansätze zur Clusteranalyse anhand der Domain Specific Monolingual Tasks des Cross-Language Evaluation Forums 2006 bildet die systematische Analyse der in der Forschung etablierten Verfahren zur Clusteranalyse. Die Implementierung ausgewählter Clusterverfahren wird innerhalb eines bestehenden, Lucene-basierten Retrievalsystems durchgeführt. Zusätzlich wird dieses System im Rahmen dieser Arbeit mit Komponenten zur Query Expansion und zur Datenfusion ausgestattet. Diese beiden Ansätze haben sich in der Forschung zur automatischen Optimierung von Retrievalergebnissen durchgesetzt und bilden daher die Bewertungsgrundlage für die implementierten Konzepte zur Optimierung von Rechercheergebnissen auf Basis der Clusteranalyse. Im Ergebnis erweist sich das lokale Dokument Clustering auf Basis des k-means Clustering-Algorithmus in Kombination mit dem Pseudo-Relevanz-Feedback Ansatz zur Selektion der Dokumente für die Query Expansion als besonders erfolgversprechend. Darüber hinaus wird gezeigt, dass mit Hilfe der Datenfusion auf Basis des Z-Score Operators die Ergebnisse verschiedener Indizierungsverfahren so kombiniert werden können, dass sehr gute und insbesondere sehr robuste Rechercheergebnisse erreicht werden. Within the present diploma thesis, widely used Cluster Analysis approaches are studied in respect to their application to optimize the results of Information Retrieval systems. A systematic analysis of approved methods of the Cluster Analysis is the basis of the comparative evaluation of promising approaches to use the Cluster Analysis to optimize retrieval results. The evaluation is accomplished by the participation at the Domain Specific Monolingual Tasks of the Cross-Language Evaluation Forum 2006. The implementation of selected approaches for Clustering is realized within the framework of an existing Lucene-based retrieval system. Within the scope of work, this system will be supplemented with components for Query Expansion and Data Fusion. Both approaches have prevailed in the research of automatic optimization of retrieval results. Therefore, they are the basis of assessment of the implemented methods, which aim at improving the results of retrieval and are based on Cluster Analysis. The results show that selecting documents for Query Expansion with the help of local Document Clustering based on the k-means Clustering algorithm combined with the Blind Feedback approach is very promising. Furthermore, the Data Fusion approach based on the Z-Score operator proves to be very useful to combine retrieval results of different indexing methods. In fact, this approach achieves very good and in particular very robust results of retrieval. info:eu-repo/classification/ddc/000 ddc:000 info:eu-repo/classification/ddc/004 ddc:004 info:eu-repo/classification/ddc/020 ddc:020 Cluster-Analyse Evaluation Information Retrieval Datenfusion/Merging Optimierung von Rechercheergebnissen Query Expansion Kürsten, Jens Eibl, Maximilian Hilbert, Karsten Technische Universität Chemnitz 2006-12-04 2006-11-02 info:eu-repo/semantics/openAccess doc-type:masterThesis info:eu-repo/semantics/masterThesis doc-type:Text https://monarch.qucosa.de/id/qucosa%3A18641 https://monarch.qucosa.de/api/qucosa%3A18641/attachment/ATT-0/ https://monarch.qucosa.de/api/qucosa%3A18641/attachment/ATT-1/
collection NDLTD
language German
format Dissertation
sources NDLTD
topic info:eu-repo/classification/ddc/000
ddc:000
info:eu-repo/classification/ddc/004
ddc:004
info:eu-repo/classification/ddc/020
ddc:020
Cluster-Analyse
Evaluation
Information Retrieval
Datenfusion/Merging
Optimierung von Rechercheergebnissen
Query Expansion
spellingShingle info:eu-repo/classification/ddc/000
ddc:000
info:eu-repo/classification/ddc/004
ddc:004
info:eu-repo/classification/ddc/020
ddc:020
Cluster-Analyse
Evaluation
Information Retrieval
Datenfusion/Merging
Optimierung von Rechercheergebnissen
Query Expansion
Kürsten, Jens
Systematisierung und Evaluierung von Clustering-Verfahren im Information Retrieval
description Im Rahmen der vorliegenden Diplomarbeit werden Verfahren zur Clusteranalyse sowie deren Anwendungsmöglichkeiten zur Optimierung der Rechercheergebnisse von Information Retrievalsystemen untersucht. Die Grundlage der vergleichenden Evaluation erfolgversprechender Ansätze zur Clusteranalyse anhand der Domain Specific Monolingual Tasks des Cross-Language Evaluation Forums 2006 bildet die systematische Analyse der in der Forschung etablierten Verfahren zur Clusteranalyse. Die Implementierung ausgewählter Clusterverfahren wird innerhalb eines bestehenden, Lucene-basierten Retrievalsystems durchgeführt. Zusätzlich wird dieses System im Rahmen dieser Arbeit mit Komponenten zur Query Expansion und zur Datenfusion ausgestattet. Diese beiden Ansätze haben sich in der Forschung zur automatischen Optimierung von Retrievalergebnissen durchgesetzt und bilden daher die Bewertungsgrundlage für die implementierten Konzepte zur Optimierung von Rechercheergebnissen auf Basis der Clusteranalyse. Im Ergebnis erweist sich das lokale Dokument Clustering auf Basis des k-means Clustering-Algorithmus in Kombination mit dem Pseudo-Relevanz-Feedback Ansatz zur Selektion der Dokumente für die Query Expansion als besonders erfolgversprechend. Darüber hinaus wird gezeigt, dass mit Hilfe der Datenfusion auf Basis des Z-Score Operators die Ergebnisse verschiedener Indizierungsverfahren so kombiniert werden können, dass sehr gute und insbesondere sehr robuste Rechercheergebnisse erreicht werden. === Within the present diploma thesis, widely used Cluster Analysis approaches are studied in respect to their application to optimize the results of Information Retrieval systems. A systematic analysis of approved methods of the Cluster Analysis is the basis of the comparative evaluation of promising approaches to use the Cluster Analysis to optimize retrieval results. The evaluation is accomplished by the participation at the Domain Specific Monolingual Tasks of the Cross-Language Evaluation Forum 2006. The implementation of selected approaches for Clustering is realized within the framework of an existing Lucene-based retrieval system. Within the scope of work, this system will be supplemented with components for Query Expansion and Data Fusion. Both approaches have prevailed in the research of automatic optimization of retrieval results. Therefore, they are the basis of assessment of the implemented methods, which aim at improving the results of retrieval and are based on Cluster Analysis. The results show that selecting documents for Query Expansion with the help of local Document Clustering based on the k-means Clustering algorithm combined with the Blind Feedback approach is very promising. Furthermore, the Data Fusion approach based on the Z-Score operator proves to be very useful to combine retrieval results of different indexing methods. In fact, this approach achieves very good and in particular very robust results of retrieval.
author2 Eibl, Maximilian
author_facet Eibl, Maximilian
Kürsten, Jens
author Kürsten, Jens
author_sort Kürsten, Jens
title Systematisierung und Evaluierung von Clustering-Verfahren im Information Retrieval
title_short Systematisierung und Evaluierung von Clustering-Verfahren im Information Retrieval
title_full Systematisierung und Evaluierung von Clustering-Verfahren im Information Retrieval
title_fullStr Systematisierung und Evaluierung von Clustering-Verfahren im Information Retrieval
title_full_unstemmed Systematisierung und Evaluierung von Clustering-Verfahren im Information Retrieval
title_sort systematisierung und evaluierung von clustering-verfahren im information retrieval
publishDate 2006
url http://nbn-resolving.de/urn:nbn:de:swb:ch1-200602033
https://monarch.qucosa.de/id/qucosa%3A18641
https://monarch.qucosa.de/api/qucosa%3A18641/attachment/ATT-0/
https://monarch.qucosa.de/api/qucosa%3A18641/attachment/ATT-1/
work_keys_str_mv AT kurstenjens systematisierungundevaluierungvonclusteringverfahreniminformationretrieval
_version_ 1719392830319755264