Systematisierung und Evaluierung von Clustering-Verfahren im Information Retrieval

Im Rahmen der vorliegenden Diplomarbeit werden Verfahren zur Clusteranalyse sowie deren Anwendungsmöglichkeiten zur Optimierung der Rechercheergebnisse von Information Retrievalsystemen untersucht. Die Grundlage der vergleichenden Evaluation erfolgversprechender Ansätze zur Clusteranalyse anhand der...

Full description

Bibliographic Details
Main Author:	Kürsten, Jens
Other Authors:	Eibl, Maximilian
Format:	Dissertation
Language:	German
Published:	2006
Subjects:	info:eu-repo/classification/ddc/000 ddc:000 info:eu-repo/classification/ddc/004 ddc:004 info:eu-repo/classification/ddc/020 ddc:020 Cluster-Analyse Evaluation Information Retrieval Datenfusion/Merging Optimierung von Rechercheergebnissen Query Expansion
Online Access:	http://nbn-resolving.de/urn:nbn:de:swb:ch1-200602033 https://monarch.qucosa.de/id/qucosa%3A18641 https://monarch.qucosa.de/api/qucosa%3A18641/attachment/ATT-0/ https://monarch.qucosa.de/api/qucosa%3A18641/attachment/ATT-1/

id	ndltd-DRESDEN-oai-qucosa-de-qucosa-18641
record_format	oai_dc
spelling	ndltd-DRESDEN-oai-qucosa-de-qucosa-186412021-03-30T05:05:54Z Systematisierung und Evaluierung von Clustering-Verfahren im Information Retrieval urn:nbn:de:swb:ch1-200602033 ger Im Rahmen der vorliegenden Diplomarbeit werden Verfahren zur Clusteranalyse sowie deren Anwendungsmöglichkeiten zur Optimierung der Rechercheergebnisse von Information Retrievalsystemen untersucht. Die Grundlage der vergleichenden Evaluation erfolgversprechender Ansätze zur Clusteranalyse anhand der Domain Specific Monolingual Tasks des Cross-Language Evaluation Forums 2006 bildet die systematische Analyse der in der Forschung etablierten Verfahren zur Clusteranalyse. Die Implementierung ausgewählter Clusterverfahren wird innerhalb eines bestehenden, Lucene-basierten Retrievalsystems durchgeführt. Zusätzlich wird dieses System im Rahmen dieser Arbeit mit Komponenten zur Query Expansion und zur Datenfusion ausgestattet. Diese beiden Ansätze haben sich in der Forschung zur automatischen Optimierung von Retrievalergebnissen durchgesetzt und bilden daher die Bewertungsgrundlage für die implementierten Konzepte zur Optimierung von Rechercheergebnissen auf Basis der Clusteranalyse. Im Ergebnis erweist sich das lokale Dokument Clustering auf Basis des k-means Clustering-Algorithmus in Kombination mit dem Pseudo-Relevanz-Feedback Ansatz zur Selektion der Dokumente für die Query Expansion als besonders erfolgversprechend. Darüber hinaus wird gezeigt, dass mit Hilfe der Datenfusion auf Basis des Z-Score Operators die Ergebnisse verschiedener Indizierungsverfahren so kombiniert werden können, dass sehr gute und insbesondere sehr robuste Rechercheergebnisse erreicht werden. Within the present diploma thesis, widely used Cluster Analysis approaches are studied in respect to their application to optimize the results of Information Retrieval systems. A systematic analysis of approved methods of the Cluster Analysis is the basis of the comparative evaluation of promising approaches to use the Cluster Analysis to optimize retrieval results. The evaluation is accomplished by the participation at the Domain Specific Monolingual Tasks of the Cross-Language Evaluation Forum 2006. The implementation of selected approaches for Clustering is realized within the framework of an existing Lucene-based retrieval system. Within the scope of work, this system will be supplemented with components for Query Expansion and Data Fusion. Both approaches have prevailed in the research of automatic optimization of retrieval results. Therefore, they are the basis of assessment of the implemented methods, which aim at improving the results of retrieval and are based on Cluster Analysis. The results show that selecting documents for Query Expansion with the help of local Document Clustering based on the k-means Clustering algorithm combined with the Blind Feedback approach is very promising. Furthermore, the Data Fusion approach based on the Z-Score operator proves to be very useful to combine retrieval results of different indexing methods. In fact, this approach achieves very good and in particular very robust results of retrieval. info:eu-repo/classification/ddc/000 ddc:000 info:eu-repo/classification/ddc/004 ddc:004 info:eu-repo/classification/ddc/020 ddc:020 Cluster-Analyse Evaluation Information Retrieval Datenfusion/Merging Optimierung von Rechercheergebnissen Query Expansion Kürsten, Jens Eibl, Maximilian Hilbert, Karsten Technische Universität Chemnitz 2006-12-04 2006-11-02 info:eu-repo/semantics/openAccess doc-type:masterThesis info:eu-repo/semantics/masterThesis doc-type:Text https://monarch.qucosa.de/id/qucosa%3A18641 https://monarch.qucosa.de/api/qucosa%3A18641/attachment/ATT-0/ https://monarch.qucosa.de/api/qucosa%3A18641/attachment/ATT-1/
collection	NDLTD
language	German
format	Dissertation
sources	NDLTD
topic	info:eu-repo/classification/ddc/000 ddc:000 info:eu-repo/classification/ddc/004 ddc:004 info:eu-repo/classification/ddc/020 ddc:020 Cluster-Analyse Evaluation Information Retrieval Datenfusion/Merging Optimierung von Rechercheergebnissen Query Expansion
spellingShingle	info:eu-repo/classification/ddc/000 ddc:000 info:eu-repo/classification/ddc/004 ddc:004 info:eu-repo/classification/ddc/020 ddc:020 Cluster-Analyse Evaluation Information Retrieval Datenfusion/Merging Optimierung von Rechercheergebnissen Query Expansion Kürsten, Jens Systematisierung und Evaluierung von Clustering-Verfahren im Information Retrieval
description	Im Rahmen der vorliegenden Diplomarbeit werden Verfahren zur Clusteranalyse sowie deren Anwendungsmöglichkeiten zur Optimierung der Rechercheergebnisse von Information Retrievalsystemen untersucht. Die Grundlage der vergleichenden Evaluation erfolgversprechender Ansätze zur Clusteranalyse anhand der Domain Specific Monolingual Tasks des Cross-Language Evaluation Forums 2006 bildet die systematische Analyse der in der Forschung etablierten Verfahren zur Clusteranalyse. Die Implementierung ausgewählter Clusterverfahren wird innerhalb eines bestehenden, Lucene-basierten Retrievalsystems durchgeführt. Zusätzlich wird dieses System im Rahmen dieser Arbeit mit Komponenten zur Query Expansion und zur Datenfusion ausgestattet. Diese beiden Ansätze haben sich in der Forschung zur automatischen Optimierung von Retrievalergebnissen durchgesetzt und bilden daher die Bewertungsgrundlage für die implementierten Konzepte zur Optimierung von Rechercheergebnissen auf Basis der Clusteranalyse. Im Ergebnis erweist sich das lokale Dokument Clustering auf Basis des k-means Clustering-Algorithmus in Kombination mit dem Pseudo-Relevanz-Feedback Ansatz zur Selektion der Dokumente für die Query Expansion als besonders erfolgversprechend. Darüber hinaus wird gezeigt, dass mit Hilfe der Datenfusion auf Basis des Z-Score Operators die Ergebnisse verschiedener Indizierungsverfahren so kombiniert werden können, dass sehr gute und insbesondere sehr robuste Rechercheergebnisse erreicht werden. === Within the present diploma thesis, widely used Cluster Analysis approaches are studied in respect to their application to optimize the results of Information Retrieval systems. A systematic analysis of approved methods of the Cluster Analysis is the basis of the comparative evaluation of promising approaches to use the Cluster Analysis to optimize retrieval results. The evaluation is accomplished by the participation at the Domain Specific Monolingual Tasks of the Cross-Language Evaluation Forum 2006. The implementation of selected approaches for Clustering is realized within the framework of an existing Lucene-based retrieval system. Within the scope of work, this system will be supplemented with components for Query Expansion and Data Fusion. Both approaches have prevailed in the research of automatic optimization of retrieval results. Therefore, they are the basis of assessment of the implemented methods, which aim at improving the results of retrieval and are based on Cluster Analysis. The results show that selecting documents for Query Expansion with the help of local Document Clustering based on the k-means Clustering algorithm combined with the Blind Feedback approach is very promising. Furthermore, the Data Fusion approach based on the Z-Score operator proves to be very useful to combine retrieval results of different indexing methods. In fact, this approach achieves very good and in particular very robust results of retrieval.
author2	Eibl, Maximilian
author_facet	Eibl, Maximilian Kürsten, Jens
author	Kürsten, Jens
author_sort	Kürsten, Jens
title	Systematisierung und Evaluierung von Clustering-Verfahren im Information Retrieval
title_short	Systematisierung und Evaluierung von Clustering-Verfahren im Information Retrieval
title_full	Systematisierung und Evaluierung von Clustering-Verfahren im Information Retrieval
title_fullStr	Systematisierung und Evaluierung von Clustering-Verfahren im Information Retrieval
title_full_unstemmed	Systematisierung und Evaluierung von Clustering-Verfahren im Information Retrieval
title_sort	systematisierung und evaluierung von clustering-verfahren im information retrieval
publishDate	2006
url	http://nbn-resolving.de/urn:nbn:de:swb:ch1-200602033 https://monarch.qucosa.de/id/qucosa%3A18641 https://monarch.qucosa.de/api/qucosa%3A18641/attachment/ATT-0/ https://monarch.qucosa.de/api/qucosa%3A18641/attachment/ATT-1/
work_keys_str_mv	AT kurstenjens systematisierungundevaluierungvonclusteringverfahreniminformationretrieval
_version_	1719392830319755264

Systematisierung und Evaluierung von Clustering-Verfahren im Information Retrieval

Similar Items