Metrics and similarities in modeling dependencies between continuous and nominal data

Classification theory analytical paradigm investigates continuous data only. When we deal with a mix of continuous and nominal attributes in data records, difficulties emerge. Usually, the analytical paradigm treats nominal attributes as continuous ones via numerical coding of nominal values (often...

Full description

Bibliographic Details
Main Authors:	Michał Grabowski, Michał Korpusik
Format:	Article
Language:	English
Published:	Warsaw School of Computer Science 2013-12-01
Series:	Zeszyty Naukowe Warszawskiej Wyższej Szkoły Informatyki
Subjects:	k-nearest neighbors algorithm data metrics classification continuous data nominal data
Online Access:	http://zeszyty-naukowe.wwsi.edu.pl/zeszyty/zeszyt10/Metrics_and_similarities_in_modeling_dependencies_between_continuous_and_nominal_data.pdf

id	doaj-a297c56d5fd049838e77b314740eaca2
record_format	Article
spelling	doaj-a297c56d5fd049838e77b314740eaca22020-11-25T02:26:26ZengWarsaw School of Computer ScienceZeszyty Naukowe Warszawskiej Wyższej Szkoły Informatyki1896-396X2082-83492013-12-01710253710.26348/znwwsi.10.25Metrics and similarities in modeling dependencies between continuous and nominal dataMichał Grabowski0Michał KorpusikWarsaw School of Computer ScienceClassification theory analytical paradigm investigates continuous data only. When we deal with a mix of continuous and nominal attributes in data records, difficulties emerge. Usually, the analytical paradigm treats nominal attributes as continuous ones via numerical coding of nominal values (often a bit ad hoc). We propose a way of keeping nominal values within analytical paradigm with no pretending that nominal values are continuous. The core idea is that the information hidden in nominal values influences on metric (or on similarity function) between records of continuous and nominal data. Adaptation finds relevant parameters which influence metric between data records. Our approach works well for classifier induction algorithms where metric or similarity is generic, for instance k nearest neighbor algorithm or proposed here support of decision tree induction by similarity function between data. The k-nn algorithm working with continuous and nominal data behaves considerably better, when nominal values are processed by our approach. Algorithms of analytical paradigm using linear and probability machinery, like discriminant adaptive nearest-neighbor or Fisher’s linear discriminant analysis, cause some difficulties. We propose some possible ways to overcome these obstacles for adaptive nearest neighbor algorithm.http://zeszyty-naukowe.wwsi.edu.pl/zeszyty/zeszyt10/Metrics_and_similarities_in_modeling_dependencies_between_continuous_and_nominal_data.pdfk-nearest neighbors algorithmdata metricsclassificationcontinuous datanominal data
collection	DOAJ
language	English
format	Article
sources	DOAJ
author	Michał Grabowski Michał Korpusik
spellingShingle	Michał Grabowski Michał Korpusik Metrics and similarities in modeling dependencies between continuous and nominal data Zeszyty Naukowe Warszawskiej Wyższej Szkoły Informatyki k-nearest neighbors algorithm data metrics classification continuous data nominal data
author_facet	Michał Grabowski Michał Korpusik
author_sort	Michał Grabowski
title	Metrics and similarities in modeling dependencies between continuous and nominal data
title_short	Metrics and similarities in modeling dependencies between continuous and nominal data
title_full	Metrics and similarities in modeling dependencies between continuous and nominal data
title_fullStr	Metrics and similarities in modeling dependencies between continuous and nominal data
title_full_unstemmed	Metrics and similarities in modeling dependencies between continuous and nominal data
title_sort	metrics and similarities in modeling dependencies between continuous and nominal data
publisher	Warsaw School of Computer Science
series	Zeszyty Naukowe Warszawskiej Wyższej Szkoły Informatyki
issn	1896-396X 2082-8349
publishDate	2013-12-01
description	Classification theory analytical paradigm investigates continuous data only. When we deal with a mix of continuous and nominal attributes in data records, difficulties emerge. Usually, the analytical paradigm treats nominal attributes as continuous ones via numerical coding of nominal values (often a bit ad hoc). We propose a way of keeping nominal values within analytical paradigm with no pretending that nominal values are continuous. The core idea is that the information hidden in nominal values influences on metric (or on similarity function) between records of continuous and nominal data. Adaptation finds relevant parameters which influence metric between data records. Our approach works well for classifier induction algorithms where metric or similarity is generic, for instance k nearest neighbor algorithm or proposed here support of decision tree induction by similarity function between data. The k-nn algorithm working with continuous and nominal data behaves considerably better, when nominal values are processed by our approach. Algorithms of analytical paradigm using linear and probability machinery, like discriminant adaptive nearest-neighbor or Fisher’s linear discriminant analysis, cause some difficulties. We propose some possible ways to overcome these obstacles for adaptive nearest neighbor algorithm.
topic	k-nearest neighbors algorithm data metrics classification continuous data nominal data
url	http://zeszyty-naukowe.wwsi.edu.pl/zeszyty/zeszyt10/Metrics_and_similarities_in_modeling_dependencies_between_continuous_and_nominal_data.pdf
work_keys_str_mv	AT michałgrabowski metricsandsimilaritiesinmodelingdependenciesbetweencontinuousandnominaldata AT michałkorpusik metricsandsimilaritiesinmodelingdependenciesbetweencontinuousandnominaldata
_version_	1724847195780284416

Metrics and similarities in modeling dependencies between continuous and nominal data

Similar Items