Rule-based classification of heavy vehicle operations

The problem explored in this thesis is a supervised classification problem. Input data consists of operational and manufacturing data of a truck. The output denotes its operation, i.e. its basic utility and usage pattern, such as “Long distance” or “On and off-road”. In order to understand the disti...

Full description

Bibliographic Details
Main Author: Strandberg von Schantz, Mathilda
Format: Others
Language:English
Published: KTH, Skolan för elektroteknik och datavetenskap (EECS) 2019
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-254983
id ndltd-UPSALLA1-oai-DiVA.org-kth-254983
record_format oai_dc
spelling ndltd-UPSALLA1-oai-DiVA.org-kth-2549832019-07-12T04:34:46ZRule-based classification of heavy vehicle operationsengStrandberg von Schantz, MathildaKTH, Skolan för elektroteknik och datavetenskap (EECS)2019Computer and Information SciencesData- och informationsvetenskapThe problem explored in this thesis is a supervised classification problem. Input data consists of operational and manufacturing data of a truck. The output denotes its operation, i.e. its basic utility and usage pattern, such as “Long distance” or “On and off-road”. In order to understand the distinction between the operation categories in practice, we look at interpretable classifiers. The examined classifiers are treeand rule-based classifiers, as they are the most interpretable. These include random forest, decision tree, and a classifier called inTrees, a method that summarizes a random forest using rules. In addition, a suggested method is examined. The suggested method works similarly to inTrees, but differs in the rule selection step. The question is whether this suggested method is better than inTrees in terms of interpretability, and how well both of them perform in comparison to a decision tree and a random forest. Another question regards the operation category of trucks, and whether they can be successfully distinguished using these methods.In order to compare the methods, their balanced accuracy, number of rules and other measures are recorded for the truck data set and additional data sets. Additional data sets are used to get a more exhaustive comparison between the methods.The suggested method does not outperform inTrees, and frequently uses three to four times as many rules to achieve the same accuracy on a given data set. Results indicate that the suggested method could perform more similarly to inTrees, given a different form of hyperparameter tuning. Additionally, it is shown that using interpretable classifiers rather than a random forest means we use less than one percent of the rules, at the cost of a loss of 10 percentage points in balanced accuracy. Problemet som utforskas i detta examensarbete är ett problem inom övervakat lärande där indata består av driftdata samt tillverkningsspecifikationer för en lastbil, och utdata är dess användningsområde, såsom “Långdistans” eller “Stadsdistribution”. Målet är att få insikt i vad distinktionen mellan lastbilars användningsområden är i praktiken. För att utreda detta används regeloch trädbaserade klassificerare. Dessa används eftersom de är de mest tolkningsbara klassificerarna. De klassificerare som ingår är random forest, beslutsträd och en klassificerare kallad inTrees, som extraherar regler från en random forest. Utöver detta föreslås en ny metod som bygger på inTrees, men som skiljer sig i hur den väljer regler.Frågeställningen är om den föreslagna metoden ger resultat av högre tolkningsbarhet än inTrees, och hur väl bägge presterar i jämförelse med ett beslutsträd och en random forest. En annan del av frågeställningen gäller vad för slutsatser som kan dras kring användningsområde av lastbilar.För att jämföra prestandan av dessa metoder undersöktes både prediktionsgraden och tolkningsbarheten. Detta gjordes för lastbilsdatat men även andra publika dataset. Andra dataset användes för att få en mer omfattande jämförelse.Den föreslagna metoden är mindre tolkningsbar än inTrees då den ofta kräver tre till fyra gånger så många regler för att uppnå samma precision för ett dataset. Vissa resultat indikerar att den föreslagna metoden kunnat prestera mer likt inTrees om en annan hyperparameter-optimisering hade använts. Ytterligare resultat visade att vi, genom att använda tolkningsbara klassificerare istället för random forest, förlorade 10 procentenheter i balanserad precision men använde mindre än en procent av reglerna. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-254983TRITA-EECS-EX ; 2019:410application/pdfinfo:eu-repo/semantics/openAccess
collection NDLTD
language English
format Others
sources NDLTD
topic Computer and Information Sciences
Data- och informationsvetenskap
spellingShingle Computer and Information Sciences
Data- och informationsvetenskap
Strandberg von Schantz, Mathilda
Rule-based classification of heavy vehicle operations
description The problem explored in this thesis is a supervised classification problem. Input data consists of operational and manufacturing data of a truck. The output denotes its operation, i.e. its basic utility and usage pattern, such as “Long distance” or “On and off-road”. In order to understand the distinction between the operation categories in practice, we look at interpretable classifiers. The examined classifiers are treeand rule-based classifiers, as they are the most interpretable. These include random forest, decision tree, and a classifier called inTrees, a method that summarizes a random forest using rules. In addition, a suggested method is examined. The suggested method works similarly to inTrees, but differs in the rule selection step. The question is whether this suggested method is better than inTrees in terms of interpretability, and how well both of them perform in comparison to a decision tree and a random forest. Another question regards the operation category of trucks, and whether they can be successfully distinguished using these methods.In order to compare the methods, their balanced accuracy, number of rules and other measures are recorded for the truck data set and additional data sets. Additional data sets are used to get a more exhaustive comparison between the methods.The suggested method does not outperform inTrees, and frequently uses three to four times as many rules to achieve the same accuracy on a given data set. Results indicate that the suggested method could perform more similarly to inTrees, given a different form of hyperparameter tuning. Additionally, it is shown that using interpretable classifiers rather than a random forest means we use less than one percent of the rules, at the cost of a loss of 10 percentage points in balanced accuracy. === Problemet som utforskas i detta examensarbete är ett problem inom övervakat lärande där indata består av driftdata samt tillverkningsspecifikationer för en lastbil, och utdata är dess användningsområde, såsom “Långdistans” eller “Stadsdistribution”. Målet är att få insikt i vad distinktionen mellan lastbilars användningsområden är i praktiken. För att utreda detta används regeloch trädbaserade klassificerare. Dessa används eftersom de är de mest tolkningsbara klassificerarna. De klassificerare som ingår är random forest, beslutsträd och en klassificerare kallad inTrees, som extraherar regler från en random forest. Utöver detta föreslås en ny metod som bygger på inTrees, men som skiljer sig i hur den väljer regler.Frågeställningen är om den föreslagna metoden ger resultat av högre tolkningsbarhet än inTrees, och hur väl bägge presterar i jämförelse med ett beslutsträd och en random forest. En annan del av frågeställningen gäller vad för slutsatser som kan dras kring användningsområde av lastbilar.För att jämföra prestandan av dessa metoder undersöktes både prediktionsgraden och tolkningsbarheten. Detta gjordes för lastbilsdatat men även andra publika dataset. Andra dataset användes för att få en mer omfattande jämförelse.Den föreslagna metoden är mindre tolkningsbar än inTrees då den ofta kräver tre till fyra gånger så många regler för att uppnå samma precision för ett dataset. Vissa resultat indikerar att den föreslagna metoden kunnat prestera mer likt inTrees om en annan hyperparameter-optimisering hade använts. Ytterligare resultat visade att vi, genom att använda tolkningsbara klassificerare istället för random forest, förlorade 10 procentenheter i balanserad precision men använde mindre än en procent av reglerna.
author Strandberg von Schantz, Mathilda
author_facet Strandberg von Schantz, Mathilda
author_sort Strandberg von Schantz, Mathilda
title Rule-based classification of heavy vehicle operations
title_short Rule-based classification of heavy vehicle operations
title_full Rule-based classification of heavy vehicle operations
title_fullStr Rule-based classification of heavy vehicle operations
title_full_unstemmed Rule-based classification of heavy vehicle operations
title_sort rule-based classification of heavy vehicle operations
publisher KTH, Skolan för elektroteknik och datavetenskap (EECS)
publishDate 2019
url http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-254983
work_keys_str_mv AT strandbergvonschantzmathilda rulebasedclassificationofheavyvehicleoperations
_version_ 1719223565155303424