Rule-based classification of heavy vehicle operations

The problem explored in this thesis is a supervised classification problem. Input data consists of operational and manufacturing data of a truck. The output denotes its operation, i.e. its basic utility and usage pattern, such as “Long distance” or “On and off-road”. In order to understand the disti...

Full description

Bibliographic Details
Main Author: Strandberg von Schantz, Mathilda
Format: Others
Language:English
Published: KTH, Skolan för elektroteknik och datavetenskap (EECS) 2019
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-254983
Description
Summary:The problem explored in this thesis is a supervised classification problem. Input data consists of operational and manufacturing data of a truck. The output denotes its operation, i.e. its basic utility and usage pattern, such as “Long distance” or “On and off-road”. In order to understand the distinction between the operation categories in practice, we look at interpretable classifiers. The examined classifiers are treeand rule-based classifiers, as they are the most interpretable. These include random forest, decision tree, and a classifier called inTrees, a method that summarizes a random forest using rules. In addition, a suggested method is examined. The suggested method works similarly to inTrees, but differs in the rule selection step. The question is whether this suggested method is better than inTrees in terms of interpretability, and how well both of them perform in comparison to a decision tree and a random forest. Another question regards the operation category of trucks, and whether they can be successfully distinguished using these methods.In order to compare the methods, their balanced accuracy, number of rules and other measures are recorded for the truck data set and additional data sets. Additional data sets are used to get a more exhaustive comparison between the methods.The suggested method does not outperform inTrees, and frequently uses three to four times as many rules to achieve the same accuracy on a given data set. Results indicate that the suggested method could perform more similarly to inTrees, given a different form of hyperparameter tuning. Additionally, it is shown that using interpretable classifiers rather than a random forest means we use less than one percent of the rules, at the cost of a loss of 10 percentage points in balanced accuracy. === Problemet som utforskas i detta examensarbete är ett problem inom övervakat lärande där indata består av driftdata samt tillverkningsspecifikationer för en lastbil, och utdata är dess användningsområde, såsom “Långdistans” eller “Stadsdistribution”. Målet är att få insikt i vad distinktionen mellan lastbilars användningsområden är i praktiken. För att utreda detta används regeloch trädbaserade klassificerare. Dessa används eftersom de är de mest tolkningsbara klassificerarna. De klassificerare som ingår är random forest, beslutsträd och en klassificerare kallad inTrees, som extraherar regler från en random forest. Utöver detta föreslås en ny metod som bygger på inTrees, men som skiljer sig i hur den väljer regler.Frågeställningen är om den föreslagna metoden ger resultat av högre tolkningsbarhet än inTrees, och hur väl bägge presterar i jämförelse med ett beslutsträd och en random forest. En annan del av frågeställningen gäller vad för slutsatser som kan dras kring användningsområde av lastbilar.För att jämföra prestandan av dessa metoder undersöktes både prediktionsgraden och tolkningsbarheten. Detta gjordes för lastbilsdatat men även andra publika dataset. Andra dataset användes för att få en mer omfattande jämförelse.Den föreslagna metoden är mindre tolkningsbar än inTrees då den ofta kräver tre till fyra gånger så många regler för att uppnå samma precision för ett dataset. Vissa resultat indikerar att den föreslagna metoden kunnat prestera mer likt inTrees om en annan hyperparameter-optimisering hade använts. Ytterligare resultat visade att vi, genom att använda tolkningsbara klassificerare istället för random forest, förlorade 10 procentenheter i balanserad precision men använde mindre än en procent av reglerna.