Predicting Default Probability in Credit Risk using Machine Learning Algorithms

This thesis has explored the field of internally developed models for measuring the probability of default (PD) in credit risk. As regulators put restrictions on modelling practices and inhibit the advance of risk measurement, the fields of data science and machine learning are advancing. The tradeo...

Full description

Bibliographic Details
Main Author:	Kornfeld, Sarah
Format:	Others
Language:	English
Published:	KTH, Matematisk statistik 2020
Subjects:	Credit risk default probability machine learning logsitic regression basel framework Kreditrisk fallissemangssannolikhet maskininlärning logistisk regression baselregelverk Mathematics Matematik
Online Access:	http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-275656

id	ndltd-UPSALLA1-oai-DiVA.org-kth-275656
record_format	oai_dc
spelling	ndltd-UPSALLA1-oai-DiVA.org-kth-2756562020-06-10T04:24:28ZPredicting Default Probability in Credit Risk using Machine Learning AlgorithmsengPredicting Default Probability in Credit Risk using Machine Learning AlgorithmsKornfeld, SarahKTH, Matematisk statistik2020Credit riskdefault probabilitymachine learninglogsitic regressionbasel frameworkKreditriskfallissemangssannolikhetmaskininlärninglogistisk regressionbaselregelverkMathematicsMatematikThis thesis has explored the field of internally developed models for measuring the probability of default (PD) in credit risk. As regulators put restrictions on modelling practices and inhibit the advance of risk measurement, the fields of data science and machine learning are advancing. The tradeoff between stricter regulation on internally developed models and the advancement of data analytics was investigated by comparing model performance of the benchmark method Logistic Regression for estimating PD with the machine learning methods Decision Trees, Random Forest, Gradient Boosting and Artificial Neural Networks (ANN). The data was supplied by SEB and contained 45 variables and 24 635 samples. As the machine learning techniques become increasingly complex to favour enhanced performance, it is often at the expense of the interpretability of the model. An exploratory analysis was therefore made with the objective of measuring variable importance in the machine learning techniques. The findings from the exploratory analysis will be compared to the results from benchmark methods that exist for measuring variable importance. The results of this study shows that logistic regression outperformed the machine learning techniques based on the model performance measure AUC with a score of 0.906. The findings from the exploratory analysis did increase the interpretability of the machine learning techniques and were validated by the results from the benchmark methods. Denna uppsats har undersökt internt utvecklade modeller för att estimera sannolikheten för utebliven betalning (PD) inom kreditrisk. Samtidigt som nya regelverk sätter restriktioner på metoder för modellering av kreditrisk och i viss mån hämmar utvecklingen av riskmätning, utvecklas samtidigt mer avancerade metoder inom maskinlärning för riskmätning. Således har avvägningen mellan strängare regelverk av internt utvecklade modeller och framsteg i dataanalys undersökts genom jämförelse av modellprestanda för referens metoden logistisk regression för uppskattning av PD med maskininlärningsteknikerna beslutsträd, Random Forest, Gradient Boosting och artificiella neurala nätverk (ANN). Dataunderlaget kommer från SEB och består utav 45 variabler och 24 635 observationer. När maskininlärningsteknikerna blir mer komplexa för att gynna förbättrad prestanda är det ofta på bekostnad av modellens tolkbarhet. En undersökande analys gjordes därför med målet att mäta förklarningsvariablers betydelse i maskininlärningsteknikerna. Resultaten från den undersökande analysen kommer att jämföras med resultat från etablerade metoder som mäter variabelsignifikans. Resultatet av studien visar att den logistiska regressionen presterade bättre än maskininlärningsteknikerna baserat på prestandamåttet AUC som mätte 0.906. Resultatet from den undersökande analysen för förklarningsvariablers betydelse ökade tolkbarheten för maskininlärningsteknikerna. Resultatet blev även validerat med utkomsten av de etablerade metoderna för att mäta variabelsignifikans. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-275656TRITA-SCI-GRU ; 2020:186application/pdfinfo:eu-repo/semantics/openAccess
collection	NDLTD
language	English
format	Others
sources	NDLTD
topic	Credit risk default probability machine learning logsitic regression basel framework Kreditrisk fallissemangssannolikhet maskininlärning logistisk regression baselregelverk Mathematics Matematik
spellingShingle	Credit risk default probability machine learning logsitic regression basel framework Kreditrisk fallissemangssannolikhet maskininlärning logistisk regression baselregelverk Mathematics Matematik Kornfeld, Sarah Predicting Default Probability in Credit Risk using Machine Learning Algorithms
description	This thesis has explored the field of internally developed models for measuring the probability of default (PD) in credit risk. As regulators put restrictions on modelling practices and inhibit the advance of risk measurement, the fields of data science and machine learning are advancing. The tradeoff between stricter regulation on internally developed models and the advancement of data analytics was investigated by comparing model performance of the benchmark method Logistic Regression for estimating PD with the machine learning methods Decision Trees, Random Forest, Gradient Boosting and Artificial Neural Networks (ANN). The data was supplied by SEB and contained 45 variables and 24 635 samples. As the machine learning techniques become increasingly complex to favour enhanced performance, it is often at the expense of the interpretability of the model. An exploratory analysis was therefore made with the objective of measuring variable importance in the machine learning techniques. The findings from the exploratory analysis will be compared to the results from benchmark methods that exist for measuring variable importance. The results of this study shows that logistic regression outperformed the machine learning techniques based on the model performance measure AUC with a score of 0.906. The findings from the exploratory analysis did increase the interpretability of the machine learning techniques and were validated by the results from the benchmark methods. === Denna uppsats har undersökt internt utvecklade modeller för att estimera sannolikheten för utebliven betalning (PD) inom kreditrisk. Samtidigt som nya regelverk sätter restriktioner på metoder för modellering av kreditrisk och i viss mån hämmar utvecklingen av riskmätning, utvecklas samtidigt mer avancerade metoder inom maskinlärning för riskmätning. Således har avvägningen mellan strängare regelverk av internt utvecklade modeller och framsteg i dataanalys undersökts genom jämförelse av modellprestanda för referens metoden logistisk regression för uppskattning av PD med maskininlärningsteknikerna beslutsträd, Random Forest, Gradient Boosting och artificiella neurala nätverk (ANN). Dataunderlaget kommer från SEB och består utav 45 variabler och 24 635 observationer. När maskininlärningsteknikerna blir mer komplexa för att gynna förbättrad prestanda är det ofta på bekostnad av modellens tolkbarhet. En undersökande analys gjordes därför med målet att mäta förklarningsvariablers betydelse i maskininlärningsteknikerna. Resultaten från den undersökande analysen kommer att jämföras med resultat från etablerade metoder som mäter variabelsignifikans. Resultatet av studien visar att den logistiska regressionen presterade bättre än maskininlärningsteknikerna baserat på prestandamåttet AUC som mätte 0.906. Resultatet from den undersökande analysen för förklarningsvariablers betydelse ökade tolkbarheten för maskininlärningsteknikerna. Resultatet blev även validerat med utkomsten av de etablerade metoderna för att mäta variabelsignifikans.
author	Kornfeld, Sarah
author_facet	Kornfeld, Sarah
author_sort	Kornfeld, Sarah
title	Predicting Default Probability in Credit Risk using Machine Learning Algorithms
title_short	Predicting Default Probability in Credit Risk using Machine Learning Algorithms
title_full	Predicting Default Probability in Credit Risk using Machine Learning Algorithms
title_fullStr	Predicting Default Probability in Credit Risk using Machine Learning Algorithms
title_full_unstemmed	Predicting Default Probability in Credit Risk using Machine Learning Algorithms
title_sort	predicting default probability in credit risk using machine learning algorithms
publisher	KTH, Matematisk statistik
publishDate	2020
url	http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-275656
work_keys_str_mv	AT kornfeldsarah predictingdefaultprobabilityincreditriskusingmachinelearningalgorithms
_version_	1719318778107396096

Predicting Default Probability in Credit Risk using Machine Learning Algorithms

Similar Items