Swedish NLP Solutions for Email Classification

Assigning categories to text communications is a common task of Natural Language Processing (NLP). In 2018, a new deep learning language repre- sentation model, Bidirectional Encoder Representations from Transformers (BERT), was developed which can make inferences from text without task specific arc...

Full description

Bibliographic Details
Main Author: Castronuovo, John Robert
Format: Others
Language:English
Published: KTH, Skolan för elektroteknik och datavetenskap (EECS) 2020
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-277858
Description
Summary:Assigning categories to text communications is a common task of Natural Language Processing (NLP). In 2018, a new deep learning language repre- sentation model, Bidirectional Encoder Representations from Transformers (BERT), was developed which can make inferences from text without task specific architecture. This research investigated whether or not a version of this new model could be used to accurately classify emails as well as, or better than a classical machine learning model such as a Support Vector Machine (SVM). In this thesis project, a BERT model was developed by solely pre- training on the Swedish language (svBERT) and investigated whether it could surpass a multilingual BERT (mBERT) model’s performance on a Swedish email classification task. Specifically, BERT was used in a classification task for customer emails. Fourteen email categories were defined by the client. All emails were in the Swedish language. Three different SVMs and four different BERT models were all created for this task. The best F1 score for the three classical machine learning models (standard or hybrid) and the four deep learn- ing models was determined. The best machine learning model was a hybrid SVM using fastText with an F1 score of 84.33%. The best deep learning model, mPreBERT, achieved an F1 score of 85.16%. These results show that deep learning models can improve upon the accuracy of classical machine learning models and suggest that more extensive pre-training with a Swedish text corpus will markedly improve accuracy. === Att tilldela kategorier till textkommunikation är en grundläggande uppgift för Natural Language Processing (NLP). Under 2018 utvecklades ett nytt sätt att skapa en språkrepresentationsmodell, Bidirectional Encoder Representations from Transformers (BERT), som kan dra slutsatser från en text utan någon uppgiftsspecifik arkitektur. Mitt examensarbete undersökte om en version av denna modell kan klassificera e-postmeddelanden bättre än en klassisk maski- ninlärningsmodell, till exempel en Support Vector Machine (SVM). I projektet utvecklades också en BERT-modell enbart förtränad på svenska (svBERT) som jämfördes med en flerspråkig BERT-modell (prestanda) på en svensk e-klassificeringsuppgift. I studien användes BERT i en klassificeringsuppgift för kundmeddelanden. Fjorton e-postkategorier definierades av klienten. Alla e-postmeddelanden var på svenska. Jag implementerade 3 olika SVMer och 4 olika BERT-modeller för den här uppgiften. Den bästa F1-poängen för de tre klassiska maskininlärningsmodellerna (standard eller hybrid) och de fyra djupa inlärningsmodellerna bestämdes. Den bästa maskininlärningsmodellen var en hybrid SVM med fastText med en F1-poäng på 84,33%. Den bästa djupa inlärningsmodellen, mPreBERT, uppnådde en F1-poäng på 85,16%. Resulta- ten visar att djupa inlärningsmodeller kan förbättra noggrannheten i klassiska maskininlärningsmodeller och troliggör att mer omfattande förutbildning med ett svensk textkorpus markant kommer att förbättra noggrannheten.