Emotion Recognition in Football Commentator Speech : Is the action intense or not ?

In order to improve the production quality of a football game broadcast, Digigram wants to detect automatically the excitement state of the commentator. The aim of this master thesis is to obtain this state from the commentator speech in order to know if s/he is describing an intense action or a cal...

Full description

Bibliographic Details
Main Author: Noé, Paul-Gauthier
Format: Others
Language:English
Published: KTH, Skolan för elektroteknik och datavetenskap (EECS) 2020
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-289370
Description
Summary:In order to improve the production quality of a football game broadcast, Digigram wants to detect automatically the excitement state of the commentator. The aim of this master thesis is to obtain this state from the commentator speech in order to know if s/he is describing an intense action or a calm one. In order to do that, a simple binary classification problem is defined. A speech segment has to be classified as being either from an intense action or a calm one. The audio waveform is not directly used for classification. Relevant features are used instead, such as the Mel-Frequency Cepstral Coefficients (MFCC), the energy, the pitch, its smoothed version and an introduced feature that is related to the speaking rate. Least Absolute Shrinkage and Selection Operator (LASSO) estimator is used in order to select the features that have the biggest linear influence on the class and thus reduce the number of input features. Least Square, Naive Bayes, K-Nearest Neighbors (KNN) and Support Vector Machine (SVM) classifiers are presented and evaluated. SVM has the best performance and is also used in a real time context where the posterior probability of having an intense action is plotted. However, more data are needed to go further. Indeed with the present dataset, the generalisation ability to another speaker or other conditions is not guaranteed.  === För att höja produktionskvaliteten i sändningar av fotbollsmatcher, vill Digigram automatiskt upptäcka kommentatorns grad av sinnesrörelse. Syftet med detta examensarbete är att utifrån kommentatorns tal automatiskt avgöra huruvida han/hon beskriver ett intensivt eller ett lugnt skede i matchen. I detta syfte definieras ett enkelt binärt klassificeringsproblem. Ett talsegment måste klassificeras som hörande till antingen från ett intensivt skede eller ett lugnt skede. Ljudsignalen används inte direkt för klassificering. Istället används egenskaper hos den transformerade signalen, som Mel-Frequency Cepstral Coefficients (MFCC), energin, tonhöjden, dess envelopp och ett nytt mått som är relaterat till talhastigheten. Least Absolute Shrinkage and Selection Operator (LASSO) estimerare används för att välja de egenskaper som har det största linjära inflytandet på klassen, och därmed minska antalet inmatade särdrag. Least Square, Naive Bayes, K-Nearest Neighbors (KNN) och Support Vector Machine (SVM) klassificerare presenteras och utvärderas. SVM har bästa prestanda och används också i realtidssammanhang, där sannolikheten för ett intensivt skede estimeras. Mer data behövs dock för att gå vidare. Med den nuvarande databasen erhålls inte förmågan att generalisera till en annan sportkommentator eller andra yttre omständigheter.