Kan datorer höra fåglar?

Ljudigenkänning möjliggörs genom spektralanalys, som beräknas av den snabba fouriertransformen (FFT), och har under senare år nått stora genombrott i samband med ökningen av datorprestanda och artificiell intelligens. Tekniken är nu allmänt förekommande, i synnerhet inom bioakustik för identifiering...

Full description

Bibliographic Details
Main Authors: Movin, Andreas, Jilg, Jonathan
Format: Others
Language:Swedish
Published: KTH, Skolan för teknikvetenskap (SCI) 2019
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-254800
id ndltd-UPSALLA1-oai-DiVA.org-kth-254800
record_format oai_dc
collection NDLTD
language Swedish
format Others
sources NDLTD
topic Bioacoustics
Fast Fourier transform (FFT)
Spectral analysis
Voice recognition
Sound recognition
Bird song
Human voice
Spectrogram
Matching algorithms
Bioakustik
Fast Fourier transform (FFT)
Spektralanalys
Röstigenkänning
Ljudigenkänning
Fågelsång
Mänsklig röst
Spektrogram
Ihopparningsalgoritm
Engineering and Technology
Teknik och teknologier
spellingShingle Bioacoustics
Fast Fourier transform (FFT)
Spectral analysis
Voice recognition
Sound recognition
Bird song
Human voice
Spectrogram
Matching algorithms
Bioakustik
Fast Fourier transform (FFT)
Spektralanalys
Röstigenkänning
Ljudigenkänning
Fågelsång
Mänsklig röst
Spektrogram
Ihopparningsalgoritm
Engineering and Technology
Teknik och teknologier
Movin, Andreas
Jilg, Jonathan
Kan datorer höra fåglar?
description Ljudigenkänning möjliggörs genom spektralanalys, som beräknas av den snabba fouriertransformen (FFT), och har under senare år nått stora genombrott i samband med ökningen av datorprestanda och artificiell intelligens. Tekniken är nu allmänt förekommande, i synnerhet inom bioakustik för identifiering av djurarter, en viktig del av miljöövervakning. Det är fortfarande ett växande vetenskapsområde och särskilt igenkänning av fågelsång som återstår som en svårlöst utmaning. Även de främsta algoritmer i området är långt ifrån felfria. I detta kandidatexamensarbete implementerades och utvärderades enkla algoritmer för att para ihop ljud med en ljuddatabas. En filtreringsmetod utvecklades för att urskilja de karaktäristiska frekvenserna vid fem tidsramar som utgjorde basen för jämförelsen och proceduren för ihopparning. Ljuden som användes var förinspelad fågelsång (koltrast, näktergal, kråka och fiskmås) så väl som egeninspelad mänsklig röst (4 unga svenska män). Våra resultat visar att framgångsgraden normalt är 50–70%, den lägsta var fiskmåsen med 30% för en liten databas och den högsta var koltrasten med 90% för en stor databas. Rösterna var svårare för algoritmen att särskilja, men de hade överlag framgångsgrader mellan 50% och 80%. Dock gav en ökning av databasstorleken generellt inte en ökning av framgångsgraden. Sammanfattningsvis visar detta kandidatexamensarbete konceptbeviset bakom fågelsångigenkänning och illustrerar såväl styrkorna som bristerna av dessa enkla algoritmer som har utvecklats. Algoritmerna gav högre framgångsgrad än slumpen (25%) men det finns ändå utrymme för förbättring eftersom algoritmen vilseleddes av ljud av samma frekvenser. Ytterligare studier behövs för att bedöma den utvecklade algoritmens förmåga att identifiera ännu fler fåglar och röster. === Sound recognition is made possible through spectral analysis, computed by the fast Fourier transform (FFT), and has in recent years made major breakthroughs along with the rise of computational power and artificial intelligence. The technology is now used ubiquitously and in particular in the field of bioacoustics for identification of animal species, an important task for wildlife monitoring. It is still a growing field of science and especially the recognition of bird song which remains a hard-solved challenge. Even state-of-the-art algorithms are far from error-free. In this thesis, simple algorithms to match sounds to a sound database were implemented and assessed. A filtering method was developed to pick out characteristic frequencies at five time frames which were the basis for comparison and the matching procedure. The sounds used were pre-recorded bird songs (blackbird, nightingale, crow and seagull) as well as human voices (4 young Swedish males) that we recorded. Our findings show success rates typically at 50–70%, the lowest being the seagull of 30% for a small database and the highest being the blackbird at 90% for a large database. The voices were more difficult for the algorithms to distinguish, but they still had an overall success rate between 50% and 80%. Furthermore, increasing the database size did not improve success rates in general. In conclusion, this thesis shows the proof of concept and illustrates both the strengths as well as short-comings of the simple algorithms developed. The algorithms gave better success rates than pure chance of 25% but there is room for improvement since the algorithms were easily misled by sounds of the same frequencies. Further research will be needed to assess the devised algorithms' ability to identify even more birds and voices.
author Movin, Andreas
Jilg, Jonathan
author_facet Movin, Andreas
Jilg, Jonathan
author_sort Movin, Andreas
title Kan datorer höra fåglar?
title_short Kan datorer höra fåglar?
title_full Kan datorer höra fåglar?
title_fullStr Kan datorer höra fåglar?
title_full_unstemmed Kan datorer höra fåglar?
title_sort kan datorer höra fåglar?
publisher KTH, Skolan för teknikvetenskap (SCI)
publishDate 2019
url http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-254800
work_keys_str_mv AT movinandreas kandatorerhorafaglar
AT jilgjonathan kandatorerhorafaglar
AT movinandreas cancomputershearbirds
AT jilgjonathan cancomputershearbirds
_version_ 1719221866885808128
spelling ndltd-UPSALLA1-oai-DiVA.org-kth-2548002019-07-06T10:50:27ZKan datorer höra fåglar?sweCan Computers Hear Birds?Movin, AndreasJilg, JonathanKTH, Skolan för teknikvetenskap (SCI)KTH, Skolan för teknikvetenskap (SCI)2019BioacousticsFast Fourier transform (FFT)Spectral analysisVoice recognitionSound recognitionBird songHuman voiceSpectrogramMatching algorithmsBioakustikFast Fourier transform (FFT)SpektralanalysRöstigenkänningLjudigenkänningFågelsångMänsklig röstSpektrogramIhopparningsalgoritmEngineering and TechnologyTeknik och teknologierLjudigenkänning möjliggörs genom spektralanalys, som beräknas av den snabba fouriertransformen (FFT), och har under senare år nått stora genombrott i samband med ökningen av datorprestanda och artificiell intelligens. Tekniken är nu allmänt förekommande, i synnerhet inom bioakustik för identifiering av djurarter, en viktig del av miljöövervakning. Det är fortfarande ett växande vetenskapsområde och särskilt igenkänning av fågelsång som återstår som en svårlöst utmaning. Även de främsta algoritmer i området är långt ifrån felfria. I detta kandidatexamensarbete implementerades och utvärderades enkla algoritmer för att para ihop ljud med en ljuddatabas. En filtreringsmetod utvecklades för att urskilja de karaktäristiska frekvenserna vid fem tidsramar som utgjorde basen för jämförelsen och proceduren för ihopparning. Ljuden som användes var förinspelad fågelsång (koltrast, näktergal, kråka och fiskmås) så väl som egeninspelad mänsklig röst (4 unga svenska män). Våra resultat visar att framgångsgraden normalt är 50–70%, den lägsta var fiskmåsen med 30% för en liten databas och den högsta var koltrasten med 90% för en stor databas. Rösterna var svårare för algoritmen att särskilja, men de hade överlag framgångsgrader mellan 50% och 80%. Dock gav en ökning av databasstorleken generellt inte en ökning av framgångsgraden. Sammanfattningsvis visar detta kandidatexamensarbete konceptbeviset bakom fågelsångigenkänning och illustrerar såväl styrkorna som bristerna av dessa enkla algoritmer som har utvecklats. Algoritmerna gav högre framgångsgrad än slumpen (25%) men det finns ändå utrymme för förbättring eftersom algoritmen vilseleddes av ljud av samma frekvenser. Ytterligare studier behövs för att bedöma den utvecklade algoritmens förmåga att identifiera ännu fler fåglar och röster. Sound recognition is made possible through spectral analysis, computed by the fast Fourier transform (FFT), and has in recent years made major breakthroughs along with the rise of computational power and artificial intelligence. The technology is now used ubiquitously and in particular in the field of bioacoustics for identification of animal species, an important task for wildlife monitoring. It is still a growing field of science and especially the recognition of bird song which remains a hard-solved challenge. Even state-of-the-art algorithms are far from error-free. In this thesis, simple algorithms to match sounds to a sound database were implemented and assessed. A filtering method was developed to pick out characteristic frequencies at five time frames which were the basis for comparison and the matching procedure. The sounds used were pre-recorded bird songs (blackbird, nightingale, crow and seagull) as well as human voices (4 young Swedish males) that we recorded. Our findings show success rates typically at 50–70%, the lowest being the seagull of 30% for a small database and the highest being the blackbird at 90% for a large database. The voices were more difficult for the algorithms to distinguish, but they still had an overall success rate between 50% and 80%. Furthermore, increasing the database size did not improve success rates in general. In conclusion, this thesis shows the proof of concept and illustrates both the strengths as well as short-comings of the simple algorithms developed. The algorithms gave better success rates than pure chance of 25% but there is room for improvement since the algorithms were easily misled by sounds of the same frequencies. Further research will be needed to assess the devised algorithms' ability to identify even more birds and voices. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-254800TRITA-SCI-GRU ; 2019:179application/pdfinfo:eu-repo/semantics/openAccess