Fast and energy efficient synchronization techniques for near-threshold multiprocessor clusters

Clustered many-core architectures have been successfully exploited in a broad range of applications: from the HPC to the low-power embedded systems. The main goal of this kind of architecture is to provide high computational eciency independently from the workload and the application domain. Dependi...

Full description

Bibliographic Details
Main Author: Roncone, Roberto
Format: Others
Language:English
Published: KTH, Skolan för informations- och kommunikationsteknik (ICT) 2015
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-187027
id ndltd-UPSALLA1-oai-DiVA.org-kth-187027
record_format oai_dc
spelling ndltd-UPSALLA1-oai-DiVA.org-kth-1870272018-01-11T05:11:49ZFast and energy efficient synchronization techniques for near-threshold multiprocessor clustersengRoncone, RobertoKTH, Skolan för informations- och kommunikationsteknik (ICT)2015Computer and Information SciencesData- och informationsvetenskapClustered many-core architectures have been successfully exploited in a broad range of applications: from the HPC to the low-power embedded systems. The main goal of this kind of architecture is to provide high computational eciency independently from the workload and the application domain. Depending on the cluster conguration, the number of cores available in these systems can easily grow leading to a huge cost related to threads synchronization. In this optics, this thesis work is focused on the exploration and design of solutions aimed to improve both performance and power consumption of the threads synchronization activity at the cluster level. All the proposed solutions have been develop for an ultra-low power many core platform ( PULP ) targeted to the world of IoT and wearable systems. Busy-waiting synchronization implemented through a Master/Slave mechanism has been replaced with an "event" based synchronization coupled with the clockgating technique. With the introduction of events and clockgating it is possible to put the waiting cores in an idle mode, saving the dynamic energy that otherwise would have been wasted spinning on a local variable. It is also proposed an HW synchronizer, totally supported in the PULP OpenMP library, designed to accelerate threads rendezvous maximizing computational eciency. Synthetic benchmarks have shown an improvement of 4 times comparing the HW synchronizer synchronization cost with the one obtained by the polling solution. On the energy side, application benchmarks, such as Dijkstra algorithm, have shown a dynamic energy reduction up to the 36% with regard to the energy spent during the polling based execution. Clustered many-core arkitekturer har framgångsrikt utnyttjas på ett brett spektrum av tillämpningar: från HPC till låg effekt inbyggda system. Huvudsyftet med denna typ av arkitektur är att ge hög beräkningseffektivitet oberoende av arbetsbelastningen och ansökan domanen. Beroende på klusterkonfiguration kan antalet core som finns i dessa system lätt växa som leder till en enorm kostnad relaterad till threads synkronisering. I denna optik, är detta examensarbete inriktat på prospektering och utformningen av lösningar som syftar till att förbättra både prestanda och strömförbrukning av threads synkroniserings aktivitet på clusternivå. Alla de föreslagna lösningarna har varit att utveckla en ultra-low power manycore platform (PULP) riktade till en värld av sakernas internet och bärbara system. Busy-wait synkronisering genomförs genom en Master / Slave mekanism har ersatts med en "event" baserad synkronisering tillsammans med clockgating teknik. Med introduktionen av events och clockgating det är möjligt att sätta de väntande core i ett viloläge, vilket sparar den dynamiska energi som annars skulle ha gått till spillo snurra på en lokal variabel. Det föreslås också en HW Synchronizer, helt stod i PULP OpenMP biblioteket, som syftar till att påskynda trådar rendezvous maximera beräkningseffektivitet. Syntetiska benchmarks har visat en förbättring med 4 gånger som jämför HW synkroniseringssynkroniserings kostnad med den som erhålls genom polling lösningen. På energisidan, applikationsriktmärken, såsom Dijkstra algoritm, har visat en dynamisk minskad energiförbrukning upp till 36 % när det gäller energi som går åt under valdbaserade utförande. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-187027TRITA-ICT-EX ; 2015:218application/pdfinfo:eu-repo/semantics/openAccess
collection NDLTD
language English
format Others
sources NDLTD
topic Computer and Information Sciences
Data- och informationsvetenskap
spellingShingle Computer and Information Sciences
Data- och informationsvetenskap
Roncone, Roberto
Fast and energy efficient synchronization techniques for near-threshold multiprocessor clusters
description Clustered many-core architectures have been successfully exploited in a broad range of applications: from the HPC to the low-power embedded systems. The main goal of this kind of architecture is to provide high computational eciency independently from the workload and the application domain. Depending on the cluster conguration, the number of cores available in these systems can easily grow leading to a huge cost related to threads synchronization. In this optics, this thesis work is focused on the exploration and design of solutions aimed to improve both performance and power consumption of the threads synchronization activity at the cluster level. All the proposed solutions have been develop for an ultra-low power many core platform ( PULP ) targeted to the world of IoT and wearable systems. Busy-waiting synchronization implemented through a Master/Slave mechanism has been replaced with an "event" based synchronization coupled with the clockgating technique. With the introduction of events and clockgating it is possible to put the waiting cores in an idle mode, saving the dynamic energy that otherwise would have been wasted spinning on a local variable. It is also proposed an HW synchronizer, totally supported in the PULP OpenMP library, designed to accelerate threads rendezvous maximizing computational eciency. Synthetic benchmarks have shown an improvement of 4 times comparing the HW synchronizer synchronization cost with the one obtained by the polling solution. On the energy side, application benchmarks, such as Dijkstra algorithm, have shown a dynamic energy reduction up to the 36% with regard to the energy spent during the polling based execution. === Clustered many-core arkitekturer har framgångsrikt utnyttjas på ett brett spektrum av tillämpningar: från HPC till låg effekt inbyggda system. Huvudsyftet med denna typ av arkitektur är att ge hög beräkningseffektivitet oberoende av arbetsbelastningen och ansökan domanen. Beroende på klusterkonfiguration kan antalet core som finns i dessa system lätt växa som leder till en enorm kostnad relaterad till threads synkronisering. I denna optik, är detta examensarbete inriktat på prospektering och utformningen av lösningar som syftar till att förbättra både prestanda och strömförbrukning av threads synkroniserings aktivitet på clusternivå. Alla de föreslagna lösningarna har varit att utveckla en ultra-low power manycore platform (PULP) riktade till en värld av sakernas internet och bärbara system. Busy-wait synkronisering genomförs genom en Master / Slave mekanism har ersatts med en "event" baserad synkronisering tillsammans med clockgating teknik. Med introduktionen av events och clockgating det är möjligt att sätta de väntande core i ett viloläge, vilket sparar den dynamiska energi som annars skulle ha gått till spillo snurra på en lokal variabel. Det föreslås också en HW Synchronizer, helt stod i PULP OpenMP biblioteket, som syftar till att påskynda trådar rendezvous maximera beräkningseffektivitet. Syntetiska benchmarks har visat en förbättring med 4 gånger som jämför HW synkroniseringssynkroniserings kostnad med den som erhålls genom polling lösningen. På energisidan, applikationsriktmärken, såsom Dijkstra algoritm, har visat en dynamisk minskad energiförbrukning upp till 36 % när det gäller energi som går åt under valdbaserade utförande.
author Roncone, Roberto
author_facet Roncone, Roberto
author_sort Roncone, Roberto
title Fast and energy efficient synchronization techniques for near-threshold multiprocessor clusters
title_short Fast and energy efficient synchronization techniques for near-threshold multiprocessor clusters
title_full Fast and energy efficient synchronization techniques for near-threshold multiprocessor clusters
title_fullStr Fast and energy efficient synchronization techniques for near-threshold multiprocessor clusters
title_full_unstemmed Fast and energy efficient synchronization techniques for near-threshold multiprocessor clusters
title_sort fast and energy efficient synchronization techniques for near-threshold multiprocessor clusters
publisher KTH, Skolan för informations- och kommunikationsteknik (ICT)
publishDate 2015
url http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-187027
work_keys_str_mv AT ronconeroberto fastandenergyefficientsynchronizationtechniquesfornearthresholdmultiprocessorclusters
_version_ 1718604327106379776