Optimizing Analytical Queries over Semantic Web Sources

Les données ont toujours été un atout clé pour beaucoup d’industries et d’entreprises ;cependant, ces derniers temps les possesseurs de données jouissent d’un véritable avantage compétitif sur les autres. De nos jours, les compagnies collectent de gros volumes de données et les stockent dans de gran...

Full description

Bibliographic Details
Main Author: Ibragimov, Dilshod
Other Authors: Zimanyi, Esteban
Format: Doctoral Thesis
Language:en
Published: Universite Libre de Bruxelles 2017
Subjects:
Online Access:https://dipot.ulb.ac.be/dspace/bitstream/2013/282819/4/thesis_dibragimov_ToC.pdf
https://dipot.ulb.ac.be/dspace/bitstream/2013/282819/5/contratDI.pdf
https://dipot.ulb.ac.be/dspace/bitstream/2013/282819/3/thesis_dibragimov_final.pdf
http://hdl.handle.net/2013/ULB-DIPOT:oai:dipot.ulb.ac.be:2013/282819
Description
Summary:Les données ont toujours été un atout clé pour beaucoup d’industries et d’entreprises ;cependant, ces derniers temps les possesseurs de données jouissent d’un véritable avantage compétitif sur les autres. De nos jours, les compagnies collectent de gros volumes de données et les stockent dans de grandes bases de données multidimensionnelles appelées entrepôts de données. Un entrepôt de données présente les données agrégées sous la forme d’un cube dont les cellules contiennent des faits et des informations contextuelles telles que des dates, des lieux, des informations sur les clients et fournisseurs, etc. Les solutions d’entreposage de données utilisent avec succès OLAP (Traitement Analytique En Ligne – en anglais Online Analytical Processing) afin d’analyser ces grands ensembles de données ;par exemple, les informations des ventes peuvent être agrégées selon le lieu et/ou la dimension temporelle. Les tendances récentes des technologies et du Web posent actuellement de nouveaux défis. Une bonne quantité de l’information disponible sur le Web s’y trouve sous une forme qui se prête au traitement par machine (Web Sémantique) ;les outils de veille économique (en anglais Business Intelligence ou BI) doivent être capables de découvrir et récupérer les informations pertinentes, et les présenter aux utilisateurs afin de les assister dans une bonne analyse de la situation. De nombreux gouvernements et organisations rendent leurs données publiquement accessible, identifiables avec des URI (Unified Resource Identifiers), et les lient à d’autres données. Cette collection de jeux de données interconnectés sur le Web s’appelle Linked Data [1]. Ces jeux de données sont basés sur le modèle RDF (Resource Description Framework) – un format standard pour l’échange de données sur le Web [2]. SPARQL, un protocole et un langage de requêtes pour RDF [4], est utilisé pour interroger et manipuler les jeux de données RDF stockés dans des triplestores SPARQL. SPARQL 1.1 Federated Query [6] définit également une extension pour exécuter des requêtes distribuées sur plusieurs triplestores. Le standard actuel permet donc des requêtes analytiques complexes sur de multiples sources de données, et l’intégration de ces données dans le processus d’analyse devient une nécessité pour les outils de BI. Cependant, en raison de la quantité et de la complexité des données disponibles sur le Web, leur incorporation et leur utilisation ne sont pas toujours évidentes. Par conséquent, une solution OLAP efficace sur des source Web Sémantiques est nécessaire pour améliorer les outils de BI. Cette thèse de doctorat se concentre sur les défis liés à l’optimisation des requêtes analytiques qui utilisent des données provenant de plusieurs triplestores SPARQL. Premièrement, cette thèse propose un framework pour la découverte, l’intégration et l’interrogation analytique des Linked Data – ce type d’OLAP a été nommé OLAP Exploratoire [21]. Ce framework est conçu pour utiliser un schéma multidimensionnel du cube OLAP exprimé dans des vocabulaires RDF, afin de pouvoir interroger des sources de données, extraire et agréger des données, et construire un cube de données. Nous proposons également un processus assisté par ordinateur pour découvrir des sources de données précédemment inconnues et construire un schéma multidimensionnel du cube. Deuxièmement, vu l’inefficacité actuelle des triplestores SPARQL pour l’exécution des requêtes analytiques fédérées, cette thèse propose un ensemble de stratégies pour le traitement de ces requêtes ainsi qu’un module (appelé Cost-based Optimizer for Distributed Aggregate ou CoDA) pour optimiser leur exécution. Troisièmement, afin de surmonter les défis liés aux techniques de traitement des requêtes SPARQL agrégées sur un seul triplestore, nous proposons MARVEL (MAterialized Rdf Views with Entailment and incompLeteness) – une approche qui utilise des techniques de vues matérialisées spécifiques à RDF pour traiter les requêtes agrégées complexes. Notre approche consiste en un algorithme de sélection de vues selon un modèle de coût associé spécifique à RDF, une syntaxe pour la définition des vues et un algorithme pour la réécriture des requêtes SPARQL en utilisant les vues matérialisées RDF. Finalement, nous nous concentrons sur les techniques relatives au support des requêtes analytiques SPARQL sur des données liées situées en de multiples triplestores, qui nous conduisent à d’intéressantes analyses et constatations à grande échelle. En particulier, la technique proposée est capable d’intégrer les schémas divers des endpoints SPARQL, donnant accès aux données via des hiérarchies dans le style d’OLAP pour permettre des analyses uniformes, efficaces et puissantes. Enfin, cette thèse préconise une plus grande attention au traitement des requêtes analytiques au sein des systèmes RDF distribués. === Doctorat en Sciences de l'ingénieur et technologie === info:eu-repo/semantics/nonPublished