PROVENANCE FOR BIOINFORMATICS WORKFLOWS
CONSELHO NACIONAL DE DESENVOLVIMENTO CIENTÍFICO E TECNOLÓGICO === Muitos experimentos científicos são elaborados como fluxos de tarefas computacionais, que podem ser implementados através do uso de linguagens de programação. Na área de bioinformática é muito comum o uso de scripts ad-hoc para constr...
Main Author: | |
---|---|
Other Authors: | |
Language: | Portuguese |
Published: |
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO
2011
|
Online Access: | http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=18566@1 http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=18566@2 |
id |
ndltd-IBICT-oai-MAXWELL.puc-rio.br-18566 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-IBICT-oai-MAXWELL.puc-rio.br-185662019-03-01T15:39:47Z PROVENANCE FOR BIOINFORMATICS WORKFLOWS PROVENIÊNCIA PARA WORKFLOWS DE BIOINFORMÁTICA LUCIANA DA SILVA ALMENDRA GOMES EDWARD HERMANN HAEUSLER SERGIO LIFSCHITZ EDWARD HERMANN HAEUSLER MARTA LIMA DE QUEIRÓS MATTOSO LAURENT EMMANUEL DARDENNE CONSELHO NACIONAL DE DESENVOLVIMENTO CIENTÍFICO E TECNOLÓGICO Muitos experimentos científicos são elaborados como fluxos de tarefas computacionais, que podem ser implementados através do uso de linguagens de programação. Na área de bioinformática é muito comum o uso de scripts ad-hoc para construir fluxos de tarefas. Os Sistemas de Gerência de Workflow Científico (SGWC) surgiram como uma alternativa a estes scripts. Uma das funcionalidades desses sistemas que têm recebido bastante atenção pela comunidade científica é a captura automática de dados de proveniência. Estes permitem averiguar quais foram os recursos e parâmetros utilizados na geração dos resultados, dentre muitas outras informações indispensáveis para a validação e publicação de um experimento. Neste trabalho foram levantados alguns desafios na área de proveniência de dados em SGWCs, como por exemplo (i) a heterogeneidade de formas de representação dos dados nos diferentes sistemas, dificultando a compreensão e a interoperabilidade; (ii) o armazenamento de dados consumidos e produzidos e (iii) a reprodutibilidade de uma execução específica. Estes desafios motivaram a elaboração de um esquema conceitual de proveniência de dados para a representação de workflows. Foi implementada também uma extensão em um SGWC específico (BioSide) para incluir dados de proveniência e armazená-los utilizando o esquema conceitual proposto. Foram priorizados neste trabalho alguns requisitos comumente encontrados em workflows de Bioinformática. Many scientific experiments are designed as computational workflows, which can be implemented using traditional programming languages. In the Bioinformatics domain ad-hoc scripts are often used to build workflows. Scientific Workflow Management Systems (SWMS) have emerged as an alternative to those scripts. One particular SWMS feature that has received much attention by the scientific community is the automatic capture of provenance data. These allow users to track which resources and parameters were used to obtain the results, among many other required information to validate and publish an experiment. In the present work we have elicited some data provenance challenges in the SWMS context, such as (i) the heterogeneity of data representation schemes that hinders the understanding and interoperability; (ii) the storage of consumed and produced data and (iii) the reproducibility of a specific execution. These challenges have motivated the proposal of a data provenance conceptual scheme for workflow representation. We have implemented an extension of a particular SWMS system (Bioside) to include provenance data and store them using the proposed conceptual scheme. We have focused on some requirements commonly found in bioinformatics workflows. 2011-04-27 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=18566@1 http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=18566@2 por info:eu-repo/semantics/openAccess PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO PPG EM INFORMÁTICA PUC-Rio BR reponame:Repositório Institucional da PUC_RIO instname:Pontifícia Universidade Católica do Rio de Janeiro instacron:PUC_RIO |
collection |
NDLTD |
language |
Portuguese |
sources |
NDLTD |
description |
CONSELHO NACIONAL DE DESENVOLVIMENTO CIENTÍFICO E TECNOLÓGICO === Muitos experimentos científicos são elaborados como fluxos de tarefas
computacionais, que podem ser implementados através do uso de linguagens de
programação. Na área de bioinformática é muito comum o uso de scripts ad-hoc
para construir fluxos de tarefas. Os Sistemas de Gerência de Workflow Científico
(SGWC) surgiram como uma alternativa a estes scripts. Uma das
funcionalidades desses sistemas que têm recebido bastante atenção pela
comunidade científica é a captura automática de dados de proveniência. Estes
permitem averiguar quais foram os recursos e parâmetros utilizados na geração
dos resultados, dentre muitas outras informações indispensáveis para a
validação e publicação de um experimento. Neste trabalho foram levantados
alguns desafios na área de proveniência de dados em SGWCs, como por
exemplo (i) a heterogeneidade de formas de representação dos dados nos
diferentes sistemas, dificultando a compreensão e a interoperabilidade; (ii) o
armazenamento de dados consumidos e produzidos e (iii) a reprodutibilidade de
uma execução específica. Estes desafios motivaram a elaboração de um
esquema conceitual de proveniência de dados para a representação de
workflows. Foi implementada também uma extensão em um SGWC específico
(BioSide) para incluir dados de proveniência e armazená-los utilizando o
esquema conceitual proposto. Foram priorizados neste trabalho alguns requisitos
comumente encontrados em workflows de Bioinformática. === Many scientific experiments are designed as computational workflows,
which can be implemented using traditional programming languages. In the
Bioinformatics domain ad-hoc scripts are often used to build workflows. Scientific
Workflow Management Systems (SWMS) have emerged as an alternative to
those scripts. One particular SWMS feature that has received much attention by
the scientific community is the automatic capture of provenance data. These
allow users to track which resources and parameters were used to obtain the
results, among many other required information to validate and publish an
experiment. In the present work we have elicited some data provenance
challenges in the SWMS context, such as (i) the heterogeneity of data
representation schemes that hinders the understanding and interoperability; (ii)
the storage of consumed and produced data and (iii) the reproducibility of a
specific execution. These challenges have motivated the proposal of a data
provenance conceptual scheme for workflow representation. We have
implemented an extension of a particular SWMS system (Bioside) to include
provenance data and store them using the proposed conceptual scheme. We
have focused on some requirements commonly found in bioinformatics
workflows. |
author2 |
EDWARD HERMANN HAEUSLER |
author_facet |
EDWARD HERMANN HAEUSLER LUCIANA DA SILVA ALMENDRA GOMES |
author |
LUCIANA DA SILVA ALMENDRA GOMES |
spellingShingle |
LUCIANA DA SILVA ALMENDRA GOMES PROVENANCE FOR BIOINFORMATICS WORKFLOWS |
author_sort |
LUCIANA DA SILVA ALMENDRA GOMES |
title |
PROVENANCE FOR BIOINFORMATICS WORKFLOWS |
title_short |
PROVENANCE FOR BIOINFORMATICS WORKFLOWS |
title_full |
PROVENANCE FOR BIOINFORMATICS WORKFLOWS |
title_fullStr |
PROVENANCE FOR BIOINFORMATICS WORKFLOWS |
title_full_unstemmed |
PROVENANCE FOR BIOINFORMATICS WORKFLOWS |
title_sort |
provenance for bioinformatics workflows |
publisher |
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO |
publishDate |
2011 |
url |
http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=18566@1 http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=18566@2 |
work_keys_str_mv |
AT lucianadasilvaalmendragomes provenanceforbioinformaticsworkflows AT lucianadasilvaalmendragomes provenienciaparaworkflowsdebioinformatica |
_version_ |
1718987965822140416 |