SeQual: Big Data Tool to Perform Quality Control and Data Preprocessing of Large NGS Datasets

This paper presents SeQual, a scalable tool to efficiently perform quality control of large genomic datasets. Our tool currently supports more than 30 different operations (e.g., filtering, trimming, formatting) that can be applied to DNA/RNA reads in FASTQ/FASTA formats to improve subsequent downst...

Full description

Bibliographic Details
Main Authors:	Roberto R. Exposito, Roi Galego-Torreiro, Jorge Gonzalez-Dominguez
Format:	Article
Language:	English
Published:	IEEE 2020-01-01
Series:	IEEE Access
Subjects:	Big data next-generation sequencing (NGS) bioinformatics quality control apache spark
Online Access:	https://ieeexplore.ieee.org/document/9162126/

id	doaj-3ae7677d3d4f4cb6a6d252fc7eb09294
record_format	Article
spelling	doaj-3ae7677d3d4f4cb6a6d252fc7eb092942021-03-30T04:13:06ZengIEEEIEEE Access2169-35362020-01-01814607514608410.1109/ACCESS.2020.30150169162126SeQual: Big Data Tool to Perform Quality Control and Data Preprocessing of Large NGS DatasetsRoberto R. Exposito0https://orcid.org/0000-0002-2077-1473Roi Galego-Torreiro1https://orcid.org/0000-0002-3838-843XJorge Gonzalez-Dominguez2https://orcid.org/0000-0002-2602-4874Universidade da Coruña, CITIC, Computer Architecture Group, A Coruña, SpainUniversidade da Coruña, CITIC, Computer Architecture Group, A Coruña, SpainUniversidade da Coruña, CITIC, Computer Architecture Group, A Coruña, SpainThis paper presents SeQual, a scalable tool to efficiently perform quality control of large genomic datasets. Our tool currently supports more than 30 different operations (e.g., filtering, trimming, formatting) that can be applied to DNA/RNA reads in FASTQ/FASTA formats to improve subsequent downstream analyses, while providing a simple and user-friendly graphical interface for non-expert users. Furthermore, SeQual takes full advantage of Big Data technologies to process massive datasets on distributed-memory systems such as clusters by relying on the open-source Apache Spark cluster computing framework. Our scalable Spark-based implementation allows to reduce the runtime from more than three hours to less than 20 minutes when processing a paired-end dataset with 251 million reads per input file on an 8-node multi-core cluster.https://ieeexplore.ieee.org/document/9162126/Big datanext-generation sequencing (NGS)bioinformaticsquality controlapache spark
collection	DOAJ
language	English
format	Article
sources	DOAJ
author	Roberto R. Exposito Roi Galego-Torreiro Jorge Gonzalez-Dominguez
spellingShingle	Roberto R. Exposito Roi Galego-Torreiro Jorge Gonzalez-Dominguez SeQual: Big Data Tool to Perform Quality Control and Data Preprocessing of Large NGS Datasets IEEE Access Big data next-generation sequencing (NGS) bioinformatics quality control apache spark
author_facet	Roberto R. Exposito Roi Galego-Torreiro Jorge Gonzalez-Dominguez
author_sort	Roberto R. Exposito
title	SeQual: Big Data Tool to Perform Quality Control and Data Preprocessing of Large NGS Datasets
title_short	SeQual: Big Data Tool to Perform Quality Control and Data Preprocessing of Large NGS Datasets
title_full	SeQual: Big Data Tool to Perform Quality Control and Data Preprocessing of Large NGS Datasets
title_fullStr	SeQual: Big Data Tool to Perform Quality Control and Data Preprocessing of Large NGS Datasets
title_full_unstemmed	SeQual: Big Data Tool to Perform Quality Control and Data Preprocessing of Large NGS Datasets
title_sort	sequal: big data tool to perform quality control and data preprocessing of large ngs datasets
publisher	IEEE
series	IEEE Access
issn	2169-3536
publishDate	2020-01-01
description	This paper presents SeQual, a scalable tool to efficiently perform quality control of large genomic datasets. Our tool currently supports more than 30 different operations (e.g., filtering, trimming, formatting) that can be applied to DNA/RNA reads in FASTQ/FASTA formats to improve subsequent downstream analyses, while providing a simple and user-friendly graphical interface for non-expert users. Furthermore, SeQual takes full advantage of Big Data technologies to process massive datasets on distributed-memory systems such as clusters by relying on the open-source Apache Spark cluster computing framework. Our scalable Spark-based implementation allows to reduce the runtime from more than three hours to less than 20 minutes when processing a paired-end dataset with 251 million reads per input file on an 8-node multi-core cluster.
topic	Big data next-generation sequencing (NGS) bioinformatics quality control apache spark
url	https://ieeexplore.ieee.org/document/9162126/
work_keys_str_mv	AT robertorexposito sequalbigdatatooltoperformqualitycontrolanddatapreprocessingoflargengsdatasets AT roigalegotorreiro sequalbigdatatooltoperformqualitycontrolanddatapreprocessingoflargengsdatasets AT jorgegonzalezdominguez sequalbigdatatooltoperformqualitycontrolanddatapreprocessingoflargengsdatasets
_version_	1724182181810536448

SeQual: Big Data Tool to Perform Quality Control and Data Preprocessing of Large NGS Datasets

Similar Items