Cited 0 times in Scipus Cited Count

SEQprocess: A modularized and customizable pipeline framework for NGS processing in R package

Other Title
SEQprocess: 차세대 염기서열 데이터 처리를 위한 파이프라인 R 패키지
Authors
주, 태운
Department
대학원 의생명과학과
Degree
Master (2019)
Abstract
BACKGROUNDS: Next-Generation Sequencing (NGS) is now widely used for biomedical research with various applications. Processing of NGS data needs multiple programs and customization of the processing pipelines according to the data platforms. However, rapid progress of the NGS applications and the processing methods urgently require prompt update of the pipelines. Recent clinical applications of NGS technology such as cell-free DNA, cancer panel, or exosomal RNA sequencing data also require appropriate customization of the processing pipelines. Here, we developed SEQprocess, a highly extendable framework that can provide standard as well as customized pipelines for NGS data processing.
RESULTS: SEQprocess is implemented in an R package with fully modularized steps for data processing that can be easily customized. In addition, currently, six precustomized pipelines are provided that can be easily executed by non-experts such as biomedical scientists, including the NCI Genomic Data Commons (GDC) pipelines as well as the popularly used pipelines for variant calling (e.g., GATK) and estimation of allele frequency, RNA abundance (e.g., TopHat2/Cufflink), or DNA copy numbers (e.g., Sequenza). Optimized pipelines for the clinical sequencing from cell-free DNA or miR-Seq are also provided. The processed data are transformed into R package-compatible data type ‘ExpressionSet’ or ‘SummarizedExperiment’ that can facilitate subsequent data analysis with R environment. An automated report summarizing the processing steps are also provided to ensure reproducibility of the NGS data analysis.
CONCLUSION: SEQprocess provides highly extendable and R compatible framework that can manage customized and reproducible pipelines for handling multiple legacy NGS processing tools.

NGS(Next-Generation Sequencing, 차세대 염기서열) 기술은 현재 의•과학 연구 분야에서 폭넓게 이용되고 있다. NGS 데이터의 처리는 시퀀싱 플랫폼에 따라서 다양한 프로그램과 적절한 데이터 처리 파이프라인을 필요로 하고 있으며 NGS 기술과 데이터 처리 방식의 빠른 발전으로 인해 현존하는 파이프라인은 재빠른 업데이트가 필요하다. 최근 세포 유리 DNA(Cell-free DNA)와 종양 패널 혹은 엑소좀 RNA 시퀀싱과 같은 NGS 기술의 임상 적용 또한 적절한 데이터 처리 파이프라인을 요구하고 있다. 따라서, 나는 이러한 NGS 데이터를 처리할 수 있는 기준이 되는 파이프라인을 제공할 뿐 아니라, 사용자 설정에 따라 유연하게 구동할 수 있으며 기능이나 파이프라인의 추가 및 확장 가능한 R 패키지인 “SEQprocess”를 개발하였다. SEQprocess R 패키지는 NCI Genomic Data Commons(GDC)에서 제공하는 암 유전체 데이터 분석 파이프라인과 돌연변이 호출을 위해 널리 사용되는 Genome Analysis ToolKit(GATK) 프로그램을 이용한 파이프라인 외에 mRNA 발현량 측정, DNA 복제 수 측정, 그리고 cell-free DNA와 exosomal RNA 및 small RNA 데이터를 처리할 수 있는 총 6가지의 최적화된 파이프라인을 제공한다. SEQprocess를 이용해 처리된 데이터는 R 환경에서 편하게 분석할 수 있도록 ‘ExpressionSet’과 ‘SummarizedExperiment’ R 데이터 형태로 최종 출력 결과를 내놓는다. SEQprocess는 또한 NGS 데이터 분석의 재현성을 보장하기 위해 각 데이터 처리 단계를 요약한 리포트를 출력할 수 있는 기능을 제공한다. 즉, SEQprocess R 패키지는 NGS 데이터의 처리를 위한 6개의 파이프라인을 제공하며, R 환경에서 사용자의 설정대로 유연하게 구동할 수 있고, 추가적으로 기능이나 파이프라인을 확장할 수 있는 프레임워크이다.
Keywords

Appears in Collections:
Theses > Graduate School of Biomedical Sciences > Master
Ajou Authors
주, 태운
Full Text Link
Files in This Item:
There are no files associated with this item.
Export

qrcode

해당 아이템을 이메일로 공유하기 원하시면 인증을 거치시기 바랍니다.

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse