기본 분석 수행하기 (옵션)

Bacterial Genome data 분석

이제 몇 가지 샘플 코드를 실행해 보겠습니다.

bwa, samtools 도구가 설치되어 있는지 확인해보겠습니다.

which bwa

출력에는 bwa가 설치된 위치가 표시됩니다.

which samtools

출력에는 samtools가 설치된 위치가 표시됩니다.

Basic Bacterial Genome Sequence Analysis

1. Get a reference sequence:

mkdir -p /tmp/outbreaks/SG-M1

cd /tmp/outbreaks/SG-M1

wget ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/001/275/545/GCF_001275545.2_ASM127554v2/GCF_001275545.2_ASM127554v2_genomic.fna.gz

gunzip GCF_001275545.2_ASM127554v2_genomic.fna.gz

mv GCF_001275545.2_ASM127554v2_genomic.fna SG-M1.fna

2. Map and call SNPs:
Note: For an annotation of the programs used below and other bioinformatics tools, check out our course github page.

Reference indexing

bwa index SG-M1.fna

Mapping

bwa mem SG-M1.fna /tmp/fastq/SRR6327950/SRR6327950_1.fastq.gz /tmp/fastq/SRR6327950/SRR6327950_2.fastq.gz | samtools view -bS - > SRR6327950.bam

BAM Sorting

samtools sort SRR6327950.bam -o SRR6327950-sort.bam

BAM Indexing

samtools index SRR6327950-sort.bam

Variant calling

lofreq faidx SG-M1.fna

lofreq call -f SG-M1.fna -r NZ_CP012419.2:400000-500000 SRR6327950-sort.bam > SRR6327950-400k.vcf

Mapping takes ~5 min on a t2.medium. Sorting takes ~2 min. Running lofreq on this limited section of the genome takes ~1 min.

3. Assembly (runs ~4 min then will run out of RAM if you’re on a t2.medium):

spades.py -t 2 -1 /tmp/fastq/SRR6327950/SRR6327950_1.fastq.gz -2 /tmp/fastq/SRR6327950/SRR6327950_2.fastq.gz -o SRR6327950_spades

NOTE: This assembly above will complete on a t3a.large and takes about 5 hours.

훌륭합니다! 이 작업은 AWS EC2 인스턴스에서 쉽게 실행할 수 있는 매우 일상적인 작업입니다. 3단계에서 어셈블리를 수행할 때 경험했듯이, 작업에 적합한 머신을 선택하는 것은 매우 중요합니다. RAM이나 디스크 공간이 부족하면 작업이 중단될 수 있습니다. 다행히도 인스턴스 유형을 변경하거나 다른 EBS 볼륨을 머신에 연결하면 이러한 문제를 쉽게 해결할 수 있습니다.

워크샵 시작 전 준비사항

Cloud9

리눅스 머신 실행

공유 AMI로부터 가상 머신 시작하기

저장 장치 추가하기

AWS CLI

데이터 다운로드 실습

기본 분석 수행하기 (옵션)

EC2로부터 이미지 (AMI) 생성

EC2 종료와 볼륨 스냅샷 저장 (옵션)

AMI로 쉽게 리눅스 머신 셋업하기

Hail on EC2 (옵션)

Amazon Lightsail for Research

Research and Engineering Studio on AWS

실습용 윈도우 EC2 인스턴스 자동화

Rstudio 실습환경 자동화 구성

기본 분석 수행하기 (옵션)

Bacterial Genome data 분석

No Comments