Skip to main content

Store multimodal data with purpose-built Health AI services

이번 세션에서는 특수 목적의 헬스 AI 서비스(AWS HealthOmics, AWS HealthLake, AWS HealthImaging)로 멀티모달 데이터를 저장할 수 있습니다.

각 데이터 유형 별로 알맞는 서비스에 저장하려면 해당 폴더에 있는 아티팩트를 따르세요. 

  • genomic - Run the notebook store-multimodal-data/genomic/store-analyze-genomicdata-with-awshealthomics.ipynb. This creates AWS HealthOmics data stores (Reference Store, Variant Store, and Annotation Store) to import reference genome, VCF files, and ClinVar annotation file.
  • clinical - Follow the instructions in store-multimodal-data/clinical/README.md to create AWS HealthLake data store and import NDJSON files.
  • medical imaging - First, run the notebook store-multimodal-data/medical_imaging/store-imagingdata-with-awshealthimaging.ipynb to create AWS HealthImaging data stores and import DICOM files. Then, run preprocess-multimodal-date/medical-imaging/imaging-radiomics.ipynb to generate radiomic features from multimple images in parallel using Amazon SageMaker Preprocessing.

Genomic

보다 자세한 참고링크는 https://catalog.workshops.aws/amazon-omics-end-to-end/en-US/020-xp-code/300-omics-analytics/310-querying-data

VCF 가져오기 (AWS HealthOmics)

샘플 VCF를 Import하는데 예시에서 보듯 30분 정도 소요됩니다. 본 예제에서는 889개의 샘플 VCF (0.1Megabyte)를 모두 가져오는데 걸린 시간입니다.

s3://guidance-multimodal-hcls-healthai-machinelearning-us-east-1/genomic/fastq/Abe604_Frami345_b8dd1798-beef-094d-1be4-f90ee0e6b7d5_dna.vcf

Screenshot 2024-01-30 at 5.21.38 PM.png

Screenshot 2024-01-30 at 5.34.37 PM.png

annotation data 도 마찬가지로 가져옵니다. 이 예에서는 59메가바이트 정도의 파일을 가지고 오는데 5분정도 소요되었습니다. 

s3://guidance-multimodal-hcls-healthai-machinelearning-us-east-1/genomic/annotation/clinvar.vcf.gz

Screenshot 2024-01-30 at 6.44.00 PM.png

데이터베이스 생성 (AWS Lake Formation) 및 Workgroup 생성 (Amazon Athena)

워크그룹 생성

Screenshot 2024-01-30 at 5.39.53 PM.png

omics라는 이름으로 workgroup을 생성합니다.

Screenshot 2024-01-30 at 5.38.18 PM.png

Athena쿼리를 위해 Lake Formation에서 데이터베이스를 사전에 생성하여 리소스를 링크합니다.

데이터베이스 생성

Screenshot 2024-01-30 at 5.00.42 PM.png

다음과 같이 Database가 생성된 것을 확인할 수 있습니다.

Screenshot 2024-01-30 at 5.42.09 PM.png

Screenshot 2024-01-30 at 4.59.27 PM.png

# 데이터에 대해 아테나 쿼리를 실행하려면, AWS Lake Formation을 사용해 데이터베이스에 대한 리소스 링크를 생성하세요.
# 다음 기능이 작동하려면 이 노트북을 실행하는 IAM 사용자가 데이터 레이크 관리자인지 확인해야 합니다.

Screenshot 2024-01-30 at 5.00.12 PM.png

리소스 연결

앞에서 VCF 를 HealthOmics에 Import 정상적으로 했다면  AWS Lake Formation의 Tables 목록에서 확인할 수 있습니다. 

해당되는 테이블을 체크하고 grant on target를 선택한 뒤 권한을 부여합니다.

Screenshot 2024-01-30 at 6.28.37 PM.png

Screenshot 2024-01-30 at 6.28.46 PM.png

Screenshot 2024-01-30 at 7.04.01 PM.png

Screenshot 2024-01-30 at 6.29.07 PM.png

Jupyter에서 불러온 Annotation 테이블 결과 예시입니다.

Screenshot 2024-01-30 at 7.02.32 PM.png