Обработка результатов секвенирования для новичков. 2. Аннотирование VCF-файла c программой SnpEff

Это видео является частью статьи об анализе данных секвенирования генома или экзома
В предыдущем видео (   • Обработка результатов секвенирования для н...  ) мы сравнили нашу ДНК с референсным геномом и записали все различия в VCF-файл. Теперь мы рассмотрим аннотирование VCF-файла программой SnpEff. Мы будем использовать несколько инструментов аннотирования вариантов. 1. Прогноз повреждения гена SnpEff. Аннотация на основе базы данных SnpEff – это прогноз сохранности функции белка в зависимости от расположения варианта. 2. Актуальная медицинская информация о вариантах - Clinvar. ClinVar - это база клинических отчетов о взаимосвязи между SNP и заболеваниями. Информация собирается из опубликованных медицинских статей, триалов и исследований. 3. Риски и предрасположенности из каталога GWAS. GWAS (genome-wide association studies) - это полногеномный поиск ассоциаций. Основная цель - выявление генетических факторов риска, чтобы дать прогноз о предрасположенностях к заболеваниям. Другими словами, речь идет о достаточно распространенных вариантах. 4. Функциональное прогнозирование с dbNSFP. База данных dbNSFP содержит десятки оценок: частота аллелей (AF), консервативность участка (SIFT и Polyphen2) так и на основе моделей повреждения гена (например, MutationTester). После аннотирования мы удалим варианты низкой степени воздействия на функцию гена. Затем мы сформируем таблицу Excel. Команды и ссылки. которые использовались в видео: export PATH=$PATH:"/cygdrive/C/Program Files/Java/jre1.8.0_251/bin"
java -jar snpEff/snpEff.jar java -Xmx8g -jar snpEff/snpEff.jar -v -canon GRCh38.86 vcf/01.vcf (угловая скобка) vcf/02.anncanon.vcf
java -Xmx8g -jar snpEff/SnpSift.jar annotate -v snpEff/data/GRCh38/clinvar/clinvar.vcf.gz vcf/02.anncanon.vcf (угловая скобка) vcf/03.anncanon.clinvar.vcf
/db/GRCh37/gwasCatalog/gwascatalog.txt java -Xmx8g -jar snpEff/SnpSift.jar gwasCat -v vcf/03.anncanon.clinvar.vcf (угловая скобка) vcf/04.anncanon.clinvar.gwas.vcf
java -Xmx8g -jar snpEff/SnpSift.jar dbnsfp -v -db snpEff/data/dbnsfp/dbNSFP3.2a.txt.gz vcf/04.anncanon.clinvar.gwas.vcf (угловая скобка) vcf/05.anncanon.clinvar.gwas.dbnsfp.vcf java -Xmx8g -jar snpEff/SnpSift.jar filter -v " ( (ANN[0].IMPACT has 'HIGH') | (ANN[0].IMPACT has 'MODERATE') | (exists CLNSIGINCL) | (exists CLNDN) | (exists PMC) | (exists OM) | (exists MTP) | (exists TPA) | (exists MUT) | (exists GWASCAT_TRAIT) | (exists dbNSFP_MetaSVM_pred) | (exists dbNSFP_phastCons100way_vertebrate) | (exists dbNSFP_ExAC_NFE_AF) | (exists dbNSFP_Interpro_domain) ) " vcf/05.anncanon.clinvar.gwas.dbnsfp.vcf (угловая скобка) vcf/06.anncanon.clinvar.gwas.dbnsfp.filtered.vcf java -Xmx8g -jar snpEff/SnpSift.jar extractFields -s "," -v vcf/06.anncanon.clinvar.gwas.dbnsfp.filtered.vcf CHROM POS ID REF ALT QUAL DP VARTYPE SNP MNP INS DEL MIXED HOM HET ANN[*].EFFECT ANN[*].IMPACT ANN[0].GENE ANN[1].GENE ANN[2].GENE LOF[*].PERC CLNSIG CLNDN CLNDISDB GWASCAT_TRAIT dbNSFP_MetaSVM_pred dbNSFP_Polyphen2_HDIV_pred dbNSFP_MutationTaster_pred dbNSFP_MutationAssessor_pred dbNSFP_Polyphen2_HVAR_pred dbNSFP_SIFT_pred dbNSFP_LRT_pred dbNSFP_PROVEAN_pred OM PMC MUT ANN[*].ALLELE ANN[*].GENEID ANN[*].FEATURE ANN[*].FEATUREID ANN[*].BIOTYPE ANN[*].RANK ANN[*].HGVS_C ANN[*].HGVS_P ANN[*].CDNA_POS ANN[*].CDNA_LEN ANN[*].CDS_POS ANN[*].CDS_LEN ANN[*].AA_POS ANN[*].AA_LEN ANN[*].DISTANCE ANN[*].ERRORS LOF[*].NUMTR NMD[*].NUMTR NMD[*].PERC DBVARID ALLELEID CDA OTH S3D WTD dbSNPBuildID SLO NSF R3 R5 NSN NSM G5A COMMON RS RV TPA CFL GNO VLD ASP ASS REF U3 U5 WGT MTP LSD NOC DSS SYN KGPhase3 CAF VC KGPhase1 NOV VP SAO INT G5 SSR RSPOS HD PM CLNVCSO CLNREVSTAT RS CLNDNINCL ORIGIN MC CLNVC CLNVI CLNSIGINCL GENEINFO CLNDISDBINCL CLNSIGCONF CLNHGVS SSR GWASCAT_P_VALUE GWASCAT_OR_BETA GWASCAT_REPORTED_GENE GWASCAT_PUBMED_ID CAF[1] CAF[2] AF_TGP[0] AF_EXAC[0] AF_ESP[0] dbNSFP_ExAC_NFE_AF[0] dbNSFP_ExAC_SAS_AF[0] dbNSFP_ExAC_Adj_AF[0] dbNSFP_1000Gp3_AMR_AF[0] dbNSFP_1000Gp3_EAS_AF[0] dbNSFP_ExAC_AFR_AF[0] dbNSFP_ExAC_AF[0] dbNSFP_ExAC_FIN_AF[0] dbNSFP_1000Gp3_EUR_AF[0] dbNSFP_ExAC_AMR_AF[0] dbNSFP_1000Gp3_AFR_AF[0] dbNSFP_ESP6500_AA_AF[0] dbNSFP_1000Gp3_SAS_AF[0] dbNSFP_ExAC_EAS_AF[0] dbNSFP_ESP6500_EA_AF[0] dbNSFP_1000Gp3_AF[0] dbNSFP_GERP___RS dbNSFP_GERP___NR dbNSFP_ExAC_Adj_AC dbNSFP_ExAC_SAS_AC dbNSFP_1000Gp3_AMR_AC dbNSFP_1000Gp3_EAS_AC dbNSFP_Interpro_domain dbNSFP_FATHMM_pred dbNSFP_ExAC_AFR_AC dbNSFP_1000Gp3_AC dbNSFP_ExAC_AC dbNSFP_ExAC_FIN_AC dbNSFP_phastCons100way_vertebrate dbNSFP_CADD_phred dbNSFP_1000Gp3_EUR_AC dbNSFP_ESP6500_EA_AC dbNSFP_1000Gp3_AFR_AC dbNSFP_ExAC_AMR_AC dbNSFP_ExAC_NFE_AC dbNSFP_1000Gp3_SAS_AC dbNSFP_ExAC_EAS_AC dbNSFP_ESP6500_AA_AC (угловая скобка) vcf/extracted.txt

Смотрите также