Обработка результатов секвенирования для новичков. 3. Анализ аннотированных файлов в Excel

Это видео является частью статьи об анализе данных секвенирования генома или экзома
В предыдущем видео ( • Обработка результатов секвенирования для н... ) мы аннотировали vcf-файл и получили из него табулированый файл extracted.txt. Его можно открыть в Excel и отформатировать для анализа. Аннотации из баз данных позволяют нам оценить значимость варианта – мог ли он привести к заболеванию. Excel поможет нам в «домашних» условиях приблизить анализ к многофакторному. Фильтры Excel позволят комбинировать оценки различных инструментов интерпретации, маркируя значимые варианты. А расширенные автофильтры позволят использовать генетические панели для различных заболеваний и учитывать фенотип. Ключевые инструменты интерпретации: прогноз повреждения гена snpEff, клиническая значимость от Clinvar, частота аллеля (AF), оценка консервативности участка. Импортируем файл. После столбца HET (гетерозиготность) вставим 7 новых столбцов с именами Flag, AF max, AF av, Pred, RS link, G1 link, G2 link. 1. В столбец Flag будем ставить ноль для потенциально важных вариантов, которые нужно будет рассмотреть. 2. В столбцы AF max и AF av поместим информацию о максимальной и средней частотах аллелей, собранные из баз данных. Формула для максимальной частоты аллеля "=МАКС(DV2:EP2)" Формула для средней частоты аллеля "=СРЗНАЧ(DV2:EP2)" 3. В столбец Pred сведем оценки консервативности и степени повреждения участка по различным моделям. =ИЛИ(ЕЧИСЛО((ПОИСКПОЗ("*D*";AG2:AN2;0)));ЕЧИСЛО((ПОИСКПОЗ("*P*";AG2:AN2;0)));ЕЧИСЛО((ПОИСКПОЗ("*A*";AG2:AN2;0)));ЕЧИСЛО((ПОИСКПОЗ("*H*";AG2:AN2;0)));ЕЧИСЛО((ПОИСКПОЗ("*M*";AG2:AN2;0)))) 4. Далее сформируем столбец RS link с гиперссылками на сайт NCBI, чтобы быстро просматривать информацию о вариантах. Второй (G1 link) и третий (G2 link) столбцы сформируем с именами генов на GeneCards. Формула для rs записей выглядит так: =ГИПЕРССЫЛКА(СЦЕПИТЬ("
";BZ2);BZ2) А для генов так: =ГИПЕРССЫЛКА(СЦЕПИТЬ("
";Y2);Y2) =ГИПЕРССЫЛКА(СЦЕПИТЬ("
";Z2);Z2) Все нулевые и некорректные строки можно удалить. Будем исходить из того, что мы ищем неизвестное редкое наследственное нарушение. Для серьезных менделевских заболеваний высокая частота аллелей в популяции может исключать патогенность варианта. По этим критериям мы можем отсортировать варианты в столбце AF av. Прежде чем проводить детальный анализ можно провести «экспресс-тест». Суть его в проверке редких патогенных вариантов по клиническим источникам. Во-первых, проверим нет ли в столбце MUT записей с пометкой true. Если таких записей нет, то проверим, не описаны ли найденные варианты в Clinvar. Если в стобце CLNDISDB есть упоминание OMIM или Orphanet, то проверяем вариант по номеру записи в этих базах данных. Понятно, что считать «патогенный» вариант подозрительным можно в том случае, если описание в OMIM соответствует проявлениям нарушения. Особое внимание нужно обратить на раздел Molecular Genetics. Ключевые моменты: а) характерный тип наследования заболевания (рецессивный или доминантный); б) возраст, в котором у человека проявляются признаки; в) распространенность в популяции (регион, этническая группа); г) пенетрантность и степень повреждения гена для доминантного наследования; д) типы вариантов (SNP, повторы, крупные изменения), которые приводили к заболеванию. Если экспресс-метод не дал ясных результатов, можно переходить к более широкому анализу. Рассмотрим редкие варианты, которые связаны с потерей функции гена или сильно влияют на его функцию. Сначала проверяем ссылки на странице NCBI (RS link), а если там пусто - проверяем заболевания, ассоциированные с дефектами гена (по ссылкам G1 link и G2 link). Проверяем консервативность участка и оценку повреждений на основе моделей. Фильтруем варианты по панели генов. Можно использовать клинические панели генов или панели SNP, связанные с фенотипом. Панели генов, ассоциированных с эпилепсией, аутизмом, ДЦП и многими другими нарушениями, несложно найти на сайтах генетических лабораторий. Для фильтрации по панели можно воспользоваться расширенным автофильтром Excel. Перебираем «бедную породу». Проверяем, не осталось ли низкочастотных вариантов, с уровнем влияния на функцию гена MODERATE. Кроме того, многие варианты не были аннотированы по частоте аллеля. Также без аннотаций могут оказаться многие индели или смешанные варианты, которые ведут к потери функции гена, согласно оценке snpEff. Анализ предрасположенностей. Наконец, имеет смысл изучить распространенные варианты, с высокой частотой аллеля, но связанные с теми предрасположенностями и факторами риска, которые могли повлиять на развитие плода или ребенка в раннем возрасте. Проверяем распространенные варианты по базам Clinvar и GWAS.

Обработка результатов секвенирования для новичков. 3. Анализ аннотированных файлов в Excel

Смотрите также