Биоинформатика: Как найти гены в геноме бактерии? Пишем алгоритм поиска генов с нуля на Python

🧬 ПРАКТИЧЕСКАЯ БИОИНФОРМАТИКА: ПОИСК ГЕНОВ В БАКТЕРИАЛЬНОМ ГЕНОМЕ В этой лекции мы с нуля напишем алгоритм поиска генов в геноме Escherichia coli, используя только Python и никаких готовых библиотек. Узнаем, почему найти ген - это не так просто, как кажется! 🎯 ЧТО ВЫ УЗНАЕТЕ: Как работать с данными NCBI и форматами FASTA/GFF Что такое открытые рамки считывания (ORF) и старт-кодоны Почему гены могут пересекаться и быть вложенными Как оценить качество предсказания генов (precision, recall) Философские вопросы биоинформатики: достаточно ли ДНК-последовательности? 💻 ПРАКТИЧЕСКАЯ ЧАСТЬ: Парсинг FASTA и GFF файлов на чистом Python Алгоритм поиска генов по старт- и стоп-кодонам Работа с Google Colab для биоинформатики Анализ ошибок и способы улучшения алгоритма 🔬 НАУЧНЫЕ КОНЦЕПЦИИ: Различия между геном и CDS Проблема аннотации геномов Альтернативные старт-кодоны Изоформы и эпигенетика Макроэволюция и видоспецифичность ⏰ ВРЕМЕННЫЕ МЕТКИ: 00:00 Введение и философия курса 02:15 Концепция "писать код, а не использовать готовые инструменты" 04:30 О преподавателе и истории аглаб 08:45 Знакомство со студентами 23:40 Переход к основной теме 24:20 Вчерашняя лекция по молекулярной биологии 28:35 Философский вопрос: что можно узнать из букв ДНК? 32:15 Постановка задачи: поиск генов в E.coli 35:20 Работа с NCBI 36:45 Поиск генома E.coli в базе данных 39:44 Скачивание FASTA файла 42:30 Парсинг FASTA с помощью ИИ 45:15 Поиск метионинов (первая ошибка - ATC вместо ATG) 50:30 Проблема реверс-комплемента 53:54 Анализ аннотации генома 56:25 Введение в GFF формат 1:02:15 Скачивание аннотации генома человека 1:07:04 Анализ распределения длин генов 1:12:30 Самый короткий и самый длинный гены 1:20:14 Различие между геном и CDS 1:25:35 Написание алгоритма поиска ORF 1:40:30 Проблема вложенных генов 1:46:29 Пересекающиеся гены в бактериях 1:55:52 Переход к геному человека 2:07:04 Размер аннотации человека vs бактерии 2:14:03 Изоформы и определение гена 2:20:17 Эпигенетика и информация "поверх букв" 2:26:57 Оценка качества предсказания 2:35:46 Проблема нумерации (0 vs 1) 2:43:30 Анализ ошибок алгоритма 2:51:46 Способы улучшения: GC-состав, промоторы, HMM 3:13:40 Философия биологии: исключения из правил 3:21:01 Домашнее задание и заключение 3:32:20 Вопросы о перерывах в парах 📚 МАТЕРИАЛЫ КУРСА: GitHub репозиторий:
Google Colab ноутбук:
Полная транскрипция лекции:
Домашнее задание и конспект:
🎓 О КУРСЕ: Это первая лекция курса практической биоинформатики, где мы изучаем не готовые инструменты, а пишем свои с нуля. Курс подходит для студентов биологических и технических специальностей. 👨‍🏫 ПРЕПОДАВАТЕЛЬ: Алексей Комиссаров - биоинформатик, исследователь геномики и эволюции 📌 ПОЛЕЗНЫЕ ССЫЛКИ: NCBI Genome Database:
Документация по GFF формату:
Введение в FASTA формат:
#биоинформатика #геномика #python #escherichia #гены #ДНК #программирование #наука #образование #colab

Смотрите также