Хранилище данных: от основ до Big Data

Подробный и структурированный обзор различных методов хранения данных: от классических реляционных и колоночных баз до современных распределённых систем и дата-лейков. Павел Силаенков, ML Engineer компании Mad Devs, объясняет, как устроены эти хранилища, в чем их плюсы и минусы, для каких задач они подходят и как выбираются в зависимости от структуры и объёма данных. Особое внимание в ходе выступления уделяется технологиям Big Data — таким как Hadoop, Spark и Kafka, — а также вопросам масштабирования, репликации и шардирования баз данных. Рассматриваются примеры практического применения хранилищ в бизнесе, машинном обучении и аналитике, обсуждаются вызовы, связанные с обработкой больших и разнородных массивов информации. Видео будет полезно дата-инженерам, специалистам по хранению и обработке данных, аналитикам и всем, кто интересуется современными инструментами работы с большими данными. ВНИМАНИЕ❗️ Запись начинается не с самого начала мероприятия. Часть вступления или начальной дискуссии может отсутствовать. ------------------------------------------------------------------------------- ТАЙМ-КОДЫ 0:00 - 0:56 Введение и цели доклада 0:56 - 2:00 Обзор темы и структура выступления 2:00 - 3:37 Схемы реляционных баз данных (звезда и снежинка) 3:37 - 7:02 Нормальные формы и уровни нормализации 7:02 - 9:14 Дата-лейк: принцип, плюсы и индустриальные кейсы 9:14 - 11:23 Классические реляционные базы данных (PostgreSQL, MySQL) 11:23 - 14:30 Колоночные базы: ClickHouse, Redshift, BigQuery 14:30 - 16:47 NoSQL-базы: MongoDB, Key-Value, JSON-хранилища 16:47 - 19:46 Специализированные базы: Kafka и Prometheus 19:46 - 24:23 Методы распределения: шардирование и репликация 24:23 - 27:39 Hadoop vs Spark: эволюция обработки Big Data 27:39 - 28:38 Применение реляционных БД в индустрии 28:38 - 29:39 Колоночные хранилища в высоконагруженных системах 29:39 - 30:38 Дата-лейк как единая аналитическая экосистема 30:38 - 32:26 Нормальные формы и оптимизация SQL-запросов 32:26 - 33:41 Дельта-лейк: версионирование и работа с историчностью данных 33:41 - 36:33 Что считать Big Data: разнообразие и источники 36:33 - 39:31 Практика использования Big Data в проектах 39:31 - 43:25 Роль даталейка в ETL и автоматике 43:25 - 44:09 Требования к данным для обучения моделей 44:09 - 50:29 ML-интеграция в ClickHouse, BigQuery, Spark 50:29 - 51:10 Завершение доклада ------------------------------------------------------------------------------- ССЫЛКИ 🔗 Telegram [Mad ML Talks] -
Telegram [Mad Devs Channel] -
​ Facebook -   / maddevsllc   Instagram -   / maddevsio   X [ex.Twitter] -
#datawarehouse #bigdata #ml #machinelearning

Смотрите также