Сайт использует сервис веб-аналитики Яндекс Метрика с помощью технологии «cookie». Пользуясь сайтом, вы даете согласие на использование данной технологии.
Как построить SCD2 на реальных данных в PostgreSQL с Airflow. Разбор реальной задачи дата-инженера.
Ты освоил SQL, немного ETL и уже представляешь, как работают пайплайны? Пора познакомиться с одной из базовых, но важных задач в жизни дата-инженера — реализация Slowly Changing Dimension Type 2 (SCD2). В этом видео я объясняю: • Что такое медленно изменяющиеся измерения (Slowly Changing Dimensions) • Почему SCD2 важна для аналитики и отчётности • Как технически реализовать SCD2: даты, флаги, версионность • Что учитывать при работе с SCD2 в реальных проектах • Как реализовать SCD2 на SQL 📌 Основная идея: SCD2 — это не просто техника, это способ сохранить историю изменений и повысить доверие к данным. Каждый дата-инженер должен понимать, как её правильно реализовывать и адаптировать под нужды бизнеса. 💼 Хочешь ускорить рост в карьере? Я предлагаю менторство по дата-инженерии и IT-консультации: • Менторство: • Консультации: 📚 Упомянутые видео: • Зачем нужны pet-проекты?: • Зачем нужны pet-проекты? • Лучший пет-проект для дата-инженера (The best pet-project for a data-engineer): • Лучший пет-проект для дата-инженера (The b... 🔔 Подпишись на канал, если хочешь разбираться в реальных задачах дата-инженеров, а не только в теории. Делитесь в комментариях, приходилось ли вам реализовывать SCD2 — и с какими трудностями вы столкнулись. Ссылки: • Менторство/консультации по IT – • TG канал – • Instagram – / i__korsakov • Habr – • Git-репозиторий из видео – Тайминги: 00:00 – Начало 00:10 – Основная проблематика аналитики 01:28 – Что такое SCD 03:50 — SCD2 (стандарт) 05:47 – Создание репозитория 06:24 – Клонирование репозитория 06:44 – Настройка git–окружения для репозитория 07:52 – Настройка проекта 08:32 – Объяснение инфраструктуры проекта 10:00 – Запуск инфраструктуры 11:03 – Добавление примеров данных 11:21 – Демо примера SCD2 и его возможностей 14:33 – Реализация SCD2 с нуля 15:07 – Создание схем и моделей 18:05 – Наполнение raw данными 18:45 – Подключение виртуального окружения (интерпретатора) в PyCharm 21:40 – Исследование raw данных 25:10 – Создание ods данных 27:45 – Исследование ods данных 29:47 – Наполнение dds данными (построение SCD2) 32:30 – Исследование dds данных (SCD2) 35:48 – Резюме и возможные моменты для улучшения проекта #SCD2 #SlowlyChangingDimension #dataengineering #датаинженер #ETL #SQL #профессиядатаинженер #карьеравIT #хранилищеданных #datawarehouse #менторствоIT #аналитикаданных #историяизменений #ITкарьера #airflow #bigdata #инженерданных #проектдлядатаинженера #типовыезадачиIT