Как построить SCD2 на реальных данных в PostgreSQL с Airflow. Разбор реальной задачи дата-инженера.

Ты освоил SQL, немного ETL и уже представляешь, как работают пайплайны? Пора познакомиться с одной из базовых, но важных задач в жизни дата-инженера — реализация Slowly Changing Dimension Type 2 (SCD2). В этом видео я объясняю: • Что такое медленно изменяющиеся измерения (Slowly Changing Dimensions) • Почему SCD2 важна для аналитики и отчётности • Как технически реализовать SCD2: даты, флаги, версионность • Что учитывать при работе с SCD2 в реальных проектах • Как реализовать SCD2 на SQL 📌 Основная идея: SCD2 — это не просто техника, это способ сохранить историю изменений и повысить доверие к данным. Каждый дата-инженер должен понимать, как её правильно реализовывать и адаптировать под нужды бизнеса. 💼 Хочешь ускорить рост в карьере? Я предлагаю менторство по дата-инженерии и IT-консультации: • Менторство:
• Консультации:
📚 Упомянутые видео: • Зачем нужны pet-проекты?:    • Зачем нужны pet-проекты?   • Лучший пет-проект для дата-инженера (The best pet-project for a data-engineer):    • Лучший пет-проект для дата-инженера (The b...   🔔 Подпишись на канал, если хочешь разбираться в реальных задачах дата-инженеров, а не только в теории. Делитесь в комментариях, приходилось ли вам реализовывать SCD2 — и с какими трудностями вы столкнулись. Ссылки: • Менторство/консультации по IT –
• TG канал –
• Instagram –   / i__korsakov   • Habr –
• Git-репозиторий из видео –
Тайминги: 00:00 – Начало 00:10 – Основная проблематика аналитики 01:28 – Что такое SCD 03:50 — SCD2 (стандарт) 05:47 – Создание репозитория 06:24 – Клонирование репозитория 06:44 – Настройка git–окружения для репозитория 07:52 – Настройка проекта 08:32 – Объяснение инфраструктуры проекта 10:00 – Запуск инфраструктуры 11:03 – Добавление примеров данных 11:21 – Демо примера SCD2 и его возможностей 14:33 – Реализация SCD2 с нуля 15:07 – Создание схем и моделей 18:05 – Наполнение raw данными 18:45 – Подключение виртуального окружения (интерпретатора) в PyCharm 21:40 – Исследование raw данных 25:10 – Создание ods данных 27:45 – Исследование ods данных 29:47 – Наполнение dds данными (построение SCD2) 32:30 – Исследование dds данных (SCD2) 35:48 – Резюме и возможные моменты для улучшения проекта #SCD2 #SlowlyChangingDimension #dataengineering #датаинженер #ETL #SQL #профессиядатаинженер #карьеравIT #хранилищеданных #datawarehouse #менторствоIT #аналитикаданных #историяизменений #ITкарьера #airflow #bigdata #инженерданных #проектдлядатаинженера #типовыезадачиIT

Смотрите также