Лучший пет-проект для дата-инженера (The best pet-project for a data-engineer)

В этом видео я покажу лучший пет-проект для дата-инженера, который можно добавить в свой опыт. Вместе мы создадим полноценную инфраструктуру: Apache Airflow, PostgreSQL, MinIO (S3), Metabase и Docker. Покажу, как организовать пайплайны, DAG'и, витрины, использовать git и best practices для data engineering проектов. 📌 Что вы узнаете: • Как устроена типовая задача дата-инженера • Как создать рабочую инфраструктуру под pet project • Как управлять зависимостями и конфигурацией • Как создать витрины данных и визуализации • Как применять подходы Data Governance 📂 Полный проект на GitHub:
👨‍💻 Подходит для начального уровня, junior и middle дата-инженеров, ищущих реальный опыт и сильное портфолио. 🔔 Подписывайтесь и ставьте лайк, если хотите больше практических видео! Ссылки: Менторство/консультации по IT –
TG канал –
Instagram –   / i__korsakov   Habr –
Тайм-коды: 00:00 Начало 04:46 Непосредственно к ролику (описание проекта) 05:44 Типовая задача дата-инженера 08:38 Создание проекта в GitHub 09:37 Клонирование проекта 10:31 Изменение git-конфига 11:30 Создание виртуального окружения 13:48 Правила формирования коммитов в проекте 15:13 Создание инфраструктуры проекта (аирфлоу/AirFlow) 16:14 Создание инфраструктуры проекта (постгрес/PostgreSQL) 17:22 Создание инфраструктуры проекта (минио/Minio S3) 17:48 Рекомендации про работу с версиями 17:22 Создание инфраструктуры проекта (метабазе/Metabase) 22:00 Настройка минио/Minio S3 (создание бакета, ключей и пр) 23:48 Первый взгляд на аирфлоу/AirFlow 25:13 Первый DAG 25:20 Как именовать DAG 26:30 Добавление пакетов в виртуальное окружение 30:35 Объяснение логики DAG 33:25 Объяснение контекста DAG 40:25 Добавление python-пакета в сборку 41:22 Как работать с зависимостями в проекте 42:58 Добавление Variables в аирфлоу/AirFlow 44:10 Первый запуск DAG 45:20 Объяснение идемпотентности 47:05 Зависимости dag между собой в аирфлоу/AirFlow 47:25 Создание второго DAG 51:33 Создание схем и таблицы в постгрес/PostgreSQL 53:26 Объяснение типизации в постгрес/PostgreSQL (двх/dwh) 54:20 Первый запуск второго DAG 54:25 Просмотр зависимостей DAG 55:17 Просмотр данных в постгрес/PostgreSQL 56:00 Объяснение, что такое витрина 57:35 Создание первой витрины 01:01:53 Создание второй витрины 01:04:02 Создание подключение к постгрес/PostgreSQL в аирфлоу/AirFlow 01:04:50 Объяснение подключений в аирфлоу/AirFlow 01:05:50 Первый запуск первой витрины 01:06:05 Создание таблицы для первой витрины 01:08:05 Просмотр идемпотентности для первой витрины 01:08:47 Первый запуск второй витрины 01:09:00 Просмотр зависимостей DAG в проекте 01:09:52 Создание таблицы для второй витрины 01:11:28 Создание визуализаций в метабазе/Metabase 01:16:10 Пояснение наших этапов, что мы сделали в этом проекте 01:16:25 Разбор проекта в разрезе Data Governance 01:17:38 1. Data Architecture 01:17:44 2. Data Modeling & Design 01:18:18 3. Data Storage & Operations 01:19:34 4. Data Security 01:20:03 5. Data Integration & Interoperability 01:20:26 6. Documents & Content 01:20:41 7. Reference & Master Data 01:22:18 8. Data Warehousing & Business Intelligence 01:24:55 9. Meta-data 01:25:31 10. Data Quality 01:28:20 Прощание #dataengineer #petproject #airflow #postgresql #minio #metabase #dwh #python #dataengineering #etl #docker #portfolio #датаинженер

Смотрите также