Data Lake в 2025 (modern data stack) | Iceberg, S3 Minio, Trino, Spark, PostgreSQL

🚀 В этом видео ты увидишь, как построить настоящий Data Lake с нуля и разберёшься, зачем дата-инженеру Iceberg, Trino, MinIO, Spark и PostgreSQL! Показываю всё на живом проекте: подключим аналитику, устроим хранение в S3, заведём метастор, научимся писать и читать данные через SQL и PySpark. Ссылки: Менторство/консультации по IT –
TG канал –
Instagram –   / i__korsakov   Habr –
GitHub проекта –
Инфраструктура для Data-Engineer Apache Iceberg –
🔻 Что тебя ждёт: • Что такое Data Lake и зачем он нужен в 2025 (простыми словами, на пальцах!) • Чем Data Lake отличается от классического DWH • Какие задачи решает связка Trino + Iceberg + S3 + Spark + PostgreSQL • Как выглядит инфраструктура современного дата-инженера (и как всё это быстро поднять у себя) • Как Trino читает данные из разных источников • Как создавать таблицы через SQL и видеть их в S3 • Как работает метастор на PostgreSQL и зачем он нужен • Как наполнять Data Lake внешними данными через Apache Spark • Практика: запросы, схемы, создание таблиц, чтение через Spark и Trino • Советы и лайфхаки по работе с Data Lake Таймкоды: 00:00 – Начало 00:23 – Что такое Data Lake 02:17 – Разбор инфраструктуры 04:51 – Настраиваем подключение к Data Lake 05:51 – Настраиваем подключение к OLTP 08:29 – Первая запись в Data Lake Iceberg через Trino 13:29 – Запись данных в Data Lake Iceberg Через Spark (PySpark) 16:43 – Чтение данных из Data Lake Iceberg через Trino 17:03 – Чтение данных из Data Lake Iceberg через Spark (PySpark) 17:22 – Итог #DataLake #Trino #Iceberg #S3 #MinIO #Spark #PostgreSQL #DataEngineering #BigData #ETL #SQL 🔥 Не забудь поставить лайк, подписаться на канал и включить колокольчик, чтобы не пропустить новые видео!

Смотрите также