Сайт использует сервис веб-аналитики Яндекс Метрика с помощью технологии «cookie». Пользуясь сайтом, вы даете согласие на использование данной технологии.
Горячее/Тёплое/Холодное хранение: сравниваем сжатие Snappy, ZSTD, GZIP и LZ4 для Data Lake 2025
🔥 Хочешь понять, как правильно хранить и сжимать данные в Data Lake? В этом видео разберём, чем отличаются горячие, тёплые и холодные данные, и протестируем самые популярные форматы компрессии: Snappy, ZSTD, GZIP и LZ4. Ты увидишь реальный бенчмарк, сравнение объёмов и затрат, а также получишь рекомендации — как экономить на хранении в S3 и не терять производительность! Ссылки: Менторство/консультации по IT – TG канал – Instagram – / i__korsakov Habr – 🔍 Что в ролике: 🔥 Жизненный цикл данных: зачем делить на горячие, тёплые и холодные 🛠️ Генерация тестовых данных и запуск бенчмарка 💡 Сравнение компрессии: Snappy, ZSTD, GZIP, LZ4 — объём, скорость, ресурсы 🚀 Как выбрать формат под свои задачи: рекомендации для Data Lake и S3 ⚙️ Баланс между экономией места и затратами на CPU/RAM 📊 Почему максимальное сжатие не всегда выгодно ✅ Лучшие практики для хранения больших данных 🗂️ GitHub репозиторий с кодом: 📚 Мои статьи на Habr по теме: • Инфраструктура для Data-Engineer: форматы файлов — • Всё о DuckDB — ✉️ Нужна консультация или обучение? Пиши: 💡 В конце ролика — рекомендации по выбору компрессии и оптимизации хранения! Таймкоды: 00:00 – Начало 00:10 – Жизненный цикл данных 04:25 – Генерация данных 06:08 – Проводим тестирование алгоритмов сжатия 16:05 – Рекомендации #dataengineering #datalake #compression #snappy #zstd #gzip #lz4 #s3 #bigdata #benchmark #python #duckdb #parquet #storage #dataengineer