Горячее/Тёплое/Холодное хранение: сравниваем сжатие Snappy, ZSTD, GZIP и LZ4 для Data Lake 2025

🔥 Хочешь понять, как правильно хранить и сжимать данные в Data Lake? В этом видео разберём, чем отличаются горячие, тёплые и холодные данные, и протестируем самые популярные форматы компрессии: Snappy, ZSTD, GZIP и LZ4. Ты увидишь реальный бенчмарк, сравнение объёмов и затрат, а также получишь рекомендации — как экономить на хранении в S3 и не терять производительность! Ссылки: Менторство/консультации по IT –
TG канал –
Instagram –   / i__korsakov   Habr –
🔍 Что в ролике: 🔥 Жизненный цикл данных: зачем делить на горячие, тёплые и холодные 🛠️ Генерация тестовых данных и запуск бенчмарка 💡 Сравнение компрессии: Snappy, ZSTD, GZIP, LZ4 — объём, скорость, ресурсы 🚀 Как выбрать формат под свои задачи: рекомендации для Data Lake и S3 ⚙️ Баланс между экономией места и затратами на CPU/RAM 📊 Почему максимальное сжатие не всегда выгодно ✅ Лучшие практики для хранения больших данных 🗂️ GitHub репозиторий с кодом:
📚 Мои статьи на Habr по теме: • Инфраструктура для Data-Engineer: форматы файлов —
• Всё о DuckDB —
✉️ Нужна консультация или обучение? Пиши:
💡 В конце ролика — рекомендации по выбору компрессии и оптимизации хранения! Таймкоды: 00:00 – Начало 00:10 – Жизненный цикл данных 04:25 – Генерация данных 06:08 – Проводим тестирование алгоритмов сжатия 16:05 – Рекомендации #dataengineering #datalake #compression #snappy #zstd #gzip #lz4 #s3 #bigdata #benchmark #python #duckdb #parquet #storage #dataengineer

Смотрите также