Сайт использует сервис веб-аналитики Яндекс Метрика с помощью технологии «cookie». Пользуясь сайтом, вы даете согласие на использование данной технологии.
DATALEARN | DE - 101 | МОДУЛЬ 6-3 ЗНАКОМСТВО С AMAZON REDSHIFT
Мы начнем наше погружение в современный мир аналитических хранилищ данных с Amazon Redshift. Этот продует появился в 2012 году и породил целую индустрию облачных продуктов и решений. Сам по себе Redshift прост и удобен, и если вы в облаке AWS, то скорей всего вы будете использовать Amazon Redshift. Я использовал его много раз на различных проектав в Амазоне и за пределами, и он никогда не подводил. С развитием другой облачной DW, в последние годы, Redshift получил много новых фич, такие как ML, разделение storage&compute, и многое другое. Из видео вы узнаете: 📌 В чем заключается роль Инженера Данных 📌 В чем заключается роль BI инженера 📌 История Amazon Redshift 📌 S curve в технологическом прогрессе 📌 Решение по аналитики мобильного приложения на Amazon Redshift 📌 Решения миграции с Oracle DW на Amazon Redshift в Амазоне 📌 Дизайн таблиц и оптимизация производительности в Amazon Redshift 📌 Способы загрузки данных в Amazon Redshift (COPY, Bulk Insert, Row Insert) 📌 Работа с ETL или ELT для Amazon Redshift 📌 Утилиты для адмиинстрирования и мониторинга Amazon Redshift 📌 Встроенный ML для Amazon Redshift 📌 Про главный недостаток Amazon Redshift - колличество одновременных сессий 📌 Про Хранилище данных Амазон Алекса и трудности масштабирования 📌 Несколько примеров архитектуры из индустрии На лабораторной работе вам нужно будет: 📌 Создать свой кластер Amazon Redshift 📌 Настроить сетевой доступ к нему и подключиться SQL Client - DBeaver 📌 Сгенерировать данные утилитой TPC, той самой, которую используют для benchmarking все вендоры баз данных 📌 Загрузить данные с использование COPY и манифеста 📌 Оптимизировать таблицы и запросы с использование функционала Redshift - Distribution, Sort, Compression и Encoding Так же, вы легко можете запустить другую виртуальную мащину и установить на нее Tableau Server и/или ETL решение. Или вы можете подключить свои решения с локальной машины. Вы можете загрузить данные superstore и построить модель данных, как было в модуле 4. Возможности безграничны, все в ваших руках, и главное ничего нового! ========================================= В 6 модуле мы узнаем про аналитические и облачные хранилища данных которые используются в индустрии. Крупные компания Amazon, Microsoft, Airbnb, и многие другие из списка SP500 используют одну или сразу несколько решений для аналитических хранилищ данных - Amazon Redshift, Microsoft Synapse, Google BigQuery или Snowflake. Но кроме облачных хранилищ есть еще много on-premise Teradata, Greenplum, Vertica, Exasol и тп. Из модуля вы узнаете: 📌 Основы аналитических хранилищ данных 📌 MPP vs SMP 📌 Практика с Redshift, Snowflake и Azure Synapse 📌 Облачные ETL инструменты 📌 Обзор вакансий мирового рынка 📌 Обзор решений для операционной аналитики - Splunk, Azure Data Explorer и ElasticSearch 🔔 Подписывайтесь на канал "Datalearn" чтобы не пропустить остальные части и ставьте лайки! 📕 Записывайтесь и проходите курс Инженера Данных. ⚠️ КУРС БЕСПЛАТНЫЙ! 🔗 Записаться вы можете на нашем портале 👍🏻 Запись на курс даст вам возможность не только просматривать видео, но и получить доступ к закрытым материалам, а также возможность выполнять домашние задания и получить сертификат прохождения курса. 🔥Самые актуальные новости про аналитику в Telegram канале: