9. AWS Glue — ПРАКТИЧЕСКОЕ ПРИМЕНЕНИЕ: API Glue — загрузка таблицы MySQL из файлов S3

Это второй том курса по инжинирингу данных. В этом курсе я расскажу о технологиях обработки данных с открытым исходным кодом — Spark и Kafka, которые являются наиболее используемыми и популярными фреймворками для пакетной и потоковой обработки данных. В этом курсе вы изучите Spark с уровня 100 по уровень 400, используя практические примеры и реальные проекты. Я также познакомлю вас с Data Lake на AWS (S3) и Data Lakehouse на базе Apache Iceberg. Я буду использовать AWS в качестве платформы хостинга и расскажу о сервисах AWS — EMR, S3, Glue и MSK. Я также покажу вам интеграцию Spark с другими сервисами, такими как AWS RDS (MySQL или PostgreSQL), Redshift и DynamoDB. У вас будет возможность выполнить практические задания с большими наборами данных (100–300 ГБ и более). Этот курс предоставит вам практические упражнения, соответствующие сценариям реального времени, таким как пакетная обработка Spark, потоковая обработка, настройка производительности, потоковая передача данных, оконные функции, транзакции ACID в Iceberg и т. д. Другие важные моменты: 15 проектов с различными наборами данных. Общий размер набора данных — 250 ГБ и более. Другие рассматриваемые технологии: EC2, EBS, VPC и IAM. Дополнительные видео по Python Дополнительные видео по основам AWS и SQL

9. AWS Glue — ПРАКТИЧЕСКОЕ ПРИМЕНЕНИЕ: API Glue — загрузка таблицы MySQL из файлов S3

Смотрите также