Вебинар YTsaurus — SPYT (Apache Spark™ + YTsaurus)

В новом вебинаре разработчики Александр Токарев и Алексей Шишкин расскажут, как работать с модулем SPYT — фреймворком для распределенных вычислений Apache Spark™ внутри YTsaurus. Обсудим, как Apache Spark ™ интегрирован с платформой, когда следует его использовать, а также как можно поднять Standalone Spark кластер внутри YTsaurus и запускать на нём вычисления. Кроме того, мы разберем решение аналитических задач над данными, хранящимися в различных типах таблиц YTsaurus с использованием SPYT. 00:00 — Введение 01:00 — Место SPYT в экосистеме YTsaurus 02:35 — Когда стоит использовать SPYT 05:08 — Standalone Spark кластер внутри YTsaurus 08:14 — Про форк Spark в SPYT и основные модули SPYT 13:17 — Установка SPYT на кластер с использованием Kubernetes 13:49 — Запускаем Standalone-кластер 24:15 — Компиляция и запуск приложения под Spark на Scala в кластерном режиме 28:38 — Работа со Spark в интерактивном режиме с использованием Jupyter 31:08 — Запись данных в статические таблицы 32:51 — Использование транзакций при записи в таблицы 33:50 — Запись данных в динамические таблицы 35:11 — Чтение из таблиц под транзакций 36:00 — Завершение работы и остановка сессии 36:26 — Использование Query Tracker для выполнения Spark SQL-запросов 38:07 — Использование spark-shell для выполнения запросов 39:47 — Запуск Python-скриптов с использованием spark-submit 41:33 — Останавливаем кластер 42:34 — Немного про планы на дальнейшее развитие SPYT 43:57 — Заключение

Смотрите также