Паша Финкельштейн — Магия Spark: Как высокоуровневые конвейеры становятся распределенным хардкором

Ближайшая конференция — Joker 2024, 9 октября (Online), 15–16 октября (Санкт-Петербург + трансляция). Подробности и билеты:
— — Spark — самый популярный инструмент для построения конвейеров данных. Каждый дата-инженер знает Spark, бла-бла-бла... Отлично, но Spark всего лишь распределенные Java Streams, так? Но тогда, как это работает? Получается, что нельзя просто вызвать «flatMap» или «groupBy» на удаленную машину. Вступает Codegen! Заинтересовались? Приходите и узнайте больше! Посмотреть презентацию:

Смотрите также