Сайт использует сервис веб-аналитики Яндекс Метрика с помощью технологии «cookie». Пользуясь сайтом, вы даете согласие на использование данной технологии.
Владимир Верстов — Как мы разрабатываем DMP для Такси, Еды и Лавки
Подробнее о конференции SmartData: — — Команда Яндекс.Go разрабатывает платформу управления данными, Data Management Platform, DMP, как сервис для оффлайн и near real-time обработки данных в Такси, Еде и Лавке. Владимир расскажет про мотивацию, которая нужна для разработки собственного ETL-инструмента, про превращение ETL и DWH в DMP. Спикер поделится тем, какие проблемы возникают в процессе разработки DMP и расскажет про опыт их решения. На данный момент под управлением Яндекса: — более тысячи процессов трансформации данных, которые запускаются сотни тысяч раз в день; — Data Lake на YT (in-house аналог Hadoop) размером более 1ПБ с ежемесячным инкрементом по 100ТБ; — Data Warehouse на Greenplum с эффективным пространством в 0.5ПБ; — Tableau, OLAP-кубы в MS SSAS и аналитические инструменты для JupyterHub. Пользователи платформы: 4 команды дата-инженеров, несколько команд аналитиков данных и бэкенд-разработчиков. Они готовят данные для аналитики, управленческой и оперативной отчетности, ML и использования в рантайме приложений. Структура доклада будет следующая: — немного контекста — хранилище, стек и паттерн работы; — ETL-фреймворк (почему не условный Airflow, а своя реализация), его внутренности и особенности; — жизнь дата-инженера, аналитика и бэкенд-разработчика на платформе Яндекса; — внутреннее устройство отдельных инструментов и частей платформы.