pg_duckdb: Аналитика Postgres стала еще быстрее с DuckDB

Аналитика Postgres в 10 раз быстрее всего с одним расширением?! 🤯 В августе мы анонсировали pg_duckdb, расширение PostgreSQL, которое интегрирует аналитический движок DuckDB непосредственно в Postgres. Это расширение с открытым исходным кодом, являющееся результатом совместного партнерства Hydra и MotherDuck. Два месяца спустя мы рады анонсировать его первый релиз и рассказать о множестве новых функций, включая возможность чтения и записи в объектных хранилищах Parquet и CSV, а также Apache Iceberg (в настоящее время только для чтения), а также возможность выполнять запросы из MotherDuck, не покидая Postgres. Примечание: Мы добавили наборы данных TPC-DS в PostgreSQL без индексов по двум основным причинам: 1. В настоящее время pg_duckdb не поддерживает индексы, что делает прямое сравнение невозможным. Устранение этого ограничения является для нас приоритетной задачей (см. проблему GH:
2. Хотя индексы широко распространены в реальных сценариях использования PostgreSQL, их оптимизация для конкретных аналитических запросов может быть сложной и привести к дополнительным накладным расходам. Учитывая это, мы считаем целесообразным оценить производительность запросов без индексов. ☁️🦆 Начните использовать DuckDB в облаке БЕСПЛАТНО с MotherDuck:
📓 Ресурсы Репозиторий pg_duckdb на Github:
Анонс в блоге:
➡️ Подписывайтесь на нас LinkedIn:   / motherduck   X/Twitter:   / motherduck   Блог:
0:00 Введение 1:33 Экосистема расширений Postgres 2:35 Начало работы с pg_duckdb 6:20 Запрос к озеру данных / озерному дому 8:54 Масштабирование в облако с MotherDuck 13:37 Движение вперёд PostgreSQL отлично подходит для транзакционных рабочих нагрузок, но часто сталкивается с проблемой производительности при выполнении аналитических запросов. В этом видео представлен pg_duckdb, мощное расширение PostgreSQL, которое встраивает высокопроизводительный аналитический движок DuckDB непосредственно в вашу базу данных. Узнайте, как использовать эту базу данных OLAP с открытым исходным кодом для выполнения сложной аналитики существующих данных PostgreSQL, значительно повышая производительность без миграции данных. Мы покажем вам, как вывести аналитику PostgreSQL на новый уровень и ответить на вопросы, которые вы считали слишком медленными. Следуйте нашему практическому руководству, чтобы начать работу с pg_duckdb с Docker, и станьте свидетелем того, как тестовый запрос будет выполнен более чем в 500 раз быстрее. Это невероятное ускорение достигается благодаря использованию столбчатого движка DuckDB для стандартных строковых таблиц PostgreSQL. Мы также покажем, как использовать богатую экосистему расширений DuckDB для запросов к внешним озёрам данных, читая файлы Parquet и Apache Iceberg непосредственно из вашего клиента PSQL. Это превращает ваш экземпляр Postgres в универсальный аналитический центр, сокращая разрыв между транзакционной базой данных и озером данных. Когда ваши аналитические потребности перерастают возможности одного экземпляра, выполнение больших запросов может нагрузить вашу производственную базу данных. Именно здесь на помощь приходит MotherDuck, бессерверное хранилище данных, построенное на DuckDB. Узнайте, как настроить расширение pg_duckdb для прямого подключения вашего клиента Postgres к MotherDuck. Это позволяет перенести тяжелую аналитическую нагрузку на масштабируемые облачные вычисления, сохраняя производительность вашего производственного экземпляра и одновременно открывая доступ к мощной бессерверной аналитике, не покидая привычную среду PostgreSQL. В заключение мы рассмотрим расширенные рабочие процессы для бесперебойного перемещения данных между PostgreSQL и MotherDuck. Узнайте, как выполнять запросы к общим наборам данных MotherDuck, переносить большие таблицы Postgres в облако для анализа или извлекать аналитические результаты из MotherDuck для их материализации в локальной таблице Postgres для операционных приложений. Эта мощная интеграция упрощает ваши конвейеры данных, предоставляя вам всю мощь DuckDB и MotherDuck непосредственно в Postgres.

Смотрите также