Учебный курс по Greenplum
Greenplum – open-source продукт, массивно-параллельная реляционная СУБД для хранилищ данных с гибкой горизонтальной масштабируемостью и столбцовым хранением данных на основе PostgreSQL. Благодаря своим архитектурным особенностям и мощному оптимизатору запросов, Гринплам отличается особой надежностью и высокой скоростью обработки SQL-запросов над большими объемами данных, поэтому эта MPP-СУБД широко применяется для аналитики Big Data в промышленных масштабах.
- Как устроена Greenplum?
- Построение DWH на основе Greenplum
- Greenplum DB в Тинькофф
- Архитектура Greenplum
- Лучшие практики касательно Greenplum
- Зеркалирование и отказоустойчивость Greenplum
- Запуск и остановка Greenplum
- Рекомендуемые задачи по поддержке и мониторингу системы
- GreenPlum. Обзорная информация
- Оптимизация хранения данных в Greenplum
- Как получить информацию о структуре БД для документации
- «Ящик Пандоры», или из чего состоит планировщик запросов СУБД Greenplum
- 5 стадий принятия необходимости изучения «плана запроса» или почему может долго выполняться запрос
- Повышаем BI производительность Greenplum с помощью Heimdall Data
- Хотите узнать о Greenplum подробнее?
- Greenplum от Vmware – это векторная база, отлично подходящая для аналитики Ваших данных
- Потоковая CDC репликации данных из любой БД в Greenplum с помощью RabbitMQ и Debezium
- От MySQL к Greenplum: уроки и выводы, сделанные в процессе миграции от одной БД к другой
- Создание эффективного поиска на основе ИИ в Greenplum с помощью pgvector и OpenAI
- Анализ Big Data с помощью SQL и Python
- Как ускорить процесс аналитики данных с помощью Greenplum и dbt
- Масштабируем ML и NLP в БД с помощью PL/Python
- 4+1 вопроса, которыми должен задаться каждый Data-Engineer при управлении таблицами в Greenplum
- Управление таблицами в Greenplum: хранилище данных, ориентированное на строки vs столбцы
- Поговорим об операторах JOIN
- Кому подойдет СУБД Greenplum? Чем Greenplum отличается от Clickhouse
Автор блока статей ниже: Николай Комиссаренко, Bigdata school
- Greenplum - обзор
- 3 совета администратору Greenplum: лучшие практики настройки кластера
- 3 технологии высокой доступности Greenplum для администратора Big Data кластера
- Greenplum vs PostgreSQL: 7 сходств и 3 отличия
- Помнить все: 10 практик устранения нехватки памяти в Greenplum и 2 схемы управления ресурсами кластера
- От простой вставки до внешних таблиц: как загрузить Big Data в Greenplum
- Как читать планы SQL-запросов в Greenplum: советы аналитику и дата-инженеру
- Зелено — не молодо: как устроена MPP-СУБД Greenplum
- Как построить OLAP-конвейер в реальном времени на Greenplum и Apache NiFi: разбор интеграционного коннектора для приема больших данных
- Еще пара лучших практик конфигурирования Greenplum: настраиваем параметры операционной системы хоста
- Анализируй и оптимизируй: статистика таблиц и планы выполнения SQL-запросов в Greenplum
- Как ускорить Greenplum: настраиваем память хостов и сегментов
- Читаем планы SQL-запросов Greenplum на практическом примере и разбираемся с операциями
- Партиционирование таблиц в Greenplum: 10 лучших практик и особенности распределения по сегментам
- Индексируем и сжимаем: особенности хранения и аналитики Big Data в Greenplum
- Как хранить большие данных в Greenplum: ТОП-15 рекомендаций
- 3 аспекта проектирования схем данных в Greenplum
- Разделение и распределение данных в Greenplum: лучшие практики
- Шардирование в Greenplum
- Индексация таблиц в Greenplum
- Новые методы доступа к таблицам в Greenplum 7
- Еще больше больших данных: масштабирование кластера Greenplum
- Обработка геоданных в Greenplum с PostGIS
- Распределенные транзакции в Greenplum
- Распределенные снапсшоты в Greenplum для производительности и надежности
- Хранимые процедуры и триггеры в Greenplum
- Python для Greenplum: обработка миллионов строк внутри БД с новой библиотекой
- Хранение и обработка JSON-документов в Greenplum
- Где развернуть Greenplum: программно-аппаратное окружение серверов и достоинства Arenadata DB для администратора кластера
- Greenplum под защитой: настраиваем Kerberos
- Как устроен PXF Greenplum: архитектура и принципы работы
- ADB-Spark Connector: интеграция Spark и Greenplum от Аренадата
- Платформа аналитики больших данных Леруа Мерлен: потоковый CDC с Apache Kafka, NiFi, AirFlow и Flink в DWH на Greenplum
- Arenadata Postgres: краткий обзор отечественного enterprise-дистрибутива
- Кейс потоковой аналитики больших данных с Apache Kafka, Spark (Flink) и BI-системами
- Обзор последних версий Greenplum (6.22.2, 6.22.1, 6.21.1)
СУБД Greenplum представляет собой несколько взаимосвязанных экземпляров базы данных PostgreSQL, объединенных в кластер по принципу массивно-параллельной архитектуры (Massive Parallel Processing, MPP) без разделения ресурсов (Shared Nothing). При этом каждый узел кластера, взаимодействующий с другими для выполнения вычислительных операций, имеет собственную память, операционную систему и жесткие диски.
Благодаря надежности, масштабируемости и высокой скорости обработки данных, наиболее востребованными сценариями применения Гринплам в Big Data считаются следующие:
- системы предиктивной аналитики и регулярной отчетности по большим объемам данных;
- построение озер (Data Lake) и корпоративных хранилищ данных (КХД);
- разработка аналитических моделей по множеству разнообразных данных, например, для прогнозирования оттока клиентов (Churn Rate).
Если вам необходимо использовать версию Greenplum с технической поддержкой на территории России - предлагаем приобрести сборку Arenadata
Arenadata DB (ADB) — аналитическая, распределённая СУБД с открытым исходным кодом, использующая концепцию MPP (massively parallel processing), построенная на базе СУБД Greenplum.
Она реализована на кластере из множества серверов и предназначена для хранения и обработки больших объёмов данных — до десятков петабайт.
На курсе я поделюсь знаниями в области хранилищ данных, которые собирал на протяжении 10 лет. Мы разберём основы устройства DWH и углубимся в GreenPlum — поломаем и починим его. Поговорим об архитектуре и способах хранения данных, оптимизации запросов.
После курса вы сможете:
- устанавливать и конфигурировать GreenPlum;
- разбираться в архитектуре хранения данных и доказывать свою точку зрения об эффективности их хранения коллегам;
- анализировать и оптимизировать сложные аналитические запросы, выбирая оптимальный план выполнения;
- создавать и восстанавливать резервные копии, расширять кластер GreenPlum.
Курс будет особенно полезен администраторам БД и Linux-систем, архитекторам систем, дата-инженерам, а также разработчикам и аналитикам, которые хотят работать с DWH.
Блок 1. Знакомство с GreenPlum
Лекция 0. Знакомство
Лекция 1. Что такое DWH
Лекция 2. Знакомство с GreenPlum
Практика. Подготовка к установке GreenPlum
Практика. Установка GreenPlum
Самостоятельное задание
Самостоятельное задание
Лекция 3. Знакомство с каталогом данных GreenPlum
Практика. Знакомство с каталогом данных GreenPlum
Самостоятельное задание
Лекция 4. Конфигурирование GreenPlum
Практика. Конфигурирование GreenPlum
Самостоятельное задание
Лекция 5. Настройка ресурсных групп в GreenPlum
Практика. Управление ресурсными группами в GreenPlum
Самостоятельное задание
Блок 2. Особенности хранения данных в GreenPlum
Лекция 6. Хранение данных в GreenPlum
Практика. Создание таблиц
Практика. Сравнение степени сжатия
Самостоятельное задание
Практикум
Лекция 7. Запросы
Практика. Оптимизация запросов
Самостоятельное задание
Лекция 8. Планы запросов
Практика. План запроса
Самостоятельное задание
Лекция 9. Индексы
Практика. Индексы
Самостоятельное задание
Практикум
Блок 3. Администрирование GreenPlum
Лекция 10. Отказоустойчивость
Практика. Настрока отказоустойчивости
Практика. Возврат сегментов в работу
Самостоятельное задание
Лекция 11. Импорт и экспорт данных
Практика. Настройка экспорта и импорта данных
Самостоятельное задание
Лекция 12. Резервное копирование и восстановление
Практика. Резервное копирование и восстановление
Самостоятельное задание
Лекция 13. Мониторинг
Блок 4. Настройка окружения GreenPlum
Лекция 14. Настройка пула соединения с GreenPlum
Практика. Настройка пула соединения с GreenPlum
Самостоятельное задание
Лекция 15. Обзор расширения GreenPlum
Практика. Использования расширения GreenPlum
Самостоятельное задание
Итоговый тест