Учебный курс по Greenplum
Greenplum – open-source продукт, массивно-параллельная реляционная СУБД для хранилищ данных с гибкой горизонтальной масштабируемостью и столбцовым хранением данных на основе PostgreSQL. Благодаря своим архитектурным особенностям и мощному оптимизатору запросов, Гринплам отличается особой надежностью и высокой скоростью обработки SQL-запросов над большими объемами данных, поэтому эта MPP-СУБД широко применяется для аналитики Big Data в промышленных масштабах.
- Построение DWH на основе Greenplum
- Greenplum DB в Тинькофф
- Архитектура Greenplum
- Лучшие практики касательно Greenplum
- Зеркалирование и отказоустойчивость Greenplum
- Запуск и остановка Greenplum
- Рекомендуемые задачи по поддержке и мониторингу системы
- GreenPlum. Обзорная информация
СУБД Greenplum представляет собой несколько взаимосвязанных экземпляров базы данных PostgreSQL, объединенных в кластер по принципу массивно-параллельной архитектуры (Massive Parallel Processing, MPP) без разделения ресурсов (Shared Nothing). При этом каждый узел кластера, взаимодействующий с другими для выполнения вычислительных операций, имеет собственную память, операционную систему и жесткие диски.
Благодаря надежности, масштабируемости и высокой скорости обработки данных, наиболее востребованными сценариями применения Гринплам в Big Data считаются следующие:
- системы предиктивной аналитики и регулярной отчетности по большим объемам данных;
- построение озер (Data Lake) и корпоративных хранилищ данных (КХД);
- разработка аналитических моделей по множеству разнообразных данных, например, для прогнозирования оттока клиентов (Churn Rate).
Если вам необходимо использовать версию Greenplum с технической поддержкой на территории России - предлагаем приобрести сборку Arenadata
Arenadata DB (ADB) — аналитическая, распределённая СУБД с открытым исходным кодом, использующая концепцию MPP (massively parallel processing), построенная на базе СУБД Greenplum.
Она реализована на кластере из множества серверов и предназначена для хранения и обработки больших объёмов данных — до десятков петабайт.
На курсе я поделюсь знаниями в области хранилищ данных, которые собирал на протяжении 10 лет. Мы разберём основы устройства DWH и углубимся в GreenPlum — поломаем и починим его. Поговорим об архитектуре и способах хранения данных, оптимизации запросов.
После курса вы сможете:
- устанавливать и конфигурировать GreenPlum;
- разбираться в архитектуре хранения данных и доказывать свою точку зрения об эффективности их хранения коллегам;
- анализировать и оптимизировать сложные аналитические запросы, выбирая оптимальный план выполнения;
- создавать и восстанавливать резервные копии, расширять кластер GreenPlum.
Курс будет особенно полезен администраторам БД и Linux-систем, архитекторам систем, дата-инженерам, а также разработчикам и аналитикам, которые хотят работать с DWH.
Блок 1. Знакомство с GreenPlum
Лекция 0. Знакомство
Лекция 1. Что такое DWH
Лекция 2. Знакомство с GreenPlum
Практика. Подготовка к установке GreenPlum
Практика. Установка GreenPlum
Самостоятельное задание
Самостоятельное задание
Лекция 3. Знакомство с каталогом данных GreenPlum
Практика. Знакомство с каталогом данных GreenPlum
Самостоятельное задание
Лекция 4. Конфигурирование GreenPlum
Практика. Конфигурирование GreenPlum
Самостоятельное задание
Лекция 5. Настройка ресурсных групп в GreenPlum
Практика. Управление ресурсными группами в GreenPlum
Самостоятельное задание
Блок 2. Особенности хранения данных в GreenPlum
Лекция 6. Хранение данных в GreenPlum
Практика. Создание таблиц
Практика. Сравнение степени сжатия
Самостоятельное задание
Практикум
Лекция 7. Запросы
Практика. Оптимизация запросов
Самостоятельное задание
Лекция 8. Планы запросов
Практика. План запроса
Самостоятельное задание
Лекция 9. Индексы
Практика. Индексы
Самостоятельное задание
Практикум
Блок 3. Администрирование GreenPlum
Лекция 10. Отказоустойчивость
Практика. Настрока отказоустойчивости
Практика. Возврат сегментов в работу
Самостоятельное задание
Лекция 11. Импорт и экспорт данных
Практика. Настройка экспорта и импорта данных
Самостоятельное задание
Лекция 12. Резервное копирование и восстановление
Практика. Резервное копирование и восстановление
Самостоятельное задание
Лекция 13. Мониторинг
Блок 4. Настройка окружения GreenPlum
Лекция 14. Настройка пула соединения с GreenPlum
Практика. Настройка пула соединения с GreenPlum
Самостоятельное задание
Лекция 15. Обзор расширения GreenPlum
Практика. Использования расширения GreenPlum
Самостоятельное задание
Итоговый тест