Учебный курс по DWH
В рамках курса вы познакомитесь с основными понятиями и задачами, возникающими при создании хранилищ данных. Поймете, как цели влияют на выбор архитектуры и к каким последствиям может привести недостаточное внимание к компонентам. Составите представление о ролях и влиянии участников команды на результат.
В программе курса будут описаны практические подходы к проектированию и внедрению хранилищ данных и его компонент. Вы рассмотрите управление жизненным циклом, включая вывод из эксплуатации и миграцию на новые системы, затронете темы управления данными и построения сервисов на их основе.
В практической части слушатели разобьются на две команды: одна из команд проработает проект по миграции хранилища данных с учетом стратегических целей развития предприятия, а вторая оценит его с точки зрения возможностей, ресурсов и сроков.
1. Введение
- Понятие «хранилище данных». Его возможности и ограничения
- Зачем создается DWH, какую бизнес-задачу оно решает
- DWH как продукт: платформа, инструменты, масштабирование команды
- Что такое DWH и почему без них данные компании почти бесполезны
- Архитектура корпоративного хранилища данных
- Краткий ликбез по data warehouse
- Что такое хранилище данных?
- Полное руководство по происхождению данных в 2022 году
- Что такое хранилище данных Data Warehouse и зачем оно бизнесу
- Антихрупкость архитектуры хранилищ данных
- Методология построения DWH
- Пошаговый план по внедрению DWH
2. Компоненты и архитектура
- Классические подходы к проектированию хранилищ данных
- Типовые компоненты и протекающие процессы
- Концепции Инмона, Кимбалла и DataVault
- Обзор основных компонентов (stage, ods, dds, datamart, bi, metadata) и процессов (ETL, ELT, DQ, lineage)
- СУБД для аналитики: Greenplum или ClickHouse?
- ClickHouse vs PostgreSQL в мельчайших подробностях
- Архитектура Data Lake: как правильно спроектировать Data Lake
- Архитектура Data Warehouse: традиционные vs. облачные модели
- Хранилище корпоративных данных: компоненты EDW, ключевые концепты и типы архитектуры
- Архитектура Data Warehouse: подробное описание
- Как выбрать СУБД?
- Что такое Lakehouse?
- Метрики качества данных для DWH (или KPI для KPI)
3. Управление данными - Data Governance
- Как управлять версиями вашего SQL
- Общие и частные вопросы управления данными предприятия
- Информация рассматривается как актив, приносящий ценность и имеющий затраты на получение
- Концепция «мастер-данные» и системы по их управлению – MDM
- Основы моделирования данных
4. Методики проектирования хранилищ
- Построение хранилища данных для традиционной отрасли
- ETL
- Шаги проектирования хранилища
- Типовые приемы и инструментарий при создании хранилища данных
- Экспертиза участников и инфраструктуры
- Обзор гибких методологий проектирования DWH
- Рекомендации по разработке баз данных и клиентских приложений
- Снежинка, Data Vault, Anchor Modeling. Какая методология проектирования DWH подойдет для вашего бизнеса?
5. Область хранения исходных данных - Stage
- Потребность в хранении исходных данных из системы источника
- Типичные ошибки при организации данной области и ее отличие от «озера данных»
6. Области постоянного хранения - ODS и DDS
- Слои операционного и многомерного хранения данных
- Процессы извлечения, очистки, контроля и сохранения - ETL\ELT
- Трансформация в целевую схему хранения
7. Системы-потребители данных хранилища
- Типовые сценарии использования данных из хранилищ
- Основные потребители - системы бизнес-аналитики «BI»
- Устройство типовой БИ системы и причины их большого разнообразия
8. Новые вызовы в развитии хранилищ данных
- Обзор основных проблем, с которыми сталкиваются хранилища при росте
- Новые вызовы в области машинного обучения
- Концепция Data Mesh как альтернатива дальнейшего развития.
- Импортозамещение BI своими руками
9. DBeaver
Книги Кимбалла
Архитектура DWH
Моделирование данных
Примеры построения корпоративных хранилищ данных
Оперативная аналитика
Ad-hoc reporting
Hadoop
Iceberg, DeltaLake - Хорошо интегрируется с экосистемой Hadoop и источниками данных (HDFS, Amazon S3, Hive, HBase, Cassandra, etc.)
DWH Basics
1 Аналитические движки (СУБД для DWH)
- типы Аналитических движков;
- обзор MPP баз данных и их особенностей, отличий;
- демо Vertica;
2 Принципы построения DWH
- разделение на логические слои: Stage + Intermediate + Detail + Marts + Ad Hoc;
- Normalization: 3NF, Denormalized, Data Vault, Anchor;
- тесты данных и качество данных;
- тeam work & CI;
- макросы и функции + Maintenance;
- Security, Access Segregation, WLM;
DWH Intermediate
1 DBT: Intermediate - SQL best practices;
- Complex SQL transformations + CTE;
- Analytical functions;
- Macros + Jinja templates;
- Code compilation + debugging;
- Logging dbt deployments;