Учебный курс по DWH
В рамках курса вы познакомитесь с основными понятиями и задачами, возникающими при создании хранилищ данных. Поймете, как цели влияют на выбор архитектуры и к каким последствиям может привести недостаточное внимание к компонентам. Составите представление о ролях и влиянии участников команды на результат.
В программе курса будут описаны практические подходы к проектированию и внедрению хранилищ данных и его компонент. Вы рассмотрите управление жизненным циклом, включая вывод из эксплуатации и миграцию на новые системы, затронете темы управления данными и построения сервисов на их основе.
В практической части слушатели разобьются на две команды: одна из команд проработает проект по миграции хранилища данных с учетом стратегических целей развития предприятия, а вторая оценит его с точки зрения возможностей, ресурсов и сроков.
1. Введение
- Понятие «хранилище данных». Его возможности и ограничения
- Зачем создается DWH, какую бизнес-задачу оно решает
- DWH как продукт: платформа, инструменты, масштабирование команды
- Что такое DWH и почему без них данные компании почти бесполезны
- Архитектура корпоративного хранилища данных
- Краткий ликбез по data warehouse
- Что такое хранилище данных?
- Полное руководство по происхождению данных в 2022 году
- Что такое хранилище данных Data Warehouse и зачем оно бизнесу
- Антихрупкость архитектуры хранилищ данных
- Методология построения DWH
- Пошаговый план по внедрению DWH
- Правильная архитектура данных
2. Компоненты и архитектура
- Классические подходы к проектированию хранилищ данных
- Типовые компоненты и протекающие процессы
- Концепции Инмона, Кимбалла и DataVault
- Обзор основных компонентов (stage, ods, dds, datamart, bi, metadata) и процессов (ETL, ELT, DQ, lineage)
- СУБД для аналитики: Greenplum или ClickHouse?
- ClickHouse vs PostgreSQL в мельчайших подробностях
- Архитектура Data Lake: как правильно спроектировать Data Lake
- Архитектура Data Warehouse: традиционные vs. облачные модели
- Хранилище корпоративных данных: компоненты EDW, ключевые концепты и типы архитектуры
- Архитектура Data Warehouse: подробное описание
- Как выбрать СУБД?
- Что такое Lakehouse?
- Метрики качества данных для DWH (или KPI для KPI)
- Компоненты хранилища данных
- Основные компоненты OLAP
- Озеро данных: Суть и эволюция
3. Управление данными - Data Governance
- Как управлять версиями вашего SQL
- Общие и частные вопросы управления данными предприятия
- Информация рассматривается как актив, приносящий ценность и имеющий затраты на получение
- Концепция «мастер-данные» и системы по их управлению – MDM
- Основы моделирования данных
4. Методики проектирования хранилищ
- Построение хранилища данных для традиционной отрасли
- ETL
- Шаги проектирования хранилища
- Типовые приемы и инструментарий при создании хранилища данных
- Экспертиза участников и инфраструктуры
- Обзор гибких методологий проектирования DWH
- Рекомендации по разработке баз данных и клиентских приложений
- Снежинка, Data Vault, Anchor Modeling. Какая методология проектирования DWH подойдет для вашего бизнеса?
5. Область хранения исходных данных - Stage
- Потребность в хранении исходных данных из системы источника
- Типичные ошибки при организации данной области и ее отличие от «озера данных»
6. Области постоянного хранения - ODS и DDS
- Слои операционного и многомерного хранения данных
- Процессы извлечения, очистки, контроля и сохранения - ETL\ELT
- Трансформация в целевую схему хранения
- Slowly Changing Dimensions (SCDs)
7. Системы-потребители данных хранилища
- Типовые сценарии использования данных из хранилищ
- Основные потребители - системы бизнес-аналитики «BI»
- Устройство типовой БИ системы и причины их большого разнообразия
8. Новые вызовы в развитии хранилищ данных
- Обзор основных проблем, с которыми сталкиваются хранилища при росте
- Новые вызовы в области машинного обучения
- Концепция Data Mesh как альтернатива дальнейшего развития.
- Импортозамещение BI своими руками
9. DBeaver
DBeaver — это клиентское программное обеспечение SQL и инструмент администрирования базы данных. Для реляционных баз данных он использует интерфейс прикладного программирования (API) JDBC для взаимодействия с базами данных через драйвер JDBC. Для других баз данных (NoSQL) используются собственные драйверы баз данных. Он предоставляет редактор, поддерживающий завершение кода и подсветку синтаксиса. Он предоставляет архитектуру подключаемых модулей (основанную на архитектуре подключаемых модулей Eclipse), которая позволяет пользователям изменять большую часть поведения приложения, чтобы обеспечить специфичные для базы данных функции или функции, независимые от базы данных. Он написан на Java и основан на платформе Eclipse.
- Установка DBeaver
- Лицензия DBeaver
- DBeaver: базовые операции
- DBeaver: создание подключения
- Прокачка SQL–запросов с помощью DBeaver
- Дамп БД MySQL из удаленного сервера в локальное устройство с помощью DBeaver
- Добавление драйвера Cassandra JDBC в DBeaver Community Edition
- Начало работы с DBeaver на распределенной базе данных SQL
- Как подключить DBeaver к REST через драйвер JDBC
- Исправление проблемы неправильного часового пояса в DBeaver с помощью ClickHouse
- DBeaver на удаленном сервере: Как настроить соединения ClickHouse и Oracle
- Установка и настройка DBeaver на Linux (Ubuntu)
- Как установить и работать с DBeaver в Linux.
- Запрос данных Excel с помощью DBeaver: Руководство для начинающих
- Оптимизация работы с базами данных: Моделирование данных с помощью Dbeaver
Книги Кимбалла
Архитектура DWH
Моделирование данных
Примеры построения корпоративных хранилищ данных
Оперативная аналитика
Ad-hoc reporting
Hadoop
Iceberg, DeltaLake - Хорошо интегрируется с экосистемой Hadoop и источниками данных (HDFS, Amazon S3, Hive, HBase, Cassandra, etc.)
DWH Basics
1 Аналитические движки (СУБД для DWH)
- типы Аналитических движков;
- обзор MPP баз данных и их особенностей, отличий;
- демо Vertica;
2 Принципы построения DWH
- разделение на логические слои: Stage + Intermediate + Detail + Marts + Ad Hoc;
- Normalization: 3NF, Denormalized, Data Vault, Anchor;
- тесты данных и качество данных;
- тeam work & CI;
- макросы и функции + Maintenance;
- Security, Access Segregation, WLM;
DWH Intermediate
1 DBT: Intermediate - SQL best practices;
- Complex SQL transformations + CTE;
- Analytical functions;
- Macros + Jinja templates;
- Code compilation + debugging;
- Logging dbt deployments;
EfCore.SchemaCompare — инструмент для сравнения схем баз данных Entity Framework Core (EF Core). Он позволяет проверять различия между базой данных и миграциями, обеспечивая удобный способ отслеживания изменений в схемах данных. Этот инструмент может быть полезен для управления версиями баз данных и предотвращения ошибок, связанных с несовпадением структуры данных при разработке приложений на EF Core