Modus BI - Modus ETL
Собственное ETL-решение позволяет осуществлять автоматизированный сбор данных из различных источников с поддержкой шаблонов и мастер-инструментов настройки ETL-процессов.
Решение предназначено для управления процессами ETL и Data Quality Management. Позволяет собирать данные из множества источников, обеспечивает процессы верификации, нормализации и последующего формирования единого корпоративного хранилища данных.
Функции ETL
-
Сбор данных
Многопоточная загрузка данных c управлением очередями. Для обеспечения производительной загрузки используется свой "Агент на Go" (веб-сервис).
Для учетных систем на платформе 1С-возможность получать данные, используя подключение к 1С-источнику с помощью "Адаптера ETL-1С" (http-сервис) и нативные способы:
- запросы на языке 1C
- подключение и управление схемой компоновки данных СКД-отчетов в источнике
Возможность использовать скрипты для пост-обработки получаемых данных, в т.ч. для обезличивания персональных данных, геокодирования (получение географических координат по адресу) и т.п.
-
Трансформация данных
Трансформация данных предполагает объединение, очистку, дополнение, замену, группировку, форматирование и т.п. данных.
Конструктор WorkFlow для визуального проектирования ETL.
Возможность при трансформации данных использовать многошаговые сценарии, содержащие:
- шаблоны (мастера) типовых операций трансформации данных (выбора, группировки, маппинга и пр.)
- продвинутую аналитику (библиотеки Python)
- SQL-скрипты
- обработку данных на языке 1С
-
Модуль НСИ - для стандартизации и категоризации данных
- Настройка и хранение справочников (первичных и эталонных)
- Настройка правил сопоставления (маппинга и замены) данных
- Настройка правил проверки и очистки данных
-
Управления хранилищем данных (DWHM)
Трансформация первичных данных в схему "звезда" с генерацией структуры объектов
- Визуализация структуры хранилища: ER-диаграммы моделей данных на основе загруженных метаданных хранилища
- Создание витрин данных в визуальном интерфейсе
- Настройка версионирования данных
-
Автоматизация ETL-процессов
Диаграмма для визуализации и настройки ETL-пакета
- Запуск ETL-процессов по расписанию
- Оповещение о статусе выполнения на электронную почту по списку рассылки
- Логирование ETL-процессов
- Интерфейсы для контроля выполнения ETL-процессов
- Загрузка данных из файлов xlsx, csv
- Выгрузка данных из БД в файлы xlsx, csv
- Интеграция с OLAP-кубами "Полиматика"
- Загрузка метаданных о структуре данных в источниках (в т.ч. для использования в конструкторе запросов)
- Конструктор запросов
- Планировщик запуска ETL-пакетов и т.д.
Подключение к источникам данных осуществляется с помощью мультиплатформенного Агента ETL. В комплект поставки включено множество готовых драйверов/коннекторов для подключения к источникам данных:
- базам данных
- бизнес-приложениям
- структурированным файлам (xlsx, csv, json)
- многомерным источникам
Платформа Modus BI построена на принципах архитектуры ETL – DWH – BI, что обеспечивает непрерывный процесс получения и обновления данных для аналитики.
Процесс сбора и извлечения данных проходит в автоматическом режиме, с настройкой правил получения данных и периодичности обновлений по расписанию. Загрузка данных в инкрементальном режиме с логированием прохождения этапов получения и версионирования данных.
Интерфейс ETL позволяет визуально отобразить структуру метаданных в источнике для последующего отбора необходимых данных к выгрузке с помощью чек-боксов.
Для управления качеством данных (верификации, очистки, стандартизации) и подготовки данных для аналитики используются визуальный конструктор ETL – WorkFlow c lowcode интерфейсом. WorkFlow упрощает настройку типовых операций и ускоряет работу с типовыми функциями обработки данных с помощью готовых шаблонов и мастеров:
- выборки, дополнения, замены, объединения, группировки, фильтрации, маппинга данных;
- операции верификации данных;
- сервисных операций (настройки индексов для таблиц БД, формирования статистики по таблицам хранилища, выгрузки данных из хранилища в файлы и т.д).
Модуль НСИ реализует функционал для управления справочниками и маппингами, используемыми для стандартизации и категоризации данных. Функциональность модуля поддерживает интерфейсы ввода, просмотра, редактирования и сопряжения трёх видов сущностей:
- первичных справочников (содержат значения, полученные из источников данных);
- эталонных справочников (значения для стандартизации и категоризации данных);
- маппингов, связывающих значения первичных справочников с эталонными.