Учебный курс по Data Governance
Data Governance — это целостная стратегия управления корпоративными данными. C помощью методологии Data Governance вы сможете извлечь максимальную бизнес-ценность из ваших данных, а организация станет более гибкой.
Соберите в каталог данных все технические метаданные (например, данные о том, в каких ИТ-системах хранится информация).
Для каждого бизнес-термина зафиксируйте в бизнес-глоссарии единое для всей компании определение. Внедрите правила для обеспечения качества данных и проведите соответствующие организационные изменения. Всё это позволит точнее и быстрее анализировать данные, формировать отчётность и принимать правильные бизнес-решения.
- Что такое управление данными? Полное руководство
- Полное руководство по вопросам и ответам на собеседовании на должность по управлению данными
- Data Governance: что это, зачем, и с чего начать (презентация, .pdf)
- Инструменты в зоопарке управления данными
- Наилучший способ объяснить новичку, что такое управление данными
- Как создать custom resource в Informatica EDC и перенести его в Axon
- Business intelligence и качество исходных данных
- Self-Service BI Model VS Centralized BI reporting factory
- Презентация стратегии работы с данными: как сделать техническую информацию доступной для руководства компании и обычных пользователей
- Тренды управления данными (.pdf)
Качество данных (Data Quality) — обобщенное понятие, отражающее степень их пригодности к решению определенной задачи. В соответствии со стандартом ISO 9000:2015 основными критериями качества являются полнота, достоверность, точность, согласованность, доступность и своевременность.
Оценка качества данных и действия по его повышению являются необходимым этапом любого аналитического проекта, поскольку аналитические алгоритмы или не смогут работать с некачественными данными либо будут давать некорректные результаты.
- Обнаружение и устранение проблем с качеством данных
- Десять самых распространённых проблем с качеством данных и способы их устранения
- Data Quality инженер
- Перспективная архитектура данных для повышения качества данных
- Кто должен отвечать за качество данных?
- Повышаем качество данных с помощью контрактов данных
- 4 вещи, о которых необходимо знать при решении проблемы качества данных
- A step-by-step guide to improve data quality (.pdf)
Мастер-данные (MDM)
Управление мастер-данными (MDM) включает в себя процессы, регулирование, политики, стандарты и инструменты, которые постоянно определяют и управляют мастер-данными организации (могут включать в себя справочные данные).
- Гайд по управлению мастер-данными (MDM) для новичков
- Гайд по управлению мастер-данными (MDM)
- Что такое управление мастер-данными (MDM)? Полный гайд
- Дедупликация и процесс распоряжения данными в MDM
- От простоя бетономешалок до проваленной марсианской миссии за 125 млн $. Как некачественные данные могут приводить к потерям?
- MDM и CDP: различия систем. Как сделать выбор?
- Чем может быть полезен НСИ?
Data Lineage
Data governance
Безопасность данных
Качество данных
Метаданные и управление каталогом
Управление основными данными
Миграция данных
Проработанный Data Maturity Self Assessment Framework с удобными, понятными экселями для самооценки. Авторы - Британцы - UK Government Data Quality Hub разработали для своего правительства стандарт, на базе консалтингового продукта компании Data Orchard. Хорошая модель. не перегруженная и не поверхностная: 10 топиков, 97 критериев.
Самое ценное - смысловое описание 5 градаций выраженности каждого критерия - в результате гайд задает понятные направления работы.
Обратите внимание:
Критерий - Making data available to those who need it
Level 5: 'Data can be accessed and directly shared appropriately by all users who need it. All internal and external users can access data they need when they need it, without specialist support.'
Критерий - Linking decisions that affect organisational outcomes to data
Level 5: 'Consistently links decisions that affect all critical and important organisational outcomes to data. Takes a customer-focused approach, incorporating the value that the organisation’s data has to its users into decision making.'
Критерий - Collecting data with user needs in mind
Level 5: 'Has a clear understanding of the needs of the user providing data, and of user-centred design and methods in all relevant areas of the organisation. Fully embeds application of this understanding in product design and development from beginning to end.'
Документ будет полезен enterprise проектам с системным и массовым подходом в работе с данными. Которые при этом могут найти сейчас время для стратегического анализа. Фреймворк может неплохо сочетаться с упражнением по разработке / обновлению data стратегии компании.
Качество данных
Цена проблемы с качеством данных, не обнаруженной слишком рано, может взлететь до небес.
Применение проверок качества данных на платформе данных перед их отправкой в производство похоже на тестирование программного обеспечения. Проверки качества данных могут обнаружить ошибки программного обеспечения, которые видны только в масштабе, когда имеется больше данных.
- Стоимость устранения проблемы может варьироваться в зависимости от того, кто должен участвовать в ее устранении.
- Операции с данными могут перезапустить конвейер данных, это дешево.
- Инженерам по обработке данных может потребоваться обновить преобразования данных и модель данных.
- Инженерам-программистам может потребоваться обновить бизнес-приложение.
- Отдел закупок может быть привлечен к переговорам о дополнительных временных и материальных ресурсах для исправления систем.
- Может потребоваться изменение бизнес-процесса.
- Наконец, изменение может коснуться тысяч пользователей.
Лучшим примером наиболее серьезных проблем с качеством данных, влияющих на бизнес-процессы и сотрудников, является случай с Uber в 2017 году. Компания Uber столкнулась с проблемой качества данных в Нью-Йорке, когда они неправильно рассчитали свои комиссионные, что стоило водителям процента от их законного заработка.
Эта инфографика даже не показывает стоимость очистки данных и устранения беспорядка, вызванного плохими данными. Это еще одна составляющая затрат.
Что такое полнота данных? Проблемы качества данных сгруппированы по измерениям качества данных. Определение параметра полноты данных гласит, что это степень, в которой все ожидаемые и требуемые элементы данных присутствуют в наборе данных.
Это теория. Теперь давайте определим различные типы проблем с полнотой данных. Проблема полноты может повлиять на значения в одной строке или на уровне всего набора данных.
Данные могут отсутствовать на уровне записи из-за отсутствия проверки или неожиданного усечения данных.
Отсутствие данных на уровне набора данных, скорее всего, является проблемой процесса, при которой данные не собираются, или серьезной проблемой обработки данных, когда некоторые ежедневные пакеты теряются.
Полнота данных — это показатель качества данных, который следует измерять с помощью платформы наблюдения за данными, такой как DQOps.