Дедупликация и процесс распоряжения данными в MDM
Дедупликация данных необходима для обеспечения точной записи мастер-данных. Предприятию нужен единый источник достоверной информации для согласованности и эффективности действий.
Дедупликация данных в MDM
При управлении мастер-данными зачастую одни и те же данные дублируются в нескольких отделах, что может навредить бизнесу. Именно поэтому дедупликация данных крайне важна для обеспечения точной записи мастер-данных. Она заключается в удалении повторяющихся данных из корпоративной базы данных. Кроме того, мастер-данные призваны служить единым источником достоверной информации для всего предприятия, чтобы поддерживать согласованность и эффективность протекающих в нем процессов.
Стратегии дедупликации данных
У дедупликации данных множество преимуществ, среди которых – существенное снижение издержек. Кроме того, она позволяет повысить производительность аналитики за счет предоставления команде специалистов исключительно надежные данные, а компании в целом - улучшить качество обслуживания клиентов.
Некоторые традиционные стратегии дедупликации данных включают в себя стандартизацию данных на основе внешних ID, согласование с установленными правилами, обогащение данных и машинное обучение:
- Небольшие объемы данных можно стандартизировать по датам, номерам телефонов и адресам, а конвейеры ETL могут нормализовать новые источники данных;
- Согласование данных и сложные правила помогают в идентификации дублеров информации. Однако это не подходит для множества систем данных;
- Назначение внешних идентификаторов также применяется для дедупликации данных, например, для выдачи номеров социального страхования отдельным лицам, а также DUNS номеров;
- Машинное обучение помогает улучшить управление данными и избежать дублирования за счет повышения уровня автоматизации;
- Обогащение данных призвано интегрировать внутренние и внешние данные, стандартизировать их, а также выявить повторяющиеся данные.
Как идентифицировать дубликат данных в MDM
Match-merge (сопоставление-слияние) - это процесс, который помогает идентифицировать повторяющиеся данные в мастер-данных. В ходе данного процесса берутся данные из разных систем, затем осуществляется поиск дубликатов либо точных совпадений (при необходимости они объединяются) для создания «золотой копии» записи. Процесс сопоставления-слияния может быть выполнен двумя способами: в режиме реального времени или в пакете, утвержденном другим методом для проверки золотой записи:
- Сопоставление основано на столбцах сопоставления и правилах сопоставления, которые помогают распознавать похожие записи в базе данных, определять записи для автоматического соответствия, а также документы, которые дата-стюард должен просмотреть перед консолидацией;
- Процесс сопоставления осуществляется двумя методамив (неточное сопоставление и точное сопоставление), которые помогают идентифицировать дубликаты информации. При неточном сопоставлении базовые совпадения объектов находятся самым медленным способом. В нем записи сопоставляются на основе орфографических ошибок, транспозиций, словосочетаний, пропусков и фонетических различий. Точные совпадения позволяют быстрее сравнивать записи, столбцы которых идентичны;
- Консолидация - следующий шаг после этапа сопоставления. Здесь совпадения, поставленные в очередь, отправляются на слияние. Объединенные данные после комплаенс известны как «золотая запись»;
- Для процесса сопоставления требуется определение наборов правил сопоставления, а также выбор столбцов сопоставления для сравнения и настройки базовых объектов. Дубликаты или идентичные записи распознаются и ставятся в очередь для слияния по правилам комплаенс (соответствия).
Мы можем настроить техники точного сопоставления, используя технологию fuzzy logic. Fuzzy logic не работает с точными базовыми объектами - в данном случае процедура сопоставления определяет точные критерии поиска совпадений, позволяя обнаруживать только те записи, которые являются полными дубликатами или идентичными. Fuzzy logic использует неточные критерии для поиска совпадений, что позволяет идентифицировать записи, которые похожи друг на друга, но не являются полными дубликатами.
Распоряжение данными в MDM
Распоряжение данными гарантирует, что бизнес-данные доступны, пригодны для использования и заслуживают доверия. Оно призвано обеспечить их надежность, защищая их преемственность, выполняя стандарты их использования и продвигая их ценность.
Стратегии распоряжения данными
Существуют несколько общепринятых стратегий:
- Распоряжение данными призвано стать неотъемлемой частью работы команды. Дата-стюарды должны постоянно контролировать руководство данными в любой организации и активно участвовать в обсуждениях, брифингах и совещаниях;
- Высшее руководство должно поддерживать дата-стюардов, чья работа имеет исключительное значение для достижении поставленных корпоративных целей и обеспечении доверия при мониторинге данных организации;
- Построение корпоративной культуры, основанной на данных, также является важной стратегией практического использования данных в организации. Дата-стюарды помогают внедрять эту культуру в управление мастер-данными;
- Все решения, бизнес-правила и элементы данных, связанные с управлением данными, должны быть записаны и легкодоступны. Использование соответствующих инструментов помогает надлежащим образом записывать данные и отслеживать каждую деталь;
- Политики данных должны безукоризненно применяться и приниматься всеми участниками группы данных;
- Коммуникации между дата-стюардами и группой данных инициирует налаживание обмена информацией о политике данных, стандартах, терминологии и передовом опыте.
Более того, многие другие механизмы делают управление данными более практичным и простым в реализации. Создана структура, которая позволяет данным достигать конкурентных преимуществ и повышать ценность бизнеса в целом. Такая стратегия включает в себя следующие пункты:
- На первом этапе программа строится на основе проблем с данными, с которыми сталкиваются топ-менеджеры, линейные сотрудники, отдел внутреннего аудита и отделы по обеспечению конфиденциальности и комплаенс;
- На втором этапе составляется бюджет мероприятия при участии управляющих бизнесом и всех заинтересованных сторон. Для создания стандартов данных создаются рабочие группы, распределяются роли и обязанности;
- Приступаем к работе. Терапия данными в первую очередь «показана» спонсорам и противникам ее использования.
Как дедупликация данных и распоряжение данных помогают при создании золотой записи?
Распоряжение данными и дедупликация данных являются важными составляющими управления мастер-данными. Дедупликация данных помогает удалить дубликаты, созданные в мастер-данных. Данные о клиентах или компаниях собираются индивидуально в каждом отделе. Когда они собираются для создания единой базы данных, обнаруживается множество повторяющихся записей, что снижает эффективность, согласованность и точность мастер-данных. Дедуприкация данных — эффективная стратегия, помогающая удалять дубликаты и поддерживать единый источник достоверной информации - «золотую запись» данных.
Основная сложность заключается в установлении и поддержании золотой записи путем сопоставления и объединения записей, созданных из нескольких источников данных. Эффективное управление мастер-данными основано на автоматическом объединении схожих записей. Кроме того, эффективная система MDM позволяет дата-стюардам эффективно выполнять свою работу и создавать качественные записи.
Распоряжение данными позволяет на практике реализовывать знания о наборе инструментов для обеспечения корректности записей. Для достижения «золотой записи» система или дата- стюарды должны учитывать интересы пользователей, ценность системы данных с высокой степенью надежности и принципы определения важности для каждого поля.
Распоряжение данными и дедупликация данных должны работать рука об руку в целях разрешения конфликтов и несоответствий между наборами корпоративных данных.