Инструменты в зоопарке управления данными
Существует множество инструментов и решений для управления метаданными. Некоторые специализируются на обнаружении данных, поиске, происхождении, другие на бизнес-процессах. Какой инструмент управления данными лучше? Какие функции обязательны и желательны в каталоге данных? В этом посте в блоге мы рассмотрим все это
Пришло время предоставить вам более подробную информацию и представить имеющиеся доступные решения. Поскольку существует множество различных инструментов с уникальными подходами, я решил назвать это все Зоопарком управления данными.
Если вы не жили в глуши, возможно, вы слышали о каталогах данных или бизнес-глоссариях.
Я поражен огромным количеством доступных инструментов и различий между ними. Вот некоторые из вопросов, которые у меня есть:
- Какой инструмент управления данными лучше?
- Какие функции обязательны и желательны?
- Какой инструмент лучше всего подходит для платформы облачных данных?
- Какова их цена?
- Могу ли я создать собственное решение?
- …
Так много вопросов и так мало ответов…
Категории инструментов метаданных
В последних отчетах Gartner вы найдете инструменты управления метаданными, разделенные на автономные и встроенные.
Такое разделение имеет смысл. Но я бы добавил еще один вариант. Основываясь на своем опыте и отзывах читателей, многие решают создавать собственные решения.
1. Автономные инструменты
Некоторые решения обеспечивают «полное» управление данными и управление метаданными.
- Пакет Informatica (каталог корпоративных данных, Axon, качество данных)
- Collibra
- Alation
- и другие предложения
Сообщество открытого исходного кода представляет два больших проекта:
Соображения: Автономные инструменты так же эффективны, как и их поисковые роботы и коннекторы. Кроме того, интеграция в вашу экосистему данных и бизнес-процессы не является простой задачей.
2. Встроенные инструменты
Повышенный интерес клиентов к метаданным делает этот рынок прибыльным для поставщиков приложений. Появляются новые проекты. В результате компоненты платформы данных включают управление метаданными в качестве функции.
Например (инструменты со встроенными функциями метаданных):
- Подготовка данных (Trifacta, Alteryx, Ab Initio, Talend и др.)
- Виртуализация данных (Dremio, Denodo, …)
- Интеграция данных (интеграция Qlik, …)
- Доступ, политика и безопасность (Privacera, Immuta, Okera)
- Платформы бизнес-аналитики и аналитики (SAS, Tableau, …)
- Инструменты поддержки озера данных (Cloudera Navigator, Kylo,…)
- Каталоги облачных данных (Data Catalog Azure, AWS Glue, Data Catalog GCP).
Соображения. Для обеспечения сквозного управления все данные должны «проходить через» встроенные решения. В результате вы можете использовать инструменты в более широком объеме, чем планировали, и усилить привязку. В противном случае вы получите бункеры метаданных.
3. Пользовательская реализация
- Используйте проекты с открытым исходным кодом в качестве основы и стройте на их основе свое решение.
- Не усложняйте задачу и в первую очередь сосредоточьтесь на реализации обязательных функций.
- Ищите встроенную поддержку метаданных в существующем стеке (база данных, инструменты визуализации, ETL).
- Определите способ работы и всегда применяйте фреймворки для обработки данных.
Соображение: как всегда с пользовательской реализацией, вы можете в конечном итоге заново изобретать колесо.
Обзор инструментов управления метаданными
«Hello world» в управлении данными
Я часто вижу, как консультанты по умолчанию рекомендуют большие и автономные решения. Кроме того, все проекты метаданных с открытым исходным кодом оказываются за бортом.
Я не согласен с таким подходом по трем причинам:
- С точки зрения бизнеса уточните свои требования, прежде чем сравнивать инструменты.
- С инженерной точки зрения установка и интеграция готового продукта скучна.
- Кроме того, я предпочитаю поэтапный переход подходу «большого взрыва».
Вместо того, чтобы разбирать, какой инструмент метаданных лучше, создайте свой собственный MVP.
Во-первых, начните с чистого листа
Штефан Урбанек, бывший инженер Facebook, рассказал о важности метаданных и архитектуры.
Он представил следующий подход:
- Выберите проблему с метаданными
- Используйте электронную таблицу (у пользователей уже есть Excel или Google Sheets)
- Переживите фазу обмена документами
- Используйте функциональный подход к составлению и применению метаданных
99. (позже) Переместите электронные таблицы в репозиторий метаданных
Во-вторых, используйте проекты с открытым исходным кодом в качестве основы.
«Мы использовали Marquez в качестве отправной точки и легко расширили его в соответствии с нашими потребностями, такими как применение политик безопасности, а также изменение языка домена. Если вы ищете небольшой и простой инструмент для начальной загрузки […] Marquez — хорошая отправная точка». - Технологический радар ThoughtWorks Vol.22
Во-первых, Marquez — это свежий, независимый от платформы проект с открытым исходным кодом, которым руководит Жюльен Ле Дем. Жюльен — один из создателей ландшафта «больших данных». Он был соавтором Apache Parquet, и участвовал в Apache Arrow.
Marquez все еще находится на ранних стадиях разработки. Так что запускать его в продакшине может быть рискованно.
Вместо него вы можете обратить внимание на образовательное путешествие. Разберитесь, что вам нужно, чего не хватает. Затем определитесь с дальнейшими шагами или даже переключитесь на коммерческие инструменты.
Другие альтернативы с открытым исходным кодом
-
DataHub
- Инструмент поиска и обнаружения метаданных
- Проект от LinkedIn, выпущенный в феврале 2020 года. Между внутренней версией и версией с открытым исходным кодом все еще есть серьезные различия.
- Amundsen
- Механизм обнаружения данных и метаданных
- Проект от Lyft. Amundsen и Marquez присоединились к LF AI в качестве инкубационных проектов
- Служба API исследования метаданных
- Создано Netflix.
- Управление и управление метаданными
- Проверенное решение во многих битвах за управление данными Hadoop.
- Метаданные и система управления
- Metcat
- Apache Atlas
- ODPi Egeria
Резюме
Существует множество инструментов и решений для управления метаданными. Некоторые специализируются на обнаружении данных, поиске, происхождении, другие на бизнес-процессах.
Что меня бесит как инженера, так это сложность тестирования и изучения некоторых коммерческих инструментов. Вам нужно обратиться к торговым представителям, чтобы получить доступ, вместо того, чтобы извлекать образ докера и запускать его.
Если вы хотите начать с малого и учиться на ходу, дайте шанс инструментам с открытым исходным кодом. Посмотрите на Marquez. Это довольно небольшой, но мощный проект по управлению метаданными. Используйте его в качестве отправной точки. Или посмотрите на другие альтернативы, такие как Amundsen или DataHub.