Введение в Data Mesh

Давайте внимательнее познакомимся с концепцию и рассмотрим архитектуру data mesh, чтобы лучше разобраться в ее преимуществах.

По мере того, как все больше и больше команд ищут решения, которые могли бы помочь им полностью раскрыть весь потенциал своих систем и людей, децентрализованные архитектуры становятся все более и более популярными. Будь то криптовалюты, микросервисы или Git, децентрализация уже проявила себя, как один из самых эффективных методов устранения узких мест централизованных систем. Одним из подходов децентрализации управления данными является использование data mesh (сетки данных). Что это такое на самом деле и как это работает? Давайте подробнее познакомимся с концепцией и рассмотрим архитектуру data mesh, чтобы лучше понять все ее преимущества.

Трудности, связанные с данными предприятий

Не секрет, что предприятия проделали достаточно длинный путь в сфере данных. Однако, они до сих пор сталкиваются с рядом трудностей, которые не позволяют им в полной мере воспользоваться всеми преимуществами данных. Основные сложности состоят в следующем:

Надежность

Качество и мониторинг данных требуют надежной реализации. Поэтому важно задать себе несколько важных, сложных вопросов:

Вы можете доверять данным, которые у Вас есть?
Обладаете ли Вы всеми необходимыми данными?
Вы располагаете самой последней информацией?
Можно ли доверять источнику Ваших данных?

Оперативность

Изменения – это единственная по-настоящему постоянная вещь, и это также верно и для крупных предприятий. Но, к сожалению, хранилищам данных очень сложно идти в ногу со всеми изменениями, что значительно влияет на оперативность работы предприятия. Возьмем, к примеру, создание отчетов — на это уходят недели, а это непозволительно долго в сегодняшнем быстро меняющемся мире.

Навыки и умения

Для того, чтобы умело обращаться с данными, все сотрудники предприятия должны обладать определенными навыками и умениями. Поддержание данных в должном состоянии обходится организации достаточно дорого, а отсутствие необходимых навыков у работников только увеличивает количество узких мест, которые «высасывают» из предприятия ценные ресурсы.

Продуктивность

Продуктивность – это еще одна сложность, связанная с данными. И бизнес - консультанты, и аналитики данных тратят около 30–40% своего времени на поиск корректной информации. Точно так же и инженеры данных тратят большую часть своего времени на выяснение того, как создать единый набор данных, используя разрозненные источники.

Право собственности

Определение собственника того или иного набора данных также зачастую представляет собой определенную сложность. Не всегда просто определить того, кому по-настоящему принадлежит та или иная информация, и можно ли ему доверять. В большинстве случаев команда, владеющая платформой данных, берет на себя ответственность за предоставляемые данные, даже если она этого не осознает.

Открытость данных

Только нескольким организациям удалось использовать свои массивы данных для того, чтобы создать рынок данных, где их потребители имеют возможность изучать различные наборы данных и принимать решение о том, какие из них они хотели бы использовать.

Что такое Data Mesh?

Data mesh лучше всего воспринимать, как практику или концепцию, используемую для управления большим объемом данных, распределенных по децентрализованной или распределенной сети. Это также может относиться и к платформе данных. Поскольку компании все больше нуждаются в действенных способах хранить большие объемы данных, распространять их по конвейерам данных, а также продуктивно использовать их, важно создать эффективную схему работы с этими самыми данными. Здесь-то на помощь и приходит data mesh.

Внедрение большего количества технологий не решит все проблемы с данными, с которыми сегодня сталкиваются компании, необходимо реорганизовать инструменты, процессы, а также переучивать вовлеченных в них людей. Data mesh, по сути, создает метод управления различными источниками данных в экосистеме компании и обеспечивает потребителям более быстрый, безопасный и эффективный доступ к данным.

У data mesh множество преимуществ:

Позволяет выполнять децентрализованные операции с данными, что повышает гибкость бизнеса, масштабируемость и сокращает время выхода на рынок;
Организации, использующие архитектуру data mesh, не привязаны только к одному продукту или платформе данных;
Использует модель самообслуживания, которая обеспечивает легкий доступ к централизованной инфраструктуре. Это позволяет быстрее выполнять SQL-запросы и получать доступ к данным;
Поскольку речь идет о децентрализации прав собственности на данные, data mesh обеспечивает прозрачность информации (для сравнения, централизованное владение данными делает команды, работающие с данными, сильно зависимыми от них).

Компоненты архитектуры Data Mesh

Архитектура data mesh содержит 4 главных компонента. Рассмотрим их по порядку.

1.Децентрализованное право собственности на данные

Этот компонент архитектуры в основном затрагивает людей, вовлеченных в работу с данными, и требует ремоделирования монолитной структуры данных путем децентрализации аналитических данных и передачи права их владения от центральной группы к группе домена.

В data mesh команда домена, хорошо знакомая с активом данных, отвечает за его курирование, обеспечивает высококачественное администрирование и управление данными. В случае с хранилищем данных команда поддержки отвечает за управление всеми данными организации и, как правило, сосредоточена на технических аспектах хранилища данных, нежели чем на качестве самих данных.

Таким образом, организации, внедряющие data mesh, должны определить, какая команда домена отвечает за тот или иной набор данных. Кроме того, все команды должны быть в состоянии действовать оперативно и вносить необходимые изменения в данные, чтобы постоянно обеспечивать их высокое качество. Благодаря предметному учету данных децентрализованное владение данными решает многие проблемы, связанные с маневренностью и производительностью работы организации, а также с правами собственности на данные, используемые предприятием в своей деятельности.

На данный момент организациям требуется некоторое время, чтобы отреагировать на запросы рынка, поскольку для внесения каких-либо изменений в бизнес сначала необходимо сделать определенные корректировки во многих ИТ-системах. Вот почему несогласованные приоритеты деятельности и низкий уровень координации в команде сводят оперативность работы предприятия практически к нулю. Более того, с учетом быстрого роста количества источников данных и вариантов их использования группы, отвечающие за хранилища данных, стали самым настоящим узким местом в ведении бизнеса. Однако переход от монолитной архитектуры к доменным микросервисам сделал операционные системы более гибкими. Поэтому data mesh может сделать то же самое и для аналитических данных.

Потребители данных зачастую тратят достаточно много времени на то, чтобы найти собственника той или иной информации, определяя ее источник и интерпретируя ее значение. В результате производительность их труда значительно снижается. Однако, децентрализация сближает аналитический и операционный мир и обеспечивает отслеживаемость данных, легкость определения права собственности на данные и их четкую интерпретацию, тем самым значительно сокращая время выполнения тех или иных операций.

И наконец, право собственности; в большинстве случаев настоящие владельцы данных неизвестны, что делает ИТ-команды, ответственные за ETL, владельцами этих самых данных. Центральные ИТ-команды часто выступают в роли посредников — они передают запросы потребителей производителям и не считаются владельцами данных, потому что не производят их и совсем в них не разбираются. Переназначение права собственности на аналитические данные на правильные домены может решить проблему, поскольку эти домены являются производителями данных и хорошо ориентируются в них.

Данные как продукт

После определения доменов и установления прав собственности, следующий шаг состоит в том, чтобы перестать думать об аналитических данных как об активе, который необходимо сохранить, а вместо этого воспринимать их как продукт, который необходимо обслуживать. Команды, ответственные за data mesh, публикуют данные, чтобы другие команды, то есть их внутренние клиенты, могли извлечь из них максимальную пользу.

Вот почему доменам необходимо перестать рассматривать аналитические данные как побочный продукт бизнес-операций, а думать о них как о первоклассном продукте, у которого есть собственники, ответственные за удобство его использования, доступность для пользователей, качество, то есть относятся к ним так же, как к любым другим бизнес-услугам. То есть, работать над продуктом, чтобы сделать его ориентированным на клиента, надежным, полезным и ценным.

Представление о данных как о продукте решает проблемы, связанные с производительностью, гибкостью, доступностью и надежностью. Производительность потребителя данных автоматически возрастает, когда в дело вступают эти четыре характеристики. Давайте посмотрим, как именно это происходит.

Продукт данных — это, по сути, автономная единица со своими циклами выпуска и планом развития. Это означает, что группам данных не нужно ждать, пока центральная группа предоставит им некоторую среду или данные, чтобы они могли начать работу. Установление доступности и подлинности также не требует больших временных затрат. Точно так же и переработка входного набора данных для согласования SLO (целей уровня обслуживания) с вариантами использования занимает относительно мало времени.

Поскольку право собственности на данные закреплено за доменами, владелец продукта (данных) несет за него ответственность. Это означает, что владелец продукта должен убедиться, что безопасность, доступность и качество продукта данных поддерживаются на должном уровне, а также сообщаются с помощью SLO и корректных показателей.

И, наконец, если рассматривать данные как продукт, то они, как и каждый продукт, рекламируются и каталогизируются на рынках данных организации. Соответствующая документация описывает различные варианты использования и объясняет взаимосвязь с другими SLO и продуктами данных. В результате потребители получают полную информацию о продукте, что, в свою очередь, позволяет им принимать обоснованные решения о целесообразности его использовании.

3. Платформа самообслуживания

Несмотря на то, что восприятие данных как продукта имеет ряд преимуществ, в конечном итоге оно может привести к увеличению общих эксплуатационных расходов, поскольку будет задействовано множество групп высококвалифицированных сотрудников и несколько независимых инфраструктур. Кроме того, если эти группы и инфраструктуры не будут должным образом оптимизированы, эксплуатационные расходы вырастут еще больше. И как раз здесь-то и появляется третий компонент архитектуры data mesh — платформа самообслуживания.

Хотя data mesh основана на идее децентрализованного управления данными, одним из ее наиболее важных аспектов является централизованное расположение или централизованная инфраструктура данных, которая может облегчить жизненный цикл продукта данных, где все члены команды могут с легкостью найти нужные им наборы данных. Такая инфраструктура должна предполагать аренду, чтобы обеспечить свою автономию. Она также должна быть самообслуживаемой и предоставлять сразу несколько готовых инструментов.

Должны быть доступны как исторические, так и последние данные, кроме того, должен быть обеспечен автоматизированный способ доступа к этим данным. Хотя инструментов plug-and-play, соответствующих этим принципам, не существует, этого можно достичь с помощью wiki, пользовательского интерфейса или API.

Важно то, что инструменты самообслуживания должны быть продуманны, они призваны снизить нагрузку на команды разработчиков данных, которые в идеале должны абстрагироваться от технических компонентов более низкого уровня, что позволит им стандартизировать продукты данных и ускорить их разработку. Другой важной частью самообслуживания является управление продуктами данных, которое включает в себя удаление, добавление и обновление продуктов данных. Кроме того, управление и вход на платформу должны быть максимально простыми, чтобы упростить ее использование.

Как и другие компоненты архитектуры data mesh, платформа самообслуживания решает ряд задач, связанных с навыками, стоимостью владения и гибкостью рабочих процессов. Поскольку платформа самообслуживания избавляет от технической нагрузки, потребность в соответствующих специалистах снижается, для ее обслуживания вполне достаточно специалистов широкого профиля. Таким образом, можно не инвестировать в высококвалифицированных специалистов. Стоимость владения также снижается, поскольку инфраструктура предоставляется централизованно. И, наконец, группы продуктов данных могут напрямую использовать платформу самообслуживания; им не нужно полагаться на центральную команду по инфраструктуре, которая предоставит им те или иные ресурсы и данные. Это заметно ускоряет цикл разработки продукта.

4.Федеративное управление

Рассмотренные выше принципы архитектуры data mesh решают большинство проблем с данными, с которыми сталкиваются организации в процессе своей жизнедеятельности. Однако, если большинство информационных продуктов обслуживают разные области, как можно согласовать все эти данные? Ответ на этот вопрос лежит в последнем компоненте архитектуры – речь идет о федеративном управлении, которое является главным отличием от традиционного централизованного управления. При федеративном управлении владелец продукта данных управляет различными аспектами, такими как политики локального доступа, моделирование данных, качество данных и т. д. Это большой сдвиг от реализации канонических данных к моделям, специально созданным для удовлетворения потребности в продукте данных.

Управление должно быть разделено на две части: местное и глобальное управление. Первый является локальным по отношению к продукту данных, определяет локальные процессы, структуры и политики управления и отвечает за их реализацию и соблюдение. Это шаг в сторону от центральных руководящих органов, которые разрабатывали политики и отвечали за их проверку и соблюдение.

Между тем, глобальное управление включает в себя многофункциональный орган с экспертами в различных сферах, таких как технологии, юриспруденция, безопасность и инфраструктура, оно отвечает за формулирование политик. Местный орган управления несет ответственность за выполнение политик, а также за их постоянное соблюдение.

Таким образом, с помощью федеративного управления, применяемого к data mesh, команды всегда могут использовать данные, доступные из разных доменов.

Все эти четыре принципа важны для реализации data-mesh в организации. Конечно, степень реализации может быть разной, но каждый принцип имеет свои преимущества и покрывает недостатки других. Помните, что чем больше data-mesh, тем большую ценность Вы можете извлечь из данных.