Что такое «озера данных» и почему они должны быть чистыми?
«Озеро данных» (data lake) — это элемент инфраструктуры Big Data, хранилище большого объема неструктурированных данных, генерированных или собранных одной компанией или госучреждением. Данные в озерах хранятся, как правило, в несистематизированном виде. Проще говоря, это те данные, которые «и выбросить жалко, и надеть некуда».
Компании создают озера данных по нескольким причинам, среди которых: необходимость иметь все материалы на случай проверки, потенциальная ценность данных в будущем, требования закона и другие.
Озера данных могут находиться на серверах самой компании или в облачном хранилище. Доступ к данным имеют, как правило, все сотрудники, а степень защищенности озер низкая. Содержание такого репозитория обходится недорого.
Хранением и администрированием озер данных сегодня занимаются специализированные фирмы: Teradata, Zaloni, HVR, Podium Data, Snowflake и другие. Большинство компаний предоставляют не только мощности для хранения, но и инструменты для структуризации озер и обработки данных.
Согласно прогнозу Markets and Markets, к 2021 году рынок озер данных вырастет до $8,81 млрд с годовым темпом роста 28,3%. Сегодня озера являются необходимой частью любой корпоративной инфраструктуры Big Data.
Главная проблема озер данных, как и природных водоемов, в том, что они могут загрязняться и превращаться в болота. Иными словами, хранилища бывают настолько неструктурированы и завалены неоднородными данными, что разобраться во всем этом и тем более извлечь ценную информацию не представляется возможным.
Руководитель облачной платформы и дата-менеджмента в компании SAP Кен Тсай называет это явление «диссонансом данных».
«При диссонансе данные нельзя привести в упорядоченный и совместимый вид без глубокой проработки всех массивов. В таком хранилище одни виды данных нельзя сопоставить и сгруппировать с другими», — говорит Кен Тсай.
В такой ситуации данные компании могут дублироваться из отдела в отдел или, наоборот, теряться.
Подобные озера необходимо «чистить» и структурировать, чтобы хранилище не превращалось в свалку мертвой информации.
«Диссонанс данных происходит из-за того, что вся информация сбрасывается в озеро без какой-либо предварительной обработки и систематизации. Массивам не присваиваются никакие метаданные (описания времени создания, инициатора, источника и прочая служебная информация – ред.). Не предусматривается гибкое взаимодействие данных из озера с другими хранилищами и архивами. В конце концов компания не получает от такого озера никакой пользы», — говорит представитель SAP.
Кен Тсай дает четыре основных совета для того, чтобы не допустить превращения озера данных в болото.
- Доверьте работу специалистам
Если ваша компания только собирается завести собственное озеро, доверьте это дело профессионалам. На рынке существует достаточное количество специализированных фирм, которые за небольшую плату займутся структурированием и правильным хранением озер данных. Эффект от этого может окупить все затраты.
- Определитесь, для чего вам озера данных
Какие специалисты / отделы и как часто будут обращаться за информацией в озеро данных? Как будут использоваться те или иные виды данных? Какого результата вы ждете? Все эти вопросы необходимо решить, прежде чем начать заливать свой информационный водоем и выпускать в него рыбу.
- Составьте план хранения данных
Важнейшая составляющая «чистого» озера данных – метаданные. Это служебная информация, которая содержит дату и время создания и изменения файлов, имена последних пользователей и другие сведения. Кроме того, метаданные указывают структурную принадлежность данных, их вид и тип. Основываясь на этой информации, любой массив данных можно легко выловить из озера и применить на благо компании. Все это требует четкого плана хранения.
- Решите, сколько озер вам нужно
Возможно, компании не нужно заводить одно озеро, куда будут сваливаться данные всех отделов и производственных процессов. Нередко организации заводят отдельное озеро для каждого отдела и направления. Это может быть удобно как для самих сотрудников, так и для того, кто будет управлять репозиториями их заниматься их очисткой.
Соблюдая эти простые правила, можно не только сохранить первозданную чистоту озер данных, но и получить от них немалую выгоду в будущем.