Озеро данных, хранилище данных и база данных... В чем разница?
Сейчас есть довольно много модных словечек, касающихся управления данными. Озера данных, хранилища данных и базы данных – что это такое? В этой статье мы рассмотрим их, а также их определения, ключевые различия и то, как мы видим в будущее в этой сфере.
Определение озера данных
Если вам нужна полная и подробная информация по этому вопросу, вы можете прочитать нашу статью «Что такое озеро данных?» Но здесь мы можем сказать вам одно: «Озеро данных – это место для хранения ваших структурированных и неструктурированных данных, а также метод организации больших объемов очень разнообразных данных из разных источников».
Озеро данных имеет тенденцию очень быстро принимать данные и обрабатывать их позже, на лету, когда люди к ним обращаются.
Никогда не пропускайте новости о больших данных! Подпишитесь на блог Big Data, чтобы получать свежие сообщения прямо на свой почтовый ящик!
Определение хранилища данных
Хранилище данных собирает данные из различных источников, внутренних или внешних, и оптимизирует данные для извлечения в коммерческих целях. Данные обычно структурированы, часто из реляционных баз данных, но могут быть и неструктурированными.
В первую очередь, хранилище данных предназначено для сбора бизнес-информации и позволяет компаниям интегрировать свои данные, управлять ими и анализировать их на многих уровнях.
Определение базы данных
По сути, база данных – это организованный набор данных. Базы данных классифицируются по способу хранения этих данных. Ранние базы данных были плоскими и ограничивались простыми строками и столбцами. Сегодня популярными базами данных являются:
- Реляционные базы данных, которые хранят свои данные в таблицах.
- Объектно-ориентированные базы данных, которые хранят свои данные в объектных классах и подклассах.
Витрина данных, болото данных и другие термины
Но есть и другие термины, такие как «витрина данных» и «болото данных», которые мы здесь вкратце рассмотрим, чтобы вы могли выглядеть совсем как эксперт в сфере данных.
Корпоративное хранилище данных (EDW): это хранилище данных, которое обслуживает всю компанию.
Витрина данных: витрина данных используется отдельными отделами или группами и намеренно ограничена по объему, поскольку она рассматривает то, что пользователям нужно прямо сейчас, из данных, которые уже существуют.
Болото данных: когда ваше озеро данных становится беспорядочным и неуправляемым, оно превращается в болото данных.
Различия между озерами данных, хранилищами данных и базами данных
Озера данных, хранилища данных и базы данных предназначены для хранения данных. Итак, почему же существуют разные способы хранения данных и что в них важного? В этом разделе мы рассмотрим существенные различия, и каждое определение будет основано на предыдущем.
База данных
Базы данных возникли первыми еще в 1950-х годах, а реляционные базы данных стали популярными в 1980-х.
Базы данных созданы для мониторинга и обновления структурированных данных в реальном времени, и в них обычно находятся только самые свежие данные.
Хранилище данных
Но хранилище данных – это модель для поддержки потока данных из операционных систем в системы принятия решений. По сути, это означает, что компании обнаруживали, что их данные поступают из разных мест, и им требовалось отдельное место для их анализа. Следовательно, это означало рост хранилищ данных.
Например, предположим, что у вас есть бонусная карта в сети продуктовых магазинов. В базе данных могут быть ваши данные с последними покупками для анализа текущих покупательских тенденций. Хранилище данных может содержать записи обо всех товарах, которые вы когда-либо покупали, и оно будет оптимизировано, чтобы специалистам по данным было легче анализировать все эти данные.
Озеро данных
Теперь давайте добавим озеро данных. А поскольку это более новый термин, мы поговорим о нем подробнее. Озера данных, как способ хранения неструктурированных данных более экономичным способом, начали расти примерно в 2000-х годах. Ключевая фраза здесь – рентабельность.
Хотя базы данных и хранилища данных могут обрабатывать неструктурированные данные, они делают это не очень эффективно. При таком большом количестве данных хранение всех ваших данных в базе данных или хранилище данных может стать весьма дорогостоящим.
Кроме того, есть ограничение по времени и усилиям. Данные, которые поступают в базы данных и хранилища данных, необходимо очистить и подготовить перед сохранением. А с сегодняшними неструктурированными данными это может оказаться долгим и трудным процессом, когда вы даже не совсем уверены, что данные будут использоваться.
Вот почему озера данных вышли на первый план. Озеро данных в основном предназначено для обработки неструктурированных данных самым экономичным способом. Напоминаем, что неструктурированные данные могут быть чем угодно, от текста до данных социальных сетей и машинных данных, таких как файлы журналов и данные датчиков с устройств IoT.
Пример озера данных
Возвращаясь к примеру с продуктовым магазином, который мы использовали с хранилищем данных, вы можете подумать о добавлении озера данных в смесь, когда вам нужен способ хранения больших данных. Подумайте о социальных настроениях, которые вы собираете, или о результатах рекламы. Все это неструктурировано, но представляет ценность, и может храниться в озере данных и работать как с вашим хранилищем данных, так и с вашей базой данных.
Примечание 1. Наличие озера данных не означает, что вы можете просто загрузить свои данные волей-неволей. Это приводит к огромному количеству данных, но в то же время, упрощает процесс, а новые технологии, такие как каталог данных, будут постоянно упрощать поиск и использование данных в вашем озере данных.
Примечание 2. Если вам нужна дополнительная информация об идеальной архитектуре озера данных, вы можете прочитать полную статью, которую мы написали по этой теме. В ней объясняется, почему вы захотите, чтобы ваше озеро данных было построено на хранилище объектов и Apache Spark, а не на Hadoop.
Какое будущее у озер данных, хранилищ данных и баз данных?
Сможет ли одна из этих технологий превзойти другие?
Мы так не думаем.
Вот что мы видим. По мере роста ценности и объема неструктурированных данных озеро данных будет становиться все более популярным. Но всегда найдется место и для баз данных и хранилищ данных.
Вы, вероятно, продолжите хранить свои структурированные данные в базе данных или хранилище данных. Но в наши дни все больше компаний переносят свои неструктурированные данные в озера данных в облако, где их экономичнее хранить и легче перемещать, когда это необходимо.
Эта рабочая нагрузка, которая по-разному задействует базу данных, хранилище данных и озеро данных, работает и работает хорошо. Мы и дальше будем видеть ее в обозримом будущем.
Если вас интересует озеро данных, и вы хотите попробовать создать его самостоятельно, мы предлагаем бесплатную пробную версию озера данных с пошаговым руководством. Начните сегодня и не забудьте подписаться на блог Oracle Big Data, чтобы получать последние новости на свой почтовый ящик.