Современная промышленная аналитика Интернета вещей в Azure
Клиенты используют Azure Databricks для промышленной аналитики Интернета вещей
Этот пост – первый из серии из трех частей, посвященных аналитике промышленного IoT (интернет вещей). Он написан в соавторстве Databricks и членами группы Microsoft Cloud Solution Architecture. Мы хотели бы поблагодарить архитектора решений Databricks Самира Гупту и архитекторов облачных решений Microsoft Лану Копривицу и Хуберта Дуа за их вклад в этот и два следующих поста.
За последние несколько лет промышленный Интернет вещей (IIoT) разросся как пакет технологий массового использования, его апробировали преимущественно в нефтегазовой отрасли для широкомасштабного внедрения и использования в химической промышленности, коммунальном, транспортном и энергетическом секторах. Традиционные системы Интернета вещей, такие как Scada, Historians и даже Hadoop, не дают возможности анализировать большие данные, необходимые большинству организаций для прогнозной оптимизации своих промышленных активов, учитывая следующие факторы.
Вызовы |
Необходимые возможности |
Объемы данных значительно выросли и встречаются часто |
Возможность надежного и экономичного сбора и хранения данных с устройств IoT с детализацией менее секунды, которые передают терабайты данных в день. |
Потребности в обработке данных становятся все более сложными |
Обработка данных в соответствии с ACID – временные окна, агрегирование, сводные данные, обратное заполнение, смещение с возможностью простой повторной обработки старых данных |
Больше пользователей хотят получить доступ к данным |
Данные – это открытый формат, которым легко поделиться с инженерами по эксплуатации, аналитиками данных, инженерами по обработке данных и специалистами по обработке данных без создания разрозненных хранилищ. |
Для принятия решений необходимо масштабируемое машинное обучение |
Возможность быстро и совместно обучать прогнозные модели на детализированных исторических данных для принятия интеллектуальных решений по оптимизации активов. |
Требования по снижению затрат выше, чем когда-либо |
Недорогая управляемая платформа по запросу, которая независимо масштабируется вместе с данными и рабочими нагрузками, не требуя значительного первоначального капитала. |
Организации обращаются к платформам облачных вычислений, таким как Microsoft Azure, чтобы воспользоваться преимуществами масштабируемых технологий с поддержкой IIoT, которые они могут предложить, и которые упрощают прием, обработку, анализ и обслуживание источников данных временных рядов, таких как Historians и SCADA-системы.
В части 1 мы обсуждаем комплексный технологический стек и роль, которую Azure Databricks играет в архитектуре и дизайне промышленного приложения современной аналитики Интернета вещей.
Во второй части мы более подробно рассмотрим развертывание современной аналитики IIoT, загрузим данные IIoT в режиме реального времени с полевых устройств в хранилище Azure Data Lake и выполним сложную обработку временных рядов напрямую в Data Lake.
В части 3 мы рассмотрим машинное обучение и аналитику с использованием данных промышленного Интернета вещей.
Пример использования – оптимизация ветряных турбин
Большинство проектов IIoT Analytics предназначены для максимального кратковременного использования промышленного актива при минимизации затрат на его долгосрочное обслуживание. В этой статье мы сосредоточимся на гипотетическом поставщике энергии, который пытается оптимизировать свои ветряные турбины. Конечная цель состоит в том, чтобы определить набор оптимальных рабочих параметров турбины, которые максимизируют выходную мощность каждой турбины и минимизируют время ее до отказа.
Заключительные артефакты этого проекта:
- Автоматизированный конвейер приема и обработки данных, который передает данные всем конечным пользователям.
- Прогностическая модель, которая оценивает выходную мощность каждой турбины с учетом текущих погодных и эксплуатационных условий.
- Прогностическая модель, которая оценивает оставшийся срок службы каждой турбины с учетом текущих погодных и эксплуатационных условий.
- Оптимизационная модель, которая определяет оптимальные условия эксплуатации для максимального увеличения выходной мощности и минимизации затрат на техническое обслуживание, тем самым максимизируя общую прибыль.
- Панель аналитики в реальном времени для руководителей, позволяющая визуализировать текущее и будущее состояние своих ветряных электростанций, как показано ниже:
Архитектура – прием, хранение, подготовка, обучение, обслуживание, визуализация
Представленная ниже архитектура иллюстрирует современную платформу, лучшую в своем классе, которую используют многие организации, и которая использует все возможности Azure для аналитики IIoT.
Ключевым компонентом этой архитектуры является озеро данных Azure (ADLS), которое обеспечивает в Azure шаблон аналитики с однократной записью и частым доступом. Однако сами по себе озера данных не решают реальных проблем, связанных с потоковой передачей данных временных рядов. Формат хранения Delta обеспечивает уровень отказоустойчивости и производительности для всех источников данных, хранящихся в ADLS. В частности, для данных временных рядов Delta предоставляет следующие преимущества по сравнению с другими форматами хранения в ADLS:
Требуемые возможности |
Другие форматы в ADLS Gen 2 |
Дельта-формат в ADLS Gen 2 |
Единая партия и потоковая передача |
Озера данных часто используются вместе с потоковым хранилищем, таким как CosmosDB, что приводит к сложной архитектуре. |
Транзакции, совместимые с ACID, позволяют инженерам данных выполнять потоковую загрузку и исторически загружать пакеты в одни и те же места на ADLS. |
Применение и развитие схемы |
Озера данных не навязывают схему, требуя, чтобы все данные были помещены в реляционную базу данных для обеспечения надежности. |
Схема применяется по умолчанию. По мере добавления к потоку данных новых устройств Интернета вещей схемы могут безопасно развиваться, чтобы последующие приложения не перестали работать |
Эффективные апсерты |
Озера данных не поддерживают оперативные обновления и слияния, требуя удаления и вставки целых разделов для выполнения обновлений. |
Команды MERGE эффективны в ситуациях, связанных с отложенными показаниями IoT, измененными таблицами измерений, используемыми для обогащения в реальном времени, или при необходимости повторной обработки данных. |
Сжатие файлов |
При потоковой передаче данных временных рядов в озера данных создаются сотни или даже тысячи крошечных файлов. . |
Автоматическое сжатие в Delta оптимизирует размеры файлов для увеличения пропускной способности и параллелизма. |
Многомерная кластеризация |
Озера данных обеспечивают фильтрацию вниз только для разделов |
Упорядочивание временных рядов по таким полям, как временная метка или идентификатор датчика, позволяет Databricks фильтровать и объединять эти столбцы в 100 раз быстрее, чем простые методы разделения. |
Резюме
В этом посте мы рассмотрели ряд проблем, с которыми сталкиваются традиционные системы IIoT. Мы рассмотрели вариант использования и цели современной аналитики IIoT, поделились повторяемой архитектурой, которую организации уже развертывают в масштабе, и изучили преимущества Дельта-формата для каждой из требуемых возможностей.
В следующем посте мы будем принимать данные IIoT в реальном времени с полевых устройств в Azure и выполнять сложную обработку временных рядов напрямую в озере данных Delta Lake.
Ключевая технология, которая связывает все воедино – это Delta Lake. Delta на ADLS обеспечивает надежные конвейеры потоковой передачи данных и высокопроизводительные запросы для анализа огромных объемов данных временных рядов. Наконец, она позволяет организациям по-настоящему принять шаблон Lakehouse, добавив лучшие в своем классе инструменты Azure в хранилище данных с возможностью однократной записи и частым доступом.