Корпоративное хранилище данных в промышленности: аналитика для выявления аномалий
Для безаварийной работы промышленного комплекса важно выявлять аномалии в работе оборудования и проводить предиктивное обслуживание. Чаще всего в промышленности применяется система удаленного мониторинга, где существует оператор, который отслеживает работу систем. У такого подхода существует ряд недостатков. Во-первых, такой подход требует постоянного внимания оператора, что может быть сложно, если систем много. Во-вторых, нужно длительное время улавливать тренды, чтобы предупреждать отказы. Простое применение контроля предельных значений телеметрических данных, доступное в большинстве систем удаленного мониторинга, не всегда является эффективным решением. Оптимальным решением является создание системы с контуром расширенной аналитики, которая решает задачи поиска аномалий.
Виды аномалии
Чаще всего аномалиями считаются следующие изменения в телеметрии:
- Пики и провалы
- Медленные восходящие или нисходящие тренды
- Изменение тренда
- Изменение уровня сигнала
Сложности при разработке системы обнаружения аномалий
Система обнаружения аномалий обычно является частью КХД, поэтому все проблемы, связанные с построением такого хранилища, также актуальны для этой системы.
Трудности, которые могут возникнуть при контроле аномалий:
- Необходимость реализации потоковой обработки телеметрических данных
Эффективность обнаружения аномалий зависит от скорости реакции. С течением времени ценность принятия решений по аномалиям значительно снижается, поэтому система должна работать в режиме, близком к реальному времени. Это требует реализации потоковой обработки данных, которая сложнее традиционной пакетной обработки из-за использования специализированных алгоритмов и технологий для работы с потоками данных.
- Сложности с интерпретацией значений физических величин
Технологические процессы включают множество параметров. Часто значения, передаваемые через теги, не имеют ясной связи с физическими показателями. Для алгоритмов обнаружения аномалий важно иметь возможность автоматически определять отклонения на основе онлайн-выборок, независимо от привязки к конкретным физическим величинам, и запускать алгоритмы на потоках данных для анализа значений в определенных временных интервалах.
- Необходимость реализации контуров обратной связи
Даже если система обнаружила проблему, но информация не была передана людям, принимающим решения, основная цель не достигнута. Поэтому важна интеграция с системами уведомлений и диспетчеризации, чтобы обеспечить оперативное реагирование на выявленные аномалии.
Машинное обучение для выявления отклонений
Машинное обучение является перспективной тенденцией развития систем удаленного мониторинга и предиктивного обслуживания. Преимуществом данного метода являются алгоритмы, которые с помощью накопленной статистики обучаются для поиска аномалий в данных. Данный метод позволяет избежать длительного и дорогостоящего создания полноценной математической модели установки. Основой метода является предположение о том, что аномалии в данных сигнализируют о поломке.
Параметрические методы обнаружения аномалий
Для реализации параметрических методов обнаружения аномалий предлагается подход, основанный на периодической проверке гипотез о равенстве двух выборок телеметрии — текущей и эталонной. Эталонная выборка не обязательно должна содержать 100% значений телеметрии от исправного устройства или процесса за статистически значимый период, поскольку она может быть весьма обширной. Мы будем оценивать всю телеметрию по ее части.
Если устройство или процесс функционирует в одном режиме, задача упрощается. Математически доказано, что если выборка случайно отобрана и содержит более 30 элементов (значений телеметрии), то выборочные среднее и дисперсия будут близки к истинным значениям этих параметров в генеральной совокупности (все значения телеметрии).
Если установка работает в нескольких режимах, которые отражаются в различиях в телеметрии, следует применять стратифицированные выборки. Для этого нужно отобрать пропорциональные случайные выборки из всех режимов работы и затем объединить их.
После формирования эталонной выборки можно применить гипотезу о равенстве средних для зависимых (парных) выборок. Это означает, что при нормальной работе установки ее телеметрия должна соответствовать эталонной выборке.
При реализации метода текущий поток телеметрии разбивается на временные окна соответствующей длины, которые сравниваются друг с другом. Каждое такое сравнение в рамках теории вероятностей представляет собой попытку "опровергнуть гипотезу о соответствии текущей выборки и эталонной".
ML-методы обнаружения аномалий
На рынке можно найти готовые модели для обнаружения аномалий от отечественных разработчиков. Тем не менее, стандартные модели могут не соответствовать нашим требованиям, если необходимо учитывать не только изменения отдельных параметров, но и их взаимозависимости — например, связь между током и скоростью.
Если существующие модели не удовлетворяют нашим потребностям, всегда есть возможность разработать собственные решения. В идеале стоит сосредоточиться на бинарной классификации, где задача состоит в отнесении каждого значения к одной из двух категорий: «аномальное» или «нормальное». Этот подход значительно упростит решение на первом этапе.
Следующим шагом будет работа с задачами регрессии, где требуется предсказать числовой параметр по значениям телеметрии, отражающий способность оборудования выполнять свои функции (например, производительность или объем выпускаемой продукции).
Для классификации выборку нужно разделить на обучающую, тестовую и проверочную, при этом важно провести разметку, определяя, является ли значение телеметрии нормальным или аномальным.
Выбор архитектуры решения определения аномалий
Методов определения аномалий достаточно много. Лучшим способом проверки метода является тестирование на реальных данных. Таким способом можно понять, какой метод лучше подходит в конкретной ситуации. В связи с этим очень важно правильно спланировать архитектуру решения таким образом, чтобы можно было быстро проверить модель и, если она не дает хороших результатов, перейти к следующей.
Применение моделей для обнаружения аномалий и других методов машинного обучения представляет собой перспективное направление, которое позволяет в режиме квазиреального времени выявлять сбои в работе оборудования или негативные тренды. Существует множество реализаций методов обнаружения аномалий, как в виде облачных сервисов, так и в виде библиотек для Python и других языков программирования. Использование облачных сервисов для анализа потоков телеметрии промышленных устройств может быть упрощено за счет применения решений с открытым исходным кодом для создания шлюзов граничных вычислений. Эти решения можно использовать как в облачных средах, так и на локальных серверах, обеспечивая гибкость и адаптивность в обработке данных.