BI Consult
  • Russian BI Исследование российских bi
  • Перейти на Fine BI
  • Контакты
  • +7 812 334-08-01
    +7 499 608-13-06
  • Отправить сообщение
  • Главная
  • Продукты Эксперт-BI
    • Дистрибуция
    • Розничная торговля
    • Производство
    • Операторы связи
    • Страхование
    • Банки
    • Лизинг
    • Логистика
    • Нефтегазовый сектор
    • Медицина
    • Сеть ресторанов
    • E-Commerce
    • Энергетика
    • Фармацевтика
    • Построение хранилища данных
    • Создание Data Lake
    • Цифровая трансформация
    • Управление по KPI
    • Финансы
    • Продажи
    • Склад
    • HR
    • Маркетинг
    • Внутренний аудит
    • Категорийный менеджмент
    • S&OP и прогнозная аналитика
    • Геоаналитика
    • Цепочки поставок (SCM)
    • AutoML
    • Process Mining
    • Сквозная аналитика
  • Платформы
    • FineBI
    • FineReport
    • ATK BiView-1C коннектор
    • Airflow + NiFi
    • Visiology
    • Luxms BI
    • Modus BI
    • PIX BI
    • Arenadata
    • ClickHouse
    • Greenplum
    • Postgres Professional
    • Analytic Workspace + Alpha BI
    • FlyBI + Форсайт. Аналитическая Платформа
    • Loginom
    • Yandex.DataLens
    • Триафлай
    • ChatGPT
    • Open-source BI
  • Услуги
    • Переход на отечественные BI и DWH системы
    • Консалтинг
    • Пилотный проект
    • Обучение и сертификация
    • Бесплатное обучение
    • Поддержка
    • Технические задания
    • Сбор требований для проекта внедрения BI-системы
    • CI/CD для DWH
    • Аудит BI приложений
    • Выделенная команда
    • Настойка и поддержка баз данных
    • Разработка BI Стратегии
    • Styleguide для BI-системы
    • Как выбрать BI-систему
  • Курсы
    • Учебный курс Информационная грамотность (Data Literacy)
    • Учебный курс для бизнес-аналитиков
    • Учебный курс по Data Governance
    • Учебный курс Как стать CDO
    • Учебный курс Современная архитектура хранилища данных
    • Учебный курс по Fine BI
    • Учебный курс по FineReport
    • Учебный курс по DWH
    • Учебный курс по Data Science (ML, AI)
    • Учебный курс по PostgreSQL
    • Учебный курс по Greenplum
    • Учебный курс по Apache Airflow и NiFi
    • Учебный курс по Open-source BI
    • Учебный курс по ClickHouse
    • Учебный курс по DataLens
    • Учебный курс по Loginom
    • Учебный курс по Modus BI и ETL
    • Учебный курс по Visiology
    • Учебный курс по dbt (Data Build Tool)
  • Компания
    • Руководство
    • Новости
    • Клиенты
    • Карьера
    • Скачать
    • Контакты

BI

  • FineBI
  • FineReport
  • ATK BiView-1C Коннектор
  • Airflow
  • Visiology
  • Luxms BI
  • Modus BI
  • Analytic Workspace + Alpha BI
  • PIX BI
  • FlyBI + Форсайт. Аналитическая Платформа
  • Loginom
  • Yandex.DataLens
  • Триафлай
  • ChatGPT

СУБД

  • Arenadata
  • ClickHouse
  • Greenplum
  • Postgres Professional

Другое

  • Data Engeneering
    • Создание Data Lake
    • Создание Data Warehouse
    • Учебный курс "Современная архитектура хранилища данных"
Главная » Курсы » Учебный курс по Data Science (ML, AI)

Модель ARIMA в машинном обучении

Модель ARIMA означает интегрированное скользящее среднее с авторегрессией. Эта модель предоставляет набор функций, которые являются очень мощными и гибкими для выполнения любых задач, связанных с прогнозированием временных рядов.

В машинном обучении модель ARIMA обычно представляет собой класс статистических моделей, которые дают выходные данные, которые линейно зависят от их предыдущих значений в комбинации стохастических факторов.

При выборе подходящей модели прогнозирования временных рядов нам необходимо визуализировать данные для анализа тенденций, сезонности и циклов. Когда сезонность является очень сильной характеристикой временных рядов, нам необходимо рассмотреть такую модель, как сезонная ARIMA (SARIMA).

Модель ARIMA работает с использованием модели распределенного запаздывания, в которой алгоритмы используются для прогнозирования будущего на основе запаздывающих значений. В этой статье я покажу вам, как использовать модель ARIMA, используя очень практичный пример из машинного обучения, которым является обнаружением аномалий.

 

Обнаружение аномалий с помощью модели ARIMA

Обнаружение аномалий означает выявление неожиданных событий в процессе. Это означает обнаружение угроз для наших систем, которые могут нанести вред с точки зрения безопасности и утечки важной информации.

Важность обнаружения аномалий не ограничивается безопасностью, но оно используется для обнаружения любого события, которое не соответствует нашим ожиданиям. Здесь я объясню вам, как мы можем использовать модель ARIMA для обнаружения аномалий.

Я буду использовать данные, основанные на поминутных показателях загрузки ЦП хоста. Теперь приступим к выполнению этой задачи, импортировав необходимые библиотеки:

 

import pandas as pd
!pip install pyflux
import pyflux as pf
from datetime import datetime

 

Теперь давайте импортируем данные и кратко рассмотрим данные и некоторые из них. Вы можете скачать данные, которые я использую в этой задаче, отсюда.

 

from google.colab import files
uploaded = files.upload()
data_train_a = pd.read_csv('cpu-train-a.csv', parse_dates=[0], infer_datetime_format=True)
data_test_a = pd.read_csv('cpu-test-a.csv', parse_dates=[0], infer_datetime_format=True)
data_train_a.head()

 

 

Теперь давайте визуализируем эти данные, чтобы быстро понять, с чем мы работаем:

 

import matplotlib.pyplot as plt
plt.figure(figsize=(20,8))
plt.plot(data_train_a['datetime'], data_train_a['cpu'], color='black')
plt.ylabel('CPU %')
plt.title('CPU Utilization')

 

 

Использование модели ARIMA

А сейчас давайте посмотрим, как мы можем использовать модель ARIMA для прогнозирования данных:

 

model_a = pf.ARIMA(data=data_train_a, ar=11, ma=11, integ=0, target='cpu')
x = model_a.fit("M-H")

 

Запуск 1:

Приемлемость Metropolis-Hastings = 0.0


Запуск 2:

Приемлемость Metropolis-Hastings = 0.026


Запуск 3:

Приемлемость Metropolis-Hastings = 0.2346


Обучение завершено! Запуск на выборке:

Приемлемость Metropolis-Hastings = 0.244425

 

Теперь давайте визуализируем нашу модель:

 

model_a.plot_fit(figsize=(20,8))

 

 

Приведенные выше выходные данные показывают использование ЦП с течением времени с учетом прогноза модели ARIMA. Теперь давайте проведем образец теста, чтобы оценить производительность нашей модели:

 

model_a.plot_predict_is(h=60, figsize=(20,8))

 

 

Приведенные выше выходные данные показывают входящую в выборку (обучающую выборку) нашей модели прогнозирования ARIMA. Теперь я выполню фактический прогноз, используя последние 100 наблюдаемых точек данных, за которыми следуют 60 прогнозируемых точек:

 

model_a.plot_predict(h=60,past_values=100,figsize=(20,8))

 

 

Давайте выполним такое же обнаружение аномалии для другого сегмента набора данных об использовании ЦП, захваченного в другое время:

 

data_train_b = pd.read_csv('cpu-train-b.csv', parse_dates=[0], infer_datetime_format=True)
data_test_b = pd.read_csv('cpu-test-b.csv', parse_dates=[0], infer_datetime_format=True)
plt.figure(figsize=(20,8))
plt.plot(data_train_b['datetime'], data_train_b['cpu'], color='black')
plt.ylabel('CPU %')
plt.title('CPU Utilization')

 

 

Теперь давайте сопоставим эти данные с моделью:

 

model_b = pf.ARIMA(data=data_train_b, ar=11, ma=11, integ=0, target='cpu')
x = model_b.fit("M-H")

 

Запуск 1:

Приемлемость Metropolis-Hastings = 0.0


Запуск 2:

Приемлемость Metropolis-Hastings = 0.016


Запуск 3:

Приемлемость Metropolis-Hastings = 0.1344


Запуск 4:

Приемлемость Metropolis-Hastings = 0.21025


Запуск 5:

Приемлемость Metropolis-Hastings = 0.23585


Обучение завершено! Запуск на выборке:

Приемлемость Metropolis-Hastings = 0.34395

 

model_b.plot_predict(h=60,past_values=100,figsize=(20,8))

 

 

Мы можем визуализировать аномалию, которая возникает через короткое время после периода обучения, поскольку наблюдаемые значения попадают в диапазоны низкой достоверности, поэтому это вызовет предупреждение об аномалии.

Надеюсь, вам понравилась эта статья об обнаружении аномалий с помощью модели ARIMA.

 

Узнать стоимость решенияЗапросить видео презентацию

Запросить видео презентацию Запросить доступ к демо стенду online Узнать стоимость лицензий

Задать вопрос

loading...

Решения

Анализировать ФинансыУвеличивайте ПродажиОптимальный Склад и ЛогистикаМаркетинговые Метрики

Клиенты
  • KazanExpress — торговая площадка, на которой представлены товары с бесплатной доставкой за один день в более, чем 70 городах России. Аналитическое решение на базе платформы данных Yandex Cloud позволило компании обеспечить демократизацию данных. Результат — принятие обоснованных решений на всех уровнях, увеличение лояльности партнеров и повышение прозрачности бизнеса.

    Мониторинг ключевых метрик в реальном времени минимизировал недополученную прибыль и обеспечил рост прибыльных направлений, а возможности геоаналитики сервиса Yandex DataLens помогли за короткое время проанализировать локации для открытия более 90 ПВЗ в 25 городах России и заложить основу для роста компании.

  • ИНВИТРО
    ИНВИТРО – крупнейшая частная медицинская компания в России, специализирующаяся на лабораторной диагностике и оказании других медицинских услуг.
     
    ИНВИТРО располагает 9 самыми современными лабораторными комплексами и крупнейшей в Восточной Европе сетью более чем из 900 медицинских офисов. Страны присутствия — Россия, Украина, Казахстан, Беларусь.
     
  • АО «НСПК» - оператор национальной системы платежных карт, который предоставляет операционные услуги и услуги платежного клиринга операторам платежных систем, в том числе Банку России и кредитным организациям. В задачи АО «НСПК» входит обеспечение бесперебойного доступа к переводам денежных средств в Российской Федерации с использованием платежных инструментов.  Также компания является оператором национальной платёжной системы «Мир» и операционным и платёжным клиринговым центром Системы быстрых платежей (СБП).

  • ПАО «Банк Уралсиб» (Публичное акционерное общество «Банк Уралсиб») — российский коммерческий банк. В 2020 году входил в топ-20 банков РФ по размеру активов (рэнкинг рейтингового агентства Эксперт РА), в 2021 году — в топ-25 крупнейших банков страны по расчётам агрегатора Банки.ру

  • Решения
    • Дистрибуция
    • Розничная торговля
    • Производство
    • Операторы связи
    • Страхование
    • Банки
    • Лизинг
    • Логистика
    • Нефтегазовый сектор
    • Медицина
    • Сеть ресторанов
    • E-Commerce
    • Энергетика
    • Фармацевтика
  • Услуги
    • Переход на отечественные BI и DWH
    • Консалтинг
    • Пилотный проект
    • Обучение и сертификация
    • Бесплатное обучение
    • Техническая поддержка
    • Технические задания
    • Сбор требований для проекта внедрения BI-системы
    • CI/CD для DWH
    • Аудит BI приложений
    • Выделенная команда
    • Настойка и поддержка баз данных
    • Разработка BI Стратегии
    • Styleguide для BI-системы
    • Как выбрать BI-систему
  • Платформы
    • FineBI
    • FineReport
    • ATK BiView-1C Коннектор
    • Airflow + NiFi
    • Visiology
    • Luxms BI
    • Modus BI
    • PIX BI
    • Arenadata
    • ClickHouse
    • Greenplum
    • Postgres Professional
    • Analytic Workspace + Alpha BI
    • FlyBI + Форсайт. Аналитическая Платформа
    • Loginom
    • Yandex.DataLens
    • Триафлай
    • ChatGPT
    • Open-source BI
  • Курсы
    • Учебный курс Информационная грамотность
    • Учебный курс для бизнес-аналитиков
    • Учебный курс по Data Governance
    • Учебный курс Как стать CDO
    • Учебный курс Современная архитектура хранилища данных
    • Учебный курс по Fine BI
    • Учебный курс по FineReport
    • Учебный курс по DWH
    • Учебный курс по Data Science (ML, AI)
    • Учебный курс по PostgreSQL
    • Учебный курс по Apache Airflow и NiFi
    • Учебный курс по Open-source BI
    • Учебный курс по ClickHouse
    • Учебный курс по DataLens
    • Учебный курс по Loginom
    • Учебный курс по Modus BI и ETL
    • Учебный курс по Visiology
    • Учебный курс по dbt
  • Функциональные решения
    • Построение хранилища данных
    • Создание Data Lake
    • Цифровая трансформация
    • Управление по KPI
    • Финансы
    • Продажи
    • Склад
    • HR
    • Маркетинг
    • Внутренний аудит
    • Категорийный менеджмент
    • S&OP и прогнозная аналитика
    • Геоаналитика
    • Цепочки поставок (SCM)
    • AutoML
    • Process Mining
    • Сквозная аналитика
  • Компания
    • О нас
    • Руководство
    • Новости
    • Клиенты
    • Скачать
    • Контакты
LinkedInYouTubeVkontakteFacebook
ООО "Би Ай Консалт",
ИНН: 7811437757,
ОГРН: 1097847154184
199178, Россия,
Санкт-Петербург,
6-ая линия В.О., Д. 63, 4 этаж
Тел: +7 (812) 334-08-01
Тел: +7 (499) 608-13-06
E-mail: info@biconsult.ru