Qlik AutoML
Автоматизированное машинное обучение без кода для профессиональных аналитиков.
Эффективная прогностическая аналитика и понятный ИИ.
Воспользуйтесь всеми возможностями машинного обучения благодаря простому пользовательскому интерфейсу без кода. С легкостью создавайте ML-эксперименты, выявляйте ключевые факторы и обучайте модели. Делайте прогнозы, чтобы понять не только, что может произойти, но и почему. Быстрая публикация данных или прямая интеграция моделей в приложения Qlik Sense® для полностью интерактивного анализа и планирования сценариев "что-если".
Автоматическая генерация моделей машинного обучения.
Qlik AutoML определяет ключевые факторы, содержащиеся в Ваших данных, и генерирует модели машинного обучения, используя самые оптимальные алгоритмы. Просто выберите целевое и позвольте Qlik AutoML сделать свою работу:
- Оценивать и ранжировать несколько моделей машинного обучения, выбирая модель с наилучшими показателями именно для Вашего набора данных;
- Определять важность характеристик, чтобы донести ключевые бизнес-факторы до пользователей;
- Пользователи могут легко настраивать и уточнять свои модели, проводя неограниченное количество экспериментов;
- Развертывать модели и составлять точные прогнозы;
- Публиковать прогностические данные и интеграции моделей с Qlik Sense в рамках анализа "что-если";
После создания модели AutoML позволяет сразу же составлять прогнозы на основе текущих данных. Просто загрузите данные для автоматической генерации вероятных результатов на основе Вашей модели.
И что еще более важно, получите значения SHAP (оказывающих влияние на прогнозирование), чтобы знать, почему были сделаны те или иные прогнозы и как лучше повлиять на результаты.
Составляйте самые точные прогнозы, чтобы лучше понять возможные результаты.
Изучайте прогнозируемые данные и тестируйте сценарии "что-если".
Планируйте свои действия, исследуя прогностические данные и тестируя сценарии "что-если" в Qlik Sense. Публикуйте полученные решения и изучайте их, используя всю мощь нашего ассоциативного механизма. Благодаря расширенной интеграции с прогностической аналитикой Вы сможете получить расчеты в режиме реального времени от AutoML. Быстрое изменение параметров в сценариях "что-если" и эффективная оценка результатов позволят понять, какие именно шаги приведут к наилучшему результату, прежде чем принимать то или иное решение.
В современном мире приложения машинного обучения используются повсюду: от рекомендаций в сфере музыки/продуктов питания до решения сложных задач в области здравоохранения. Безусловно, создание решений на основе МО сопряжено с определенными издержками, в частности, когда речь одет о:
- работе со сквозным конвейером МО;
- квалифицированных специалистах для построения и развертывания моделей.
Как правило, конвейер МО выглядит следующим образом:
Каждый из этапов является достаточно сложным и требует значительных временных затрат. Кроме того, для выполнения этих задач и, в конечном счете, для производства моделей, рассчитанных на конечного пользователя, требуется специальная экспертиза (знания в области статистики, программной инженерии и т.д.). Эти факторы привели к появлению возможности автоматизации конвейера и сокращению затрат на ручную работу.
Сегодня организациям также важно работать над привлечением персонала, который уже умеет эффективно работать с данными и использовать их для принятия взвешенных решений. Представьте себе BI-инженера, который уже участвует в аналитическом процессе. Разве не здорово, если мы сможем предоставить ему возможность разрабатывать функции, обучать и выбирать надежные модели и помогать их внедрять, не прибегая к услугам команды специалистов по анализу данных и инженеров машинного обучения? Именно этот запрос привел к появлению новой роли, получившей название Citizen Data Scientist.
Это первые шаги на пути демократизации машинного обучения, которые могут помочь организациям максимально эффективно реализовать свою стратегию работы с данными и аналитикой. И вот именно здесь на помощь и приходит Qlik AutoML!
Qlik AutoML - это автоматизированная платформа машинного обучения, используемая для создания моделей, прогнозирования и тестирования бизнес-сценариев. Я уже воспользовался возможностью попробовать ее в действии, и хочу признаться, что результаты превзошли все мои ожидания! В этой статье мне хотелось вкратце рассмотреть некоторые основные функции данной платформы.
В качестве примера мы будем использовать данные Breast Cancer Wisconsin (Diagnostic), наша цель - классифицировать клетки крови как "доброкачественные" или "злокачественные". Для начала создадим наш проект и загрузим набор данных с помощью интерфейса AutoML.
Qlik AutoML представляет хороший обзор данных для анализа данных со всей необходимой информацией о min/avg/max и других значениях.
Установим поле «Диагноз» в качестве целевого.
Интерфейс автоматически создаст конвейер, который по умолчанию состоит из этапов предварительной обработки, применяемых Qlik AutoML, таких как вменение нулевых значений, кодирование категориальных значений, масштабирование признаков, k-кратная кросс-валидация и т.д. Кроме того, он представит список алгоритмов, и у Вас будет возможность выбрать его составляющие или, наоборот, отменить сделанный выбор.
Кроме того, в конвейер можно добавить оптимизацию по гиперпараметрам, что позволит системе выполнить поисковую оптимизацию по множеству параметров и моделей для поиска наилучших вариантов.
Для того, чтобы начать обучение и позволить Qlik AutoML выполнить свою работу по поиску наилучшего алгоритма, нажмем кнопку Analyze. По мере выполнения процесса обучения интерфейс будет выглядеть следующим образом.
По окончании обучения система AutoML автоматически выберет самого лучшего кандидата. В нашем случае в качестве лучшей модели была выбрана Logistic Regression с результатом F1 0,951. Интересующий нас список, приведенный ниже, состоит из 4 ключевых компонентов.
Давайте кратко рассмотрим каждый из этих компонентов, поскольку они имеют решающее значение для понимания модели и особенностей работы Citizen Data Scientist.
Важность характеристик (feature importance)
Данное представление отображает Permutation importance, т.е. насколько сильно зависит производительность модели от того или иного признака, а также SHAP importance, т.е. какой вклад каждый признак вносит в прогнозируемый результат.
Permutation importance может быть полезна для уточнения модели путем исключения некоторых менее важных признаков. В нашем случае мы видим, что существует большое количество признаков (левое изображение), которые не являются важными, поэтому в дальнейшем мы отбросим их и уточним нашу модель, чтобы посмотреть, улучшится ли ее производительность или нет.
Аналогично, SHAP importance может помочь нам понять, какие признаки являются наиболее важными. Теперь мы знаем, что "texture_worst", "radius_worst", "concavity_mean" являются одними из наиболее важных характеристик, которые влияют на принятие окончательного решения.
Корреляция (Correlations)
Это представление позволяет узнать, как каждый признак коррелирует друг с другом в двух формах - корреляционной матрицы и целевых корреляций.
Попадание в цель (Fit)
Fit показывает, насколько хорошо Qlik AutoML справился с задачей по сравнению с историческими данными. В нашем случае, похоже, модель неплохо справилась с постановкой прогноза.
Статистика модели (Model Stats)
Последнее представление позволяет оценить нашу модель. Обычно это можно сделать, проанализировав ROC-кривую и матрицу смешения. Qlik AutoML также представляет эти графики.
Для нашей модели ROC-кривая выглядит следующим образом.
Теперь рассмотрим матрицу запутанности:
В нашем случае, т.е. для классификации раковых клеток, крайне важно знать количество ложноотрицательных результатов (т.е. когда предсказания неверно указывают на отсутствие состояния, а на самом деле оно присутствует). Мы видим, что 3 из них являются FN.
Если Вы хотите подробнее изучить все модели, использованные в конвейере обучения, то на экране Model Metrics представлена вся подробная информация. Вы также можете узнать гиперпараметры, используемые в каждой конкретной модели, щелкнув на ней. Вот пример из нашей модели:
Теперь давайте воспользуемся этим анализом и сделаем прогноз на неизвестных тестовых данных (не использовавшихся при обучении модели), чтобы посмотреть, как он работает.
Раздел Create Predictions (Создание прогнозов) позволяет загрузить тестовый набор данных и выполнить прогноз.
Представляем Вашему вниманию наш анализ прогнозов.
Одним из интересных представлений в этом анализе являются Сценарии (Scenarios), в которых можно изменять (увеличивать/уменьшать) характеристики и смотреть, как это повлияет на прогноз. Давайте попробуем увеличить значение 'texture_worst' и посмотрим, как будут выглядеть результаты.
Qlik AutoML представляет наглядное сравнение в виде сгруппированных гистограмм, позволяющее понять, как изменение сценария повлияло на прогнозы. Похоже, что увеличение признака "texture_worst" приводит к увеличению числа "злокачественных" пациентов.
После того, как мы удовлетворены результатами как обучающего, так и тестового анализа, система AutoML позволяет нам легко развернуть производственную версию модели с помощью API (Prediction API) для получения выводов. Теперь это можно интегрировать в любой рабочий процесс или фреймворк, позволяющий выполнять HTTPS POST-запросы.
На этом мы завершаем нашу статью о Qlik AutoML. Мой личный опыт использования этой системы был достаточно положительным. Вот некоторые ключевые моменты, которые особенно хотелось бы отметить:
- простой в использовании интерфейс (родной интерфейс Qlik Sense);
- быстрое обучение, оценка и развертывание моделей МО с минимальными изменениями;
- анализ с помощью визуализации;
- машинное обучение без кода;
- простая интеграция с фреймворками с помощью Prediction API.
В следующей статье мы подробно рассмотрим, как построить, развернуть и оценить модель машинного обучения с помощью Qlik AutoML, а также использовать ее в Qlik Sense для того, чтобы воспользоваться всеми преимуществами расширенной аналитики.