Кривая AUC и ROC с использованием Python
В машинном обучении кривая AUC и ROC используется для измерения производительности модели классификации путем построения графика частоты истинных положительных результатов и частоты ложных срабатываний. В этой статье я расскажу вам, как построить кривую AUC и ROC с помощью Python.
Кривая AUC и ROC
ROC означает «Receiver Operating Characteristic» (кривая рабочих характеристик приемника). Это – график, который показывает эффективность модели машинного обучения при решении задачи классификации, отображая частоту истинных срабатываний и частоту ложных срабатываний. AUC расшифровывается как «Area Under the Curve» (площадь под кривой). Она используется для измерения всей площади под кривой ROC.
Кривая ROC отображает частоту истинных положительных и ложных срабатываний при различных порогах классификации, тогда как AUC показывает совокупную меру производительности модели машинного обучения по всем возможным порогам классификации. В следующем разделе я расскажу вам, как построить кривую AUC и ROC с помощью Python.
Кривая AUC и ROC с использованием Python
Надеюсь, вы теперь поняли, что такое кривая AUC и ROC в машинном обучении. Теперь давайте посмотрим, как визуализировать кривую AUC и ROC с помощью Python. Сначала я обучу модель машинного обучения, а затем построю кривую AUC и ROC с помощью Python. Начнем с импорта необходимых библиотек Python и набора данных:
import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.preprocessing import LabelEncoder test = pd.read_csv("test1.csv") train = pd.read_csv("train1.csv")
Теперь я обучу модель классификации с помощью классификатора LightGBM. Итак, давайте подготовим данные и обучим модель:
target = train.pop('target') for i in train.columns: if train[i].dtype == 'object': label = LabelEncoder() label.fit(list(train[i].values)+list(test[i].values)) train[i] = label.transform(train[i].values) test[i] = label.transform(test[i].values) from sklearn.model_selection import train_test_split x_train, x_test, y_train, y_test = train_test_split(train, target, test_size=0.1, random_state=0) from lightgbm import LGBMClassifier model = LGBMClassifier(random_state=0, metric='auc') model.fit(x_train, y_train) y_pred = model.predict_proba(x_test)[:, 1]
А сейчас давайте вычислим ROC и AUC, и затем построим их график с помощью библиотеки matplotlib в Python:
from sklearn import metrics auc = metrics.roc_auc_score(y_test, y_pred) false_positive_rate, true_positive_rate, thresolds = metrics.roc_curve(y_test, y_pred) plt.figure(figsize=(10, 8), dpi=100) plt.axis('scaled') plt.xlim([0, 1]) plt.ylim([0, 1]) plt.title("AUC & ROC Curve") plt.plot(false_positive_rate, true_positive_rate, 'g') plt.fill_between(false_positive_rate, true_positive_rate, facecolor='lightgreen', alpha=0.7) plt.text(0.95, 0.05, 'AUC = %0.4f' % auc, ha='right', fontsize=12, weight='bold', color='blue') plt.xlabel("False Positive Rate") plt.ylabel("True Positive Rate") plt.show()
Кривая, которую вы видите на приведенном выше рисунке, называется кривой ROC, а площадь под кривой на приведенном выше рисунке – это AUC. Когда AUC равен 1, это идеальная ситуация для модели машинного обучения. Ниже показано, как выглядят кривые AUC и ROC, когда AUC равна 1.
Резюме
Вот как мы можем построить кривую AUC и ROC с помощью языка программирования Python. Кривая ROC представляет собой частоту истинных положительных и ложных срабатываний при различных порогах классификации, а AUC представляет собой совокупный показатель модели машинного обучения по всем возможным порогам классификации. Надеюсь, вам понравилась эта статья о том, как построить кривую AUC и ROC.