Линейная регрессия с Python
Алгоритм линейной регрессии с использованием языка программирования Python.
В машинном обучении линейная регрессия – это статистическая процедура для вычисления значения зависимой переменной из независимой переменной. В этой статье я познакомлю вас с линейной регрессией с помощью языка программирования Python.
Линейная регрессия – это алгоритм машинного обучения, который использует зависимую переменную для прогнозирования будущих результатов на основе одной или нескольких независимых переменных. Он измеряет связь между двумя переменными. Линейный регрессионный анализ – самый широко используемый из всех алгоритмов машинного обучения.
Проще говоря, линейная регрессия – это статистический тест, применяемый к набору данных для определения и количественной оценки взаимосвязи между рассматриваемыми переменными. Он прост в использовании и до сих пор считается одним из самых мощных алгоритмов.
Использование алгоритма линейной регрессии важно по следующим причинам:
- Описание: помогает проанализировать силу связи между результатом (зависимой переменной) и переменными-предикторами.
- Корректировка: регулирует влияние ковариата или искажающих факторов.
- Предикторы: помогает оценить важные факторы риска, влияющие на зависимую переменную.
- Степень прогноза: помогает проанализировать величину изменения независимой переменной «единицы», которое может повлиять на зависимую переменную.
- Прогнозирование: помогает количественно оценить новые случаи.
Линейная регрессия с Python
В этом разделе я расскажу, как реализовать линейную регрессию с помощью языка программирования Python. Я начну эту задачу с импорта необходимых библиотек Python:
import matplotlib.pylab as plt import numpy as np %matplotlib inline from sklearn.linear_model import LinearRegression from sklearn import datasets
Теперь я загружу набор данных:
diabetes = datasets.load_diabetes()
Обучение линейной регрессии с помощью Python
Чтобы обучить алгоритм линейной регрессии с использованием языка программирования Python, я сначала разделю набор данных на 80% обучающих и 20% тестовых наборов:
from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(diabetes.data, diabetes.target, test_size=0.2, random_state=0)
Теперь давайте обучим модель:
from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(diabetes.data, diabetes.target, test_size=0.2, random_state=0) # There are three steps to model something with sklearn # 1. Set up the model model = LinearRegression() # 2. Use fit model.fit(X_train, y_train)
Теперь давайте построим нашу обученную модель с помощью библиотеки matplotlib в Python:
y_pred = model.predict(X_test) plt.plot(y_test, y_pred, '.') # plot a line, a perfit predict would all fall on this line x = np.linspace(0, 330, 100) y = x plt.plot(x, y) plt.show()
Модель линейной регрессии используется для проверки взаимосвязи между двумя переменными в форме уравнения. Вы можете реализовать эту модель без использования какой-либо библиотеки, например, sklearn, которую вы можете изучить здесь.
Надеюсь, вам понравилась эта статья о линейной регрессии с языком программирования Python.