BI Consult
  • Russian BI Исследование российских bi
  • Перейти на Fine BI
  • Контакты
  • +7 812 334-08-01
    +7 499 608-13-06
  • Отправить сообщение
  • Главная
  • Продукты Эксперт-BI
    • Дистрибуция
    • Розничная торговля
    • Производство
    • Операторы связи
    • Страхование
    • Банки
    • Лизинг
    • Логистика
    • Нефтегазовый сектор
    • Медицина
    • Сеть ресторанов
    • E-Commerce
    • Энергетика
    • Фармацевтика
    • Построение хранилища данных
    • Создание Data Lake
    • Цифровая трансформация
    • Управление по KPI
    • Финансы
    • Продажи
    • Склад
    • HR
    • Маркетинг
    • Внутренний аудит
    • Категорийный менеджмент
    • S&OP и прогнозная аналитика
    • Геоаналитика
    • Цепочки поставок (SCM)
    • Process Mining
    • Сквозная аналитика
  • Платформы
    • ATK BiView-1C
    • Airflow
    • Alpha BI
    • Analytic Workspace
    • ChatGPT
    • FineBI
    • FlyBI
    • Loginom
    • Luxms BI
    • Modus BI
    • Visiology
    • Yandex.DataLens
    • Триафлай
    • Форсайт. Аналитическая Платформа
    • Arenadata
    • ClickHouse
    • Postgres Professional
  • Услуги
    • Переход на отечественные BI и DWH системы
    • Консалтинг
    • Пилотный проект
    • Обучение и сертификация
    • Бесплатное обучение
    • Поддержка
    • Технические задания
    • Сбор требований для проекта внедрения BI-системы
    • CI/CD для DWH
    • Аудит BI приложений
    • Выделенная команда
    • Разработка BI Стратегии
    • Styleguide для BI-системы
    • Как выбрать BI-систему
  • Курсы
    • Учебный курс Информационная грамотность (Data Literacy)
    • Учебный курс для бизнес-аналитиков
    • Учебный курс по Data Governance
    • Учебный курс Как стать CDO
    • Учебный курс Современная архитектура хранилища данных
    • Учебный курс по Fine BI
    • Учебный курс по DWH
    • Учебный курс по Data Science (ML, AI)
    • Учебный курс по PostgreSQL
    • Учебный курс по Greenplum
    • Учебный курс по Apache Airflow и NiFi
    • Учебный курс по Open-source BI
    • Учебный курс по DataLens
    • Учебный курс по Loginom
    • Учебный курс по Modus BI и ETL
    • Учебный курс по Visiology
  • Компания
    • Руководство
    • Новости
    • Клиенты
    • Карьера
    • Скачать
    • Контакты

BI

  • ATK BiView-1C Коннектор
  • Airflow
  • Alpha BI
  • Analytic Workspace
  • ChatGPT
  • FineBI
  • FlyBI
  • Loginom
  • Luxms BI
  • Modus BI
  • Visiology
  • Yandex.DataLens
  • Триафлай
  • Форсайт. Аналитическая Платформа

СУБД

  • Arenadata
  • ClickHouse
  • Postgres Professional

Другое

  • Data Engeneering
    • Создание Data Lake
    • Создание Data Warehouse
    • Учебный курс "Современная архитектура хранилища данных"
Главная » Курсы » Учебный курс по Data Science (ML, AI)

Кластеризация BIRCH в машинном обучении

BIRCH – это алгоритм кластеризации в машинном обучении. Он обеспечивает сбалансированное сокращение и кластеризацию с использованием иерархий. В этой статье я познакомлю вас с концепцией кластеризации BIRCH в машинном обучении и ее реализацией с использованием Python.

 

Кластеризация BIRCH

BIRCH – это алгоритм кластеризации в машинном обучении, специально разработанный для кластеризации очень большого набора данных. Часто он работает быстрее, чем другие алгоритмы кластеризации, такие как пакетные K-средние. Он дает результат, очень похожий на пакетный алгоритм K-средних, если количество объектов в наборе данных не превышает 20.

При обучении модели с использованием алгоритма BIRCH создается древовидная структура с достаточным количеством данных, чтобы быстро назначить каждую точку данных кластеру. Сохраняя все точки данных в дереве, этот алгоритм позволяет использовать ограниченную память при работе с очень большим набором данных. В следующем разделе я расскажу вам о его реализации с использованием языка программирования Python.

 

Кластеризация BIRCH с использованием Python

Алгоритм BIRCH начинается с порогового значения, затем проходит обучение на данных, а затем в дерево вставляются точки данных. Если во время обучения на данных ему не хватает памяти, он увеличивает пороговое значение и повторяет процесс. Теперь давайте посмотрим, как реализовать кластеризацию BIRCH с помощью Python. Я начну эту задачу с импорта необходимых библиотек Python и набора данных:

 

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

data = pd.read_csv("https://biconsult.ru/img/datascience-ml-ai/customers.csv")
print(data.head())

 

Так выглядит набор данных:

CustomerID

Gender

Age

Annual Income (k$)

Spending Score

(1-100)

1   

Male  

19                 

15                     

39

2   

Male  

21                 

15                     

81

3 

Female  

20                 

16                      

6

4 

Female  

23                 

16                     

77

5 

Female  

31                 

17                     

40

 

Набор данных, который я здесь использую, основан на сегментации клиентов. Давайте подготовим данные для реализации алгоритма кластеризации. Здесь я для простоты переименую столбцы, а затем выберу только два столбца для реализации алгоритма кластеризации BIRCH с использованием Python:

 

    data["Income"] = data[["Annual Income (k$)"]]
    data["Spending"] = data[["Spending Score (1-100)"]]
    data = data[["Income", "Spending"]]
    print(data.head())

 

Результат:

 

Income

Spending

0

15

39

1

15

81

2

16

6

3

16

77

4

17

40

 

Итак, мы подготовили данные, и теперь давайте импортируем класс BIRCH из библиотеки sklearn в Python, используем его с данными и посмотрим на результаты, визуализировав кластеры:

 

from sklearn.cluster import Birch
model = Birch(branching_factor=30, n_clusters=5, threshold=2.5)
model.fit(data)
pred = model.predict(data)
plt.scatter(data["Income"], data["Spending"], c=pred, cmap='rainbow', alpha=0.5, edgecolors='b')
plt.show()

 

 

Резюме

Алгоритм BIRCH дает сбалансированное итеративное сокращение и кластеризацию с использованием иерархий. Это работает лучше всего при кластеризации очень большого набора данных, содержащего менее 20 функций. Надеюсь, вам понравилась эта статья о концепции алгоритма BIRCH в машинном обучении и его реализации с использованием Python.

 

Узнать стоимость решенияЗапросить видео презентацию

Запросить видео презентацию Запросить доступ к демо стенду online Узнать стоимость лицензий

Задать вопрос

loading...

Решения

Анализировать ФинансыУвеличивайте ПродажиОптимальный Склад и ЛогистикаМаркетинговые Метрики

Клиенты
  • MoneyCare — кредитная платформа и сервис для ПОС-кредитования в магазинах, установленная в более чем 18 тысячах трейдинговых точек и сотрудничающая с 11 главными банками России.

  • ПАО «Банк Уралсиб» (Публичное акционерное общество «Банк Уралсиб») — российский коммерческий банк. В 2020 году входил в топ-20 банков РФ по размеру активов (рэнкинг рейтингового агентства Эксперт РА), в 2021 году — в топ-25 крупнейших банков страны по расчётам агрегатора Банки.ру

  • ИНВИТРО
    ИНВИТРО – крупнейшая частная медицинская компания в России, специализирующаяся на лабораторной диагностике и оказании других медицинских услуг.
     
    ИНВИТРО располагает 9 самыми современными лабораторными комплексами и крупнейшей в Восточной Европе сетью более чем из 900 медицинских офисов. Страны присутствия — Россия, Украина, Казахстан, Беларусь.
     
  • СберКорус (Группа компаний Сбербанка) – это ИТ‑компания, ИТ‑интегратор, SaaS-провайдер. Является разработчиком цифровых сервисов и услуг для автоматизации широкого диапазона бизнес-процессов юридических лиц. В 2004 году компания стала первым в России оператором электронного документооборота, а в 2012 году вошла в экосистему Сбера. 

  • Решения
    • Дистрибуция
    • Розничная торговля
    • Производство
    • Операторы связи
    • Банки
    • Страхование
    • Фармацевтика
    • Лизинг
    • Логистика
    • Медицина
    • Нефтегазовый сектор
    • Сеть ресторанов
  • Услуги
    • Консалтинг
    • Пилотный проект
    • Поддержка
    • План обучения и сертификации
    • Бесплатное обучение
    • Учебные курсы
    • Аудит приложений
    • Выделенная команда
  • Платформы
    • ATK BiView-1C Коннектор
    • Alpha BI
    • Luxms BI
    • Modus BI
    • Visiology
    • Analytic Workspace
    • FineBI
    • Yandex.DataLens
    • Триафлай
    • Форсайт. Аналитическая Платформа
    • Arenadata
    • ClickHouse
    • Postgre Professional
  • Курсы
    • Учебный курс Информационная грамотность
    • Учебный курс для бизнес-аналитиков
    • Учебный курс по Data Governance
    • Учебный курс Как стать CDO
    • Учебный курс Современная архитектура хранилища данных
    • Учебный курс по Fine BI
    • Учебный курс по DWH
    • Учебный курс по Data Science (ML, AI)
    • Учебный курс по PostgreSQL
    • Учебный курс по Apache Airflow
    • Учебный курс по Open-source BI
    • Учебный курс по Loginom
    • Учебный курс по Modus BI и ETL
    • Учебный курс по DataLens
    • Учебный курс по Visiology
  • Компания
    • О нас
    • Руководство
    • Новости
    • Клиенты
    • Скачать
    • Контакты
  • Функциональные решения
    • Продажи
    • Финансы
    • Склад
    • HR
    • S&OP и прогнозная аналитика
    • Внутренний аудит
    • Геоаналитика
    • Категорийный менеджмент
    • Построение хранилища данных
    • Система управления KPI и BSC
    • Управление цепочками поставок
    • Маркетинг
    • Цифровая трансформация
    • Сквозная аналитика
    • Process Mining
LinkedInYouTubeVkontakteFacebook
ООО "Би Ай Консалт",
ИНН: 7811437757,
ОГРН: 1097847154184
199178, Россия,
Санкт-Петербург,
6-ая линия В.О., Д. 63, 4 этаж
Тел: +7 (812) 334-08-01
Тел: +7 (499) 608-13-06
E-mail: info@biconsult.ru