BI Consult
  • Russian BI Исследование российских bi
  • Перейти на Fine BI
  • Контакты
  • +7 812 334-08-01
    +7 499 608-13-06
  • Отправить сообщение
  • Главная
  • Продукты Эксперт-BI
    • Дистрибуция
    • Розничная торговля
    • Производство
    • Операторы связи
    • Страхование
    • Банки
    • Лизинг
    • Логистика
    • Нефтегазовый сектор
    • Медицина
    • Сеть ресторанов
    • E-Commerce
    • Энергетика
    • Фармацевтика
    • Построение хранилища данных
    • Создание Data Lake
    • Цифровая трансформация
    • Управление по KPI
    • Финансы
    • Продажи
    • Склад
    • HR
    • Маркетинг
    • Внутренний аудит
    • Категорийный менеджмент
    • S&OP и прогнозная аналитика
    • Геоаналитика
    • Цепочки поставок (SCM)
    • Process Mining
    • Сквозная аналитика
  • Платформы
    • ATK BiView-1C
    • Airflow
    • Alpha BI
    • Analytic Workspace
    • ChatGPT
    • FineBI
    • FlyBI
    • Loginom
    • Luxms BI
    • Modus BI
    • Visiology
    • Yandex.DataLens
    • Триафлай
    • Форсайт. Аналитическая Платформа
    • Arenadata
    • ClickHouse
    • Postgres Professional
  • Услуги
    • Переход на отечественные BI и DWH системы
    • Консалтинг
    • Пилотный проект
    • Обучение и сертификация
    • Бесплатное обучение
    • Поддержка
    • Технические задания
    • Сбор требований для проекта внедрения BI-системы
    • CI/CD для DWH
    • Аудит BI приложений
    • Выделенная команда
    • Разработка BI Стратегии
    • Styleguide для BI-системы
    • Как выбрать BI-систему
  • Курсы
    • Учебный курс Информационная грамотность (Data Literacy)
    • Учебный курс для бизнес-аналитиков
    • Учебный курс по Data Governance
    • Учебный курс Как стать CDO
    • Учебный курс Современная архитектура хранилища данных
    • Учебный курс по Fine BI
    • Учебный курс по DWH
    • Учебный курс по Data Science (ML, AI)
    • Учебный курс по PostgreSQL
    • Учебный курс по Greenplum
    • Учебный курс по Apache Airflow и NiFi
    • Учебный курс по Open-source BI
    • Учебный курс по DataLens
    • Учебный курс по Loginom
    • Учебный курс по Modus BI и ETL
    • Учебный курс по Visiology
  • Компания
    • Руководство
    • Новости
    • Клиенты
    • Карьера
    • Скачать
    • Контакты

BI

  • ATK BiView-1C Коннектор
  • Airflow
  • Alpha BI
  • Analytic Workspace
  • ChatGPT
  • FineBI
  • FlyBI
  • Loginom
  • Luxms BI
  • Modus BI
  • Visiology
  • Yandex.DataLens
  • Триафлай
  • Форсайт. Аналитическая Платформа

СУБД

  • Arenadata
  • ClickHouse
  • Postgres Professional

Другое

  • Data Engeneering
    • Создание Data Lake
    • Создание Data Warehouse
    • Учебный курс "Современная архитектура хранилища данных"
Главная » Курсы

Учебный курс по Data Science (ML, AI)

MLOps, или DevOps для машинного обучения, позволяет специалистам по обработке данных и ИТ-специалистам сотрудничать и ускорять разработку и развертывание моделей за счет мониторинга, проверки и управления моделями машинного обучения.

Мы внедряем автоматизацию принятия решений в широкий спектр приложений, и это создает множество технических проблем, возникающих при создании и развертывании систем на основе машинного обучения.

Чтобы понять MLOps, мы должны сначала понять жизненный цикл систем ML, в котором участвуют несколько разных команд data-driven организации.

  • Data Engineering — сбор и подготовка данных.
  • Data Science — проектирование решений машинного обучения и разработка моделей.
  • IT или DevOps— полная настройка развертывания, мониторинг вместе с разработчиками.
     

  • Пример решения задачи по машинному обучению на Python
  • Топ-5 инструментов для разметки данных в 2021 году

 

Методы Data Science

(документация по применению в системах BI - в разделе "скачать")

Алгоритмы и модели машинного обучения, реализованные с помощью языка программирования Python.

 

 

  1. Допущения алгоритмов машинного обучения
  2. Лучшие подходы к анализу настроений
  3. Алгоритмы многоклассовой классификации
  4. Алгоритмы двоичной классификации
  5. Алгоритмы кластеризации
  6. Архитектура LeNet-5
  7. Введение и подходы к созданию систем рекомендаций
  8. Примеры использования алгоритмов машинного обучения
  9. Кластеризация сдвига среднего
  10. Мини-пакетная кластеризация K-средних
  11. Грамматическая разметка частей речи
  12. Метрики оценки эффективности
  13. Полиномиальный наивный байесовский метод
  14. Бернулли Наивный Байес
  15. Агломеративная кластеризация
  16. VisualKeras для визуализации нейронной сети
  17. Стохастический градиентный спуск
  18. Объясненная дисперсия
  19. Оценка F-Beta
  20. Классификационный отчет
  21. Пассивно-агрессивная регрессия
  22. Оценка R2
  23. Ленивый прогноз
  24. FLAML
  25. Алгоритм t-SNE
  26. Учебное пособие по AutoKeras
  27. Смещение и отклонение
  28. Персептрон
  29. Многослойный персептрон
  30. Методы балансировки классов
  31. «Один ко многим» и «один к одному» в машинном обучении
  32. Полиномиальная регрессия
  33. Кластеризация BIRCH в машинном обучении
  34. Независимый компонентный анализ
  35. Ядро PCA
  36. Редкий PCA
  37. Факторизация неотрицательных матриц
  38. Учебник по нейронным сетям
  39. PyCaret
  40. Руководство по Scikit-learn
  41. Учебное пособие по NLTK
  42. Учебное пособие по TextBlob
  43. Учебное пособие по Streamlit
  44. Кластеризация DBSCAN
  45. Наивный Байес
  46. Пассивно-агрессивный классификатор
  47. Повышение градиента (используется при реализации алгоритма Instagram)
  48. Логистическая регрессия
  49. Линейная регрессия
  50. Кластеризация K-средних
  51. Уменьшение размерности
  52. Анализ главных компонентов
  53. Автоматический EDA
  54. Масштабирование функций
  55. Алгоритм Априори с использованием Python
  56. K-ближайший сосед
  57. CatBoost
  58. SMOTE
  59. Проверка гипотез (обычно используется при обнаружении выбросов)
  60. Контентная фильтрация
  61. Совместная фильтрация
  62. Косинусное подобие
  63. Tf-Idf векторизация
  64. Перекрестная проверка
  65. Матрица неточностей в машинном обучении
  66. Алгоритмы поиска на графах с Python
  67. Гребневая(ридж) регрессия и регрессия Лассо и их реализация с помощью Python
  68. StandardScaler в машинном обучении
  69. SARIMA
  70. ARIMA
  71. Кривая Auc и ROC
  72. Алгоритм XGBoost
  73. LSTM в машинном обучении
  74. BERT в машинном обучении
  75. Модель Facebook Prophet с использованием Python
  76. NeuralProphet
  77. Алгоритм AdaBoost
  78. Алгоритм случайного леса
  79. Автоматизация машинного обучения с помощью H2O AutoML
  80. Алгоритм полиномиальной регрессии
  81. Алгоритм градиентного спуска
  82. Поиск по сетке для настройки модели
  83. Многообразное обучение
  84. Деревья решений
  85. Руководство по SVM (Support-Vector Machine или Опорно-векторная машина) с использованием Python
  86. Нейронные сети
  87. FastAI
  88. LightGBM
  89. Pyforest в Python
  90. Модели машинного обучения, которые должен знать каждый специалист по даннымт

Все вышеперечисленные алгоритмы описаны с использованием языка программирования Python. Это – самые распространенные и часто используемые алгоритмы машинного обучения.

 

Узнать стоимость решенияЗапросить видео презентацию

Серия постов @boris_again о минимальных навыков software engineering для аналитики данных и ML. От командной строки и докера до стиля кода

# Минимальные знания Software Engineering для Data Scientist 1/3

## Git
Интерактивный туториал
Краткий курс по Git от Github
Git (или другая VCS) каждый день использует любой адекватный программист. Стоит инвестировать время не только в заучивание трех команд, а в понимание принципа работы. К счастью основы изучаются за пару вечеров, а большего и не надо. DS должно быть не сложно понять идею, ведь про графы и деревья вы наверное слышали. Только не используйте никаких GUI клиентов для Git по крайней мере пока учитесь! Например надо понимать разницу между git add и git commit, но GUI клиенты часто заменяют их одной кнопкой.

## Linux
The Linux command line for beginners
Если вы работаете из под Windows, то как можно быстрее бросайте это дело (если у вас уже Mac или Linux, то этот пункт можете пропустить). Считайте, что Python разработки под Windows не бывает. Не умея пользоваться линуксом вы беспомощны. Как слезть с иглы: поставьте себе Ubuntu и работайте только из под нее, а Windows оставьте для игр. Я бы не советовал пользоваться WSL, потому что это полумера, но и это подойдет как крайний вариант. Главное, чтобы вас не пугали фразы уровня “зайди на VPS по ssh по ключу, прокинь симлинк для этой штуки.” Иначе вы в большинстве команд будете тем парнем, которому надо постоянно помогать.

## Библиотеки и зависимости в Python
Python virtual environments: A Primer
Обязательное чтение про менеджмент библиотек и зависимостей в Python. Вы должны быть способны разрабатывать несколько DS проектов с конфликтующими зависимостями (один требует pytorch v1.12, второй v1.4) без использования Anaconda. Так не обязательно делать, но вы должны быть способны. Для вас не должно быть проблемой сделать так, чтобы проект запускался с одинаковыми версиями библиотек у вас, у вашего коллеги и на сервере.

## Практический Python
The Hitchiker’s Guide to Python
Чтение о практическом применении Python. Бесплатная, короткая и по делу написанная книга.

Особенное внимание:
Глава про структуру кода
Содержит очень важную информацию про модули и пакеты в Python (так же см. официальную документацию).
Для закрепления: взять любой свой проект и красиво разбить его на модули.
Глава про стиль кода
Стиль кода это недооцененная (особенно среди DS), но очень важная вещь. От умения писать код зависит, будут ваши коллеги плевать вам в чай или нет. Умение писать читабельный код сэкономит вам уйму времени даже если вы только прототипируете модели и вам никогда не придется поддерживать проекты. Решая Kaggle вы бы скорее хотели искать ошибки в коде или пробовать новые варианты решения?
Прочитали один раз - пишете код лучше, чем большинство DS. Бесплатное преимущество!
Для закрепления: написать любую программу максимально красиво. Достаточно даже задачи с Leetcode. Хороший критерий успеха: вы отложили код на две недели, вернулись и все еще понимаете, что в нем происходит.
Глава про тесты и гайд для pytest
Способность писать тесты отличает дилетанта от программиста. Знание о том, как писать тесты, навсегда меняет подход к написанию любого кода: просто понимаешь, какой код более вероятно содержит скрытые косяки. Минус: паранойя навсегда, потому узнаешь, что весь код без покрытия автотестами сломан. Это очень важно даже если вы только учить модели. Если ваш код невозможно затащить в прод, то вы беспомощны и возможно даже бесполезны.
Для закрепления: покрыть тестами свою программу. Бонусные очки, если вы покрываете тестами ML решение, потому что это довольно нетривиальная задача.

## Читаем код
Узнав про то, что такое модульный и читабельный код, изучаем его экземпляры в дикой природе. Просто читаем, вникаем что и откуда берется, задаем себе вопросы: “почему здесь так?”, “что это такое?”, “зачем это здесь?” Это симуляция ситуации, когда вам нужно работать с кодом коллеги. Только в реальной жизни код не будет хорошим.
Советую исходный код этой небольшой библиотеки для табличек: https://github.com/jazzband/tablib
Более продвинутый уровень, если в библиотеке выше уже все понятно: https://github.com/pallets/flask

# Минимальные знания Software Engineering для Data Scientist 2/3

## Память в Python
Читаем как Python работает с памятью, чтобы никогда больше не потеть на вопросе про GIL. По части DS позволяет лучше утилизировать железо, не делать глупостей вроде лишних копирований гигантских массивов и лучше интуитивно понимать работу кода.
Статья раз
Статья два

## HTTP
HTTP это то, на чем держится веб: когда вы открываете сайты, скачиваете датасеты, пользуетесь API. Инференс и деплой ML моделей почти всегда связан с HTTP.
Изучаем теорию:
Статья попроще
Статья подлиннее
Проходим туториал: Python’s Requests Library Guide

## Sklearn Pipelines
Sklearn Pipelines User Guide
С одной стороны без Sklearn в ML практически никуда и Pipeline это большая его киллер-фича, которая экономит уйму времени, позволяет избежать ошибок и упрощает перенос кода в продакшн. Но более важно то, что парадигма пайплайнов, то есть обработки данных через серию последовательных шагов, повсеместно встречается в ML экосистеме. Пайплайны в Sklearn это отличное введение. Познакомившись с ними будет гораздо проще осваивать популярные ML инструменты.
Для закрепления: берем ML задачу, которую решали (хоть Титаник на Kaggle) и переписываем с использованием Pipeline.

## SQL
https://sqlbolt.com/ - Проходим туториал вплоть до 12 урока.
Без SQL никуда. Чаще всего данные для моделей появляются когда мы заклинаем базы данных языком SQL.
Нас интересует все, касается запросов к существующим таблицам. Для минимального пути можно опустить все что касается вставок и создания таблиц.
Если вы хотите стать настоящим самураем SQL и быть круче большинства аналитиков, то надо взобраться на эту гору: www.sql-ex.ru

## Docker
Официальный туториал по Docker
Docker становится таким же необходимым, как Git. Позволяет паковать любой код в контейнеры, которые ведут себя как виртуальные машины, но делают это быстро. На практике это означает, что можно очень быстро разворачивать и сворачивать целые экосистемы прямо на своем ноуте. Хочешь базу данных: пара консольных команд и получаешь контейнер с базой данных. Хочешь Spark: пара команд и у тебя есть Spark. Хочешь, чтобы все это работало в продакшне так, как работает на твоем ноутбуке: легко, главное выполни на сервере ту же самую пару команд.
Для закрепления: берем любую свою программу (бонус очки: берем ML задачу из пункта про Pipeline) и делаем так, чтобы она запускалась в контейнере. Еще лучше если у вас два контейнера и один обращается к другому. Например в одном контейнере PostgreSQL с парой табличек, а в другом код, который делает запросы к базе данных.

 

# Минимальные знания Software Engineering для Data Scientist 2/3

## Память в Python
Читаем как Python работает с памятью, чтобы никогда больше не потеть на вопросе про GIL. По части DS позволяет лучше утилизировать железо, не делать глупостей вроде лишних копирований гигантских массивов и лучше интуитивно понимать работу кода.
Статья раз
Статья два

## HTTP
HTTP это то, на чем держится веб: когда вы открываете сайты, скачиваете датасеты, пользуетесь API. Инференс и деплой ML моделей почти всегда связан с HTTP.
Изучаем теорию:
Статья попроще
Статья подлиннее
Проходим туториал: Python’s Requests Library Guide

## Sklearn Pipelines
Sklearn Pipelines User Guide
С одной стороны без Sklearn в ML практически никуда и Pipeline это большая его киллер-фича, которая экономит уйму времени, позволяет избежать ошибок и упрощает перенос кода в продакшн. Но более важно то, что парадигма пайплайнов, то есть обработки данных через серию последовательных шагов, повсеместно встречается в ML экосистеме. Пайплайны в Sklearn это отличное введение. Познакомившись с ними будет гораздо проще осваивать популярные ML инструменты.
Для закрепления: берем ML задачу, которую решали (хоть Титаник на Kaggle) и переписываем с использованием Pipeline.

## SQL
https://sqlbolt.com/ - Проходим туториал вплоть до 12 урока.
Без SQL никуда. Чаще всего данные для моделей появляются когда мы заклинаем базы данных языком SQL.
Нас интересует все, касается запросов к существующим таблицам. Для минимального пути можно опустить все что касается вставок и создания таблиц.
Если вы хотите стать настоящим самураем SQL и быть круче большинства аналитиков, то надо взобраться на эту гору: www.sql-ex.ru

## Docker
Официальный туториал по Docker
Docker становится таким же необходимым, как Git. Позволяет паковать любой код в контейнеры, которые ведут себя как виртуальные машины, но делают это быстро. На практике это означает, что можно очень быстро разворачивать и сворачивать целые экосистемы прямо на своем ноуте. Хочешь базу данных: пара консольных команд и получаешь контейнер с базой данных. Хочешь Spark: пара команд и у тебя есть Spark. Хочешь, чтобы все это работало в продакшне так, как работает на твоем ноутбуке: легко, главное выполни на сервере ту же самую пару команд.
Для закрепления: берем любую свою программу (бонус очки: берем ML задачу из пункта про Pipeline) и делаем так, чтобы она запускалась в контейнере. Еще лучше если у вас два контейнера и один обращается к другому. Например в одном контейнере PostgreSQL с парой табличек, а в другом код, который делает запросы к базе данных.

Запросить видео презентацию Запросить доступ к демо стенду online Узнать стоимость лицензий

Задать вопрос

loading...

Решения

Анализировать ФинансыУвеличивайте ПродажиОптимальный Склад и ЛогистикаМаркетинговые Метрики

Клиенты
  • СберКорус (Группа компаний Сбербанка) – это ИТ‑компания, ИТ‑интегратор, SaaS-провайдер. Является разработчиком цифровых сервисов и услуг для автоматизации широкого диапазона бизнес-процессов юридических лиц. В 2004 году компания стала первым в России оператором электронного документооборота, а в 2012 году вошла в экосистему Сбера. 

  • Торгово-производственному холдингу ТБМ, специализирующемуся на поставке комплектующих и фурнитуры для производства окон, дверей, стеклопакетов и мебели, был необходим аналитический инструмент для выявления узким мест и поиска зон роста бизнеса и, как результат, оптимизации процессов. Добиться этого можно было, только внедрив data-driven подход.

  • ПАО «Транснефть» – крупнейшая российская нефтепроводная компания. «Транснефть» обеспечивает транспортировку более 85% добываемых в России нефти и нефтепродуктов.

  • ПАО «Ростелеком» — российский провайдер цифровых услуг и сервисов. Предоставляет услуги широкополосного доступа в Интернет, интерактивного телевидения, сотовой связи, местной и дальней телефонной связи и др. Занимает лидирующие позиции на российском рынке высокоскоростного доступа в интернет, платного ТВ, хранения и обработки данных, а также кибербезопасности

  • Решения
    • Дистрибуция
    • Розничная торговля
    • Производство
    • Операторы связи
    • Банки
    • Страхование
    • Фармацевтика
    • Лизинг
    • Логистика
    • Медицина
    • Нефтегазовый сектор
    • Сеть ресторанов
  • Услуги
    • Консалтинг
    • Пилотный проект
    • Поддержка
    • План обучения и сертификации
    • Бесплатное обучение
    • Учебные курсы
    • Аудит приложений
    • Выделенная команда
  • Платформы
    • ATK BiView-1C Коннектор
    • Alpha BI
    • Luxms BI
    • Modus BI
    • Visiology
    • Analytic Workspace
    • FineBI
    • Yandex.DataLens
    • Триафлай
    • Форсайт. Аналитическая Платформа
    • Arenadata
    • ClickHouse
    • Postgre Professional
  • Курсы
    • Учебный курс Информационная грамотность
    • Учебный курс для бизнес-аналитиков
    • Учебный курс по Data Governance
    • Учебный курс Как стать CDO
    • Учебный курс Современная архитектура хранилища данных
    • Учебный курс по Fine BI
    • Учебный курс по DWH
    • Учебный курс по Data Science (ML, AI)
    • Учебный курс по PostgreSQL
    • Учебный курс по Apache Airflow
    • Учебный курс по Open-source BI
    • Учебный курс по Loginom
    • Учебный курс по Modus BI и ETL
    • Учебный курс по DataLens
    • Учебный курс по Visiology
  • Компания
    • О нас
    • Руководство
    • Новости
    • Клиенты
    • Скачать
    • Контакты
  • Функциональные решения
    • Продажи
    • Финансы
    • Склад
    • HR
    • S&OP и прогнозная аналитика
    • Внутренний аудит
    • Геоаналитика
    • Категорийный менеджмент
    • Построение хранилища данных
    • Система управления KPI и BSC
    • Управление цепочками поставок
    • Маркетинг
    • Цифровая трансформация
    • Сквозная аналитика
    • Process Mining
LinkedInYouTubeVkontakteFacebook
ООО "Би Ай Консалт",
ИНН: 7811437757,
ОГРН: 1097847154184
199178, Россия,
Санкт-Петербург,
6-ая линия В.О., Д. 63, 4 этаж
Тел: +7 (812) 334-08-01
Тел: +7 (499) 608-13-06
E-mail: info@biconsult.ru