ВИКОРИСТАННЯ МЕТОДІВ БУСТІНГУ ДЛЯ ЗАДАЧ МАШИННОГО НАВЧАННЯ
##plugins.themes.bootstrap3.article.main##
Анотація
У роботі проведено порівняння методів бустінгу при розв’язанні задач машинного навчання. Розглянуто бустінг над деревами рішень, який являє собою ансамблевий алгоритм і залишається одним з найбільш ефективних і популярних методів машинного навчання. Описано ідею методів градієнтного і адаптивного бустінгу та бібліотек XGBoost і CatBoost. Використано методи градієнтного бустінгу, AdaBoost, XGBoost і CatBoost у середовищі Jupyter Notebook для розв’язання задач класифікації та регресії. Проведено порівняння якості отримуваних прогнозів та часу навчання алгоритмів при розв’язанні задачі медичної діагностики, задачі кредитного скорінгу, задачі прогнозування кількості оренди велосипедів. Встановлено, що найменший час навчання і найкращі результати для задач бінарної класифікації демонструє модель XGBoost. Для задачі регресії кращі результати продемонструвала модель CatBoost, але при цьому час її навчання завжди на порядок більший у порівняні з іншими моделями.
##plugins.themes.bootstrap3.article.details##
Посилання
Кашницкий Ю. С. Ансамблевый метод машинного обучения, основанный на рекомендации классификаторов / Ю. С. Кашницкий, Д. И. Игнатов // Интеллектуальные системы. Теория и приложения, 2015. - Т. 19. №4, C. 37–55.
Кривохата А. Г. Застосування ансамблевого навчання в задачах класифікації акустичних даних / Кривохата А. Г., Кудін О. В., Давидовський М. В., Лісняк А. О. // Вісник Запорізького національного університету. Фізико-математичні науки, 2018. – №1. – С. 48-60.
Бустинг (Boosting) - Loginom Wiki [Електронний ресурс]. – Режим доступу: https://wiki.loginom.ru/articles/boosting.html.
Ensemble Methods in Machine Learning: Bagging Versus Boosting [Електронний ресурс]. – Режим доступу: https://www.pluralsight.com/guides/ensemble-methods:-bagging-versus-boosting.
Алгоритм AdaBoost [Електронний ресурс]. – Режим доступу: http://www.machinelearning.ru/wiki/index.php?title=AdaBoost.
Пивкин, К.С. Моделирование покупательского спроса на предприятиях розничной торговли на основе методов машинного обучения. [Текст]: дис. канд. экон. наук: 08.00.13: Ижевск, 2018. - 220 с.
Алгоритм XGBoost: пусть он царствует долго [Електронний ресурс]. – Режим доступу: https://cutt.ly/9nATUGb.
Быстрый градиентный бустинг с CatBoost / Блог компании OTUS / Хабр [Електронний ресурс]. – Режим доступу: https://habr.com/ru/company/otus/blog/527554.
UCI Machine Learning Repository: Parkinsons Data Set [Електронний ресурс]. – Режим доступу: https://archive.ics.uci.edu/ml/datasets/parkinsons.
UCI Machine Learning Repository: Credit Approval Data Set [Електронний ресурс]. – Режим доступу: https://archive.ics.uci.edu/ml/datasets/Credit+Approval.
UCI Machine Learning Repository: Bike Sharing Dataset Data Set [Електронний ресурс]. – Режим доступу: http://archive.ics.uci.edu/ml/datasets/Bike+Sharing+Dataset.