ПОРІВНЯЛЬНИЙ АНАЛІЗ МЕТОДІВ АВТОМАТИЧНОЇ КЛАСИФІКАЦІЇ ТЕКСТУ У БІБЛІОГРАФІЧНИХ ІНФОРМАЦІЙНИХ СИСТЕМАХ

##plugins.themes.bootstrap3.article.main##

Наталія КРАСНОШЛИК
Павло БОГАТИРЕНКО

Анотація

У статті представлено результати комплексного дослідження методів автоматичної
класифікації тексту стосовно їх застосування у бібліографічних інформаційних системах.
Розглянуто широкий спектр підходів – від класичних статистичних методів машинного
навчання до сучасних архітектур глибокого навчання на основі трансформерів. Для кожного із
досліджуваних методів проведено аналіз особливостей попередньої обробки бібліографічних
текстів, методів векторизації та параметрів налаштування моделей. Розроблено модульну
систему класифікації бібліографічних записів мовою Python з використанням фреймворків
scikit-learn, PyTorch та FastAPI. Проведено порівняльне оцінювання шести моделей за
метриками точності (Accuracy, Precision, Recall, F1-Score), швидкодії та ресурсоємності.
Встановлено, що модель BERT досягає найвищої якості класифікації (F1-Score = 0.912), тоді
як метод опорних векторів (SVM) забезпечує оптимальне співвідношення між точністю та
продуктивністю для систем реального часу. Сформульовано практичні рекомендації щодо
вибору методу класифікації залежно від вимог конкретного застосування.

##plugins.themes.bootstrap3.article.details##

Як цитувати
КРАСНОШЛИК, Н., & БОГАТИРЕНКО, П. (2025). ПОРІВНЯЛЬНИЙ АНАЛІЗ МЕТОДІВ АВТОМАТИЧНОЇ КЛАСИФІКАЦІЇ ТЕКСТУ У БІБЛІОГРАФІЧНИХ ІНФОРМАЦІЙНИХ СИСТЕМАХ. Вісник Черкаського університету: Прикладна математика. Інформатика, (1). https://doi.org/10.31651/2076-5886-2025-1-72-85
Розділ
Інформатика
Біографії авторів

Наталія КРАСНОШЛИК, Черкаський національний університет імені Богдана Хмельницького

кандидат технічних наук, доцент, доцент
кафедри прикладної математики та
інформатики Черкаського національного
університету імені Богдана
Хмельницького
e-mail: krasnoshlyk@vu.cdu.edu.ua
ORCID 0000-0003-4661-6997

Павло БОГАТИРЕНКО, Черкаський національний університет імені Богдана Хмельницького

студент спеціальності «Інформаційні
системи та технології» Черкаського
національного університету імені Богдана
Хмельницького
e-mail: bogatyrenko.pavlo@vu.cdu.edu.ua

Посилання

Bakhturyn S. V. (2019) Information systems of scientific libraries: current state and development prospects.

Bulletin of the Book Chamber, No. 5, pp. 12-18. (in Ukr.)

DSTU GOST 7.1:2006. Bibliographic record. Bibliographic description. Kyiv: Derzhspozhyvstandart

Ukrainy, 2007. 47 p. (in Ukr.)

Scopus Content Coverage Guide [Electronic resource] // Elsevier. Available at:

https://www.elsevier.com/solutions/scopus.

Breeding M. (2015) Library Services Platforms: A Maturing Genre of Products. Library Technology

Reports, Vol. 51, No. 4, pp. 5-38.

Kowsari K. et al. (2019) Text Classification Algorithms: A Survey. Information, Vol. 10, No. 4, p. 150.

Joachims T. (1998) Text Categorization with Support Vector Machines. Proceedings of ECML, pp. 137-

Chollet F. (2021) Deep Learning with Python. Manning Publications. 504 p.

Devlin J. et al. (2019) BERT: Pre-training of Deep Bidirectional Transformers. Proceedings of NAACLHLT, pp. 4171-4186.

Conneau A. et al. (2020) Unsupervised Cross-lingual Representation Learning at Scale. Proceedings of

ACL, pp. 8440-8451.

Manning C. D., Raghavan P., Schütze H. (2008) Introduction to Information Retrieval. Cambridge

University Press. 506 p.

Korobov M. (2015) Morphological Analyzer and Generator for Russian and Ukrainian. Analysis of Images,

Social Networks and Texts, pp. 320-332.

Pedregosa F. et al. (2011) Scikit-learn: Machine Learning in Python. Journal of Machine Learning Research,

Vol. 12, pp. 2825-2830.

Paszke A. et al. (2019) PyTorch: An imperative style, high-performance deep learning library. Advances in

Neural Information Processing Systems, Vol. 32, pp. 8024-8035.

Wolf T. et al. (2020) Transformers: State-of-the-art natural language processing. Proceedings of the 2020

Conference on Empirical Methods in Natural Language Processing: System Demonstrations, pp. 38-45.

Beltagy I., Lo K., Cohan A. (2019) SciBERT: A Pretrained Language Model for Scientific Text.

Proceedings of EMNLP-IJCNLP, pp. 3615-3620.

Gusenbauer M. (2019) Google Scholar to overshadow them all? Scientometrics, Vol. 118, No. 1, pp. 177-

Kluyver T. et al. (2016) Jupyter Notebooks – a publishing format for reproducible computational

workflows. Positioning and Power in Academic Publishing, pp. 87-90.

Статті цього автора (авторів), які найбільше читають