ПОРІВНЯЛЬНИЙ АНАЛІЗ МЕТОДІВ АВТОМАТИЧНОЇ КЛАСИФІКАЦІЇ ТЕКСТУ У БІБЛІОГРАФІЧНИХ ІНФОРМАЦІЙНИХ СИСТЕМАХ
##plugins.themes.bootstrap3.article.main##
Анотація
У статті представлено результати комплексного дослідження методів автоматичної
класифікації тексту стосовно їх застосування у бібліографічних інформаційних системах.
Розглянуто широкий спектр підходів – від класичних статистичних методів машинного
навчання до сучасних архітектур глибокого навчання на основі трансформерів. Для кожного із
досліджуваних методів проведено аналіз особливостей попередньої обробки бібліографічних
текстів, методів векторизації та параметрів налаштування моделей. Розроблено модульну
систему класифікації бібліографічних записів мовою Python з використанням фреймворків
scikit-learn, PyTorch та FastAPI. Проведено порівняльне оцінювання шести моделей за
метриками точності (Accuracy, Precision, Recall, F1-Score), швидкодії та ресурсоємності.
Встановлено, що модель BERT досягає найвищої якості класифікації (F1-Score = 0.912), тоді
як метод опорних векторів (SVM) забезпечує оптимальне співвідношення між точністю та
продуктивністю для систем реального часу. Сформульовано практичні рекомендації щодо
вибору методу класифікації залежно від вимог конкретного застосування.
##plugins.themes.bootstrap3.article.details##

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Посилання
Bakhturyn S. V. (2019) Information systems of scientific libraries: current state and development prospects.
Bulletin of the Book Chamber, No. 5, pp. 12-18. (in Ukr.)
DSTU GOST 7.1:2006. Bibliographic record. Bibliographic description. Kyiv: Derzhspozhyvstandart
Ukrainy, 2007. 47 p. (in Ukr.)
Scopus Content Coverage Guide [Electronic resource] // Elsevier. Available at:
https://www.elsevier.com/solutions/scopus.
Breeding M. (2015) Library Services Platforms: A Maturing Genre of Products. Library Technology
Reports, Vol. 51, No. 4, pp. 5-38.
Kowsari K. et al. (2019) Text Classification Algorithms: A Survey. Information, Vol. 10, No. 4, p. 150.
Joachims T. (1998) Text Categorization with Support Vector Machines. Proceedings of ECML, pp. 137-
Chollet F. (2021) Deep Learning with Python. Manning Publications. 504 p.
Devlin J. et al. (2019) BERT: Pre-training of Deep Bidirectional Transformers. Proceedings of NAACLHLT, pp. 4171-4186.
Conneau A. et al. (2020) Unsupervised Cross-lingual Representation Learning at Scale. Proceedings of
ACL, pp. 8440-8451.
Manning C. D., Raghavan P., Schütze H. (2008) Introduction to Information Retrieval. Cambridge
University Press. 506 p.
Korobov M. (2015) Morphological Analyzer and Generator for Russian and Ukrainian. Analysis of Images,
Social Networks and Texts, pp. 320-332.
Pedregosa F. et al. (2011) Scikit-learn: Machine Learning in Python. Journal of Machine Learning Research,
Vol. 12, pp. 2825-2830.
Paszke A. et al. (2019) PyTorch: An imperative style, high-performance deep learning library. Advances in
Neural Information Processing Systems, Vol. 32, pp. 8024-8035.
Wolf T. et al. (2020) Transformers: State-of-the-art natural language processing. Proceedings of the 2020
Conference on Empirical Methods in Natural Language Processing: System Demonstrations, pp. 38-45.
Beltagy I., Lo K., Cohan A. (2019) SciBERT: A Pretrained Language Model for Scientific Text.
Proceedings of EMNLP-IJCNLP, pp. 3615-3620.
Gusenbauer M. (2019) Google Scholar to overshadow them all? Scientometrics, Vol. 118, No. 1, pp. 177-
Kluyver T. et al. (2016) Jupyter Notebooks – a publishing format for reproducible computational
workflows. Positioning and Power in Academic Publishing, pp. 87-90.