ДОСЛІДЖЕННЯ СТІЙКОСТІ МОДЕЛЕЙ ГЛИБОКОГО НАВЧАННЯ ДО ДАНИХ З РІЗНИХ ДОМЕНІВ У ЗАДАЧІ АВТОМАТИЧНОГО РОЗПІЗНАВАННЯ МЕЛАНОМИ НА ДЕРМАТОСКОПІЧНИХ ЗОБРАЖЕННЯХ
##plugins.themes.bootstrap3.article.main##
Анотація
У статті розглянуто проблему автоматизованого виявлення меланоми на
дерматоскопічних зображеннях із використанням методів глибокого навчання в умовах
обмеженої кількості даних, що може сприяти ранній діагностиці небезпечного захворювання.
Основною метою є пошук шляхів підвищення узагальнюючої здатності моделей глибокого
навчання при класифікації даних з різних джерел. В роботі використано два набори
дерматоскопічних зображень з ISIC Archive в різних поєднаннях. Проведено серію
експериментів із застосуванням трансферного навчання CNN та трансформерної
архітектури ViT, власної згорткової моделі, ансамблів моделей. Особливу увагу приділено впливу
на якість класифікації попередньої обробки зображень (видалення чорних контурів,
аугментації), використання доповнення даних з інших джерел тільки для класу меншин та для
всіх класів, а також узагальненню моделей на міждоменних даних. Результати показали
перевагу трансферного навчання, тоді як власна модель поступалася за точністю. Серед
згорткових мереж найбільшу якість класифікації продемонструвала архітектура EfficientNet,
також перспективними є моделі на основі Vision Transformer, які показали кращий результат
порівняно з більшістю CNN архітектур. Дослідження виявило, що поєднання даних із різних
джерел може знижувати ефективність класифікації через навчання на відмінностях доменів
замість медичних ознак, особливо їх вплив спостерігається при доповненні тільки класу
меншин з інших наборів даних з метою зменшення наслідків дисбалансу класів при навчанні.
Завдяки видаленню шумів на зображеннях у вигляді чорного фону, характерного для одного з
наборів даних, вдалося підвищити якість розпізнавання захворювання. Результати
дослідження свідчать про необхідність ретельної підготовки даних та застосування
спеціальних стратегій до міждоменного навчання для практичного застосування.
##plugins.themes.bootstrap3.article.details##

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Посилання
Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., et al. (2020). An
image is worth 16x16 words: Transformers for image recognition at scale. International Conference on
Learning Representations. https://arxiv.org/pdf/2010.11929.
Alijani, S., Fayyad, J., & Najjaran, H. (2024). Vision transformers in domain adaptation and domain
generalization: A study of robustness. Neural Computing and Applications. Springer.
https://doi.org/10.1007/s00521-024-10353-5.
Flosdorf, C., Engelker, J., Keller, I., & Mohr, N. (2024). Skin cancer detection utilizing deep learning:
Classification of skin lesion images using a vision transformer. arXiv.
https://doi.org/10.48550/arXiv.2407.18554.
Wu, Y., Chen, B., Zeng, A., Pan, D., Wang, R., & Zhao, S. (2022). Skin cancer classification with deep
learning: A systematic review. Frontiers in Oncology, 12. https://doi.org/10.3389/fonc.2022.893972.
ISIC Challenge Datasets. (2020). International Skin Imaging Collaboration. https://doi.org/10.34970/2020-
ds01.
International Skin Imaging Collaboration. (2020). SIIM-ISIC 2020 challenge dataset. https://challenge.isicarchive.com/data/#2020.
Saini, M., & Susan, S. (2023). Tackling class imbalance in computer vision: A contemporary review.
Artificial Intelligence Review, 56, 1279–1335. https://doi.org/10.1007/s10462-023-10557-6.
Keras Applications. https://keras.io/2/api/applications/.
Hosny, K., Kassem, M., & Fouad, M. (2018). Skin cancer classification using deep learning and transfer
learning. In 2018 9th Cairo International Biomedical Engineering Conference (CIBEC), 90–93.
https://doi.org/10.1109/CIBEC.2018.8641762.
Hugging Face. (n.d.). Brian Dunn: vit-base-patch16-224-in21k_brain_tumor_diagnosis.
https://huggingface.co/DunnBC22/vit-base-patch16-224-in21k_brain_tumor_diagnosis.
Woo, S., Park, J., Lee, J.-Y., & Kweon, I. (2018). CBAM: Convolutional block attention module. In
Proceedings of the European Conference on Computer Vision (ECCV), 3–19. https://doi.org/10.1007/978-3-
-01234-2_1.