##plugins.themes.bootstrap3.article.main##
Анотація
У статті досліджено модифікацію стохастичного градієнтного спуску (SGD) на основі раніше розробленої теорії стабілізації дискретних циклів динамічної системи. Співвідношення між стабілізацією циклів у дискретних динамічних системах та знаходженням екстремальних точок дозволило застосувати нові методи управління для прискорення градієнтного спуску при наближенні до локальних мінімумів. Градієнтний спуск часто використовується для навчання глибоких нейронних мереж нарівні з іншими ітераційними методами. Експериментували з двома градієнтами SGD та Адам, було проведено порівняльні експерименти. Усі експерименти проводилися під час вирішення практичної задачі розпізнавання зубів на 2-D панорамних знімках. Мережеве навчання показало, що новий метод перевершує SGD за його можливостями, а що стосується обраних параметрів, то він наближається до можливостей Адам, що є “найсучаснішим” методом. Таким чином, показана практична корисність використання теорії управління у навчанні глибоких нейронних мереж та можливість розширення її придатності у процесі створення нових алгоритмів у цій важливій галузі.
##plugins.themes.bootstrap3.article.details##
Посилання
[2] Ronneberger. O., Fischer. F., Brox T. U-Net: Convolutional Networks for Biomedical Image Segmentation. 2018. https://arxiv.org/abs/1505.04597
[3] ImageNet. http://www.image-net.org
[4] Kaiming H., Zhang X., Ren S., Sun J. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition. 2016. pp. 770-778.
[5] Diederik P. Kingma, Jimmy Ba. Adam: A Method for Stochastic Optimization. 2014. https://arxiv.org/abs/1412.6980
[6] Keskar N. S., Socher R. Improving Generalization Performance by Switching from Adam to SGD. 2017. https://arxiv.org/abs/1712.07628
[7] Rumelhart D. E., Hinton G. E., Ronald W. J. Learning representations by back-propagating errors". Nature. 323 (6088). 1986. P: 533–536. Bibcode:1986Natur.323..533R. doi:10.1038/323533a0. S2CID 205001834
[8] Nesterov Y. A method of solving a convex program-ming problem with convergence rate O(1/sqr(k)). 1983. Soviet Mathematics Doklady, 27:372–376.
[9] Polyak, B.T. Some methods of speeding up the convergenceof iteration methods. USSR Computational Mathematics and Mathematical Physics. 1964. 4(5):1–17. https://doi.org/10.1016/0041-5553(64)90137-5
[10] Taddy M. Stochastic Gradient Descent // Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions. - New York: McGraw-Hill, 2019. - ISBN 978-1-260-45277-8.