20-летний Максим Шульга учится на третьем курсе Школы естественных наук ДВФУ. Его специализация — компьютерная безопасность. Молодой человек в детстве увлекся программированием, а после поступления в вуз стал активно изучать методы машинного обучения, в том числе нейросети. Участвуя в конкурсе, Максим составил один из наиболее точных аналитических сценариев по динамике заболеваемости COVID-19 в мире. Исследования проводились на основе данных, собранных университетом Джонса Хопкинса.



— Почему решили принять участие в этом конкурсе? Сами узнали, или это было предложение преподавателя?

— О конкурсе я узнал от директора Школы цифровой экономики ДВФУ. Решил принять участие в нём по нескольким причинам. Во-первых, тема с короновирусом очень важна на данный момент. Во-вторых, для решения поставленной задачи необходимо было построить математическую модель с использованием методов машинного обучения, то есть применить на практике полученные мною в университете знания. 



— Какая задача стояла перед конкурсантами?

— Речь шла о прогнозировании числовых данных: сколько будет заболевших и погибших в разных странах, а также в том или ином регионе России — прогноз динамики заболевания в ближайшее время.

  • Максим Шульга. Фото из личного архива

— В чем суть вашей работы?

— Для написания модели, которую я использовал на конкурсе, решил воспользоваться библиотекой TensorFlow на языке программирования Python. Эта библиотека предназначена специально для написания нейросетей. Я применял в работе рекуррентную нейросеть. Она используется для того, чтобы работать с последовательностями и применяется в основном для задач, связанных с анализом текстов: определения тематики текста, генерации новых текстов, выделения заголовков из какого-то произвольного текста. Так как она работает с последовательностями и хорошо «запоминает» предыдущие значения, то её можно применить и для решения данной задачи.



Университет Хопкинса собрал данные о количестве заболевших и умерших за несколько месяцев развития пандемии COVID-19. Эти данные можно разбить на отрезки, например, понедельно. И на основании прошедшей недели спрогнозировать количество заболевших на следующие несколько дней.

Благодаря тому, что данные можно было представить в виде таких последовательностей, можно было обучить модель. В конце я загружал в модель данные по количеству заболевших за последнюю неделю и получал прогноз по заболеваемости на следующий день. Добавлял этот день ко всем данным и таким образом получал прогноз дальше, на последующий дни.

— Ваше исследование основано на информации Университета Джонса Хопкинса. Почему именно эти данные вы взяли для анализа?

— Организаторы предоставили их как основной источник данных, а одним из условий конкурса было использование данных, опубликованных в официальном канале конкурса.

— Кто победил в конкурсе?

— При подведении итогов прогноза на сайте конкурса выводился список точности прогноза всех участников от лучшего к худшему. В этом списке были названия профилей участников, а не реальные имя и фамилия. Поэтому кто является победителем, знать не могу.

— Есть мнение, что эпидемия началась значительно раньше, еще в ноябре. На эту версию есть указания в вашем исследовании?

— Задача которую я решал в ходе конкурса, никак не пересекалась с данным вопросом, поэтому ответить не могу.

Но я считаю, что развитие пандемии можно и нужно прогнозировать. Мы не можем знать где, когда и как мутирует тут или иной вирус, но мы можем быть готовы к тому, как с ним справляться.

— Как вы лично, как исследователь, прогнозируете распространение вируса?

— Математические модели прогнозирования плохо справляются с долгосрочными прогнозами.

Так как ежедневный прирост заболевших зависит от очень многих факторов, то возникает большое число случайностей, которые вносят резкие изменения в динамику заболевания.

По этой причине математические модели больше подходят для прогноза на короткие промежутки времени, например, на неделю, как в данном конкурсе.

— Какую практическую пользу от этих исследований вы видите?

— Практическая польза от таких исследований заключается в привлечении внимания исследователей к действительно важной проблеме распространения COVID-19 по миру. Благодаря тому, что для решения задачи привлекается большое число участников, повышается шанс разработать наиболее точную модель прогнозирования.

— Чем занимаетесь в настоящее время?

— Я готовлюсь к следующему конкурсу. Он пройдёт через полгода и будет посвящён анализу данных по ЕГЭ. Точнее — эссе письменной части единого государственного экзамена по английскому языку. Для этой работы нужно собрать большое количество данных.







X