http://doi.org/10.26347/1607-2502202507-08012-020

СТАНДАРТИЗАЦИЯ И АВТОМАТИЗАЦИЯ ПРОЦЕССА АНАЛИЗА ДАННЫХ ОПРОСОВ МЕДИЦИНСКИХ РАБОТНИКОВ С ПРИМЕНЕНИЕМ СОВРЕМЕННЫХ ЯЗЫКОВЫХ МОДЕЛЕЙ: ОПЫТ ТЕМАТИЧЕСКОГО МОДЕЛИРОВАНИЯ И КОЛИЧЕСТВЕННОЙ ОЦЕНКИ ГОТОВНОСТИ К ГЛОБАЛЬНЫМ ВЫЗОВАМ

С.А. Орлов, О.Ю. Александрова, И.В. Герасимов

Орлов Сергей Александрович*, канд. мед. наук, старший научный сотрудник Федерального государственного бюджетного научного учреждения «Национальный научно-исследовательский институт общественного здоровья имени Н.А. Семашко». Москва, Россия. E-mail: orlovsergio@mail.ru. http://orcid.org/0000-0002-8749-8504.

Александрова Оксана Юрьевна, д-р мед. наук, профессор, заместитель директора Федерального государственного бюджетного научного учреждения «Национальный научно-исследовательский институт общественного здоровья имени Н.А. Семашко». Москва, Россия. E-mail: aou18@mail.ru. http://orcid.org/0000-0002-0761-1838.

Герасимов Илья Владимирович, магистр программы «Прикладной анализ данных в медицинской сфере» направления 03.04.01 «Прикладные математика и физика» Федерального государственного автономного образовательного учреждения высшего образования «Московский физико-технический институт (национальный исследовательский университет)». 141701, г. Долгопрудный, Россия. E-mail: ilyavlgerasimov@yandex.ru. http://orcid.org/0009-0008-2223-471X.

ФГБНУ «Национальный научно-исследовательский институт общественного здоровья имени Н.А. Семашко» Минобрнауки России МФТИ

Цель исследования. Провести оценку готовности медицинских организаций к чрезвычайным ситуациям и глобальным вызовам на основе тематического моделирования и автоматизированного анализа текстовых ответов медицинских работников с использованием современной русскоязычной языковой модели RuBERT.Материалы и методы. Исследование выполнено на демонстрационном синтетическом датасете с результатами опроса 3415 врачей, оказывающих первичную медико-санитарную помощь, в одном из субъектов Российской Федерации. Использован опросник с 26 вопросами о различных аспектах готовности медицинской организации к чрезвычайным ситуациям и глобальным вызовам. Для автоматизированного анализа применена русскоязычная языковая модель RuBERT (cointegrated/rubert-base-cased-nli-threeway) в режиме zero-shot-классификации. Каждый ответ оценивался по шкале от 0 до 1 с шагом 0,01 от абсолютно негативного до абсолютно позитивного по сравнению с антагонистическими гипотезами полной готовности и ее отсутствием. Проведен количественный анализ эмоционального окраса ответов с помощью эмбеддингов и кластеризации, включая последующий анализ по тематическим категориям с получением средневзвешенных оценок.Результаты. Языковая модель RuBERT позволила количественно оценить все текстовые ответы по шкале готовности, обеспечив однородность и воспроизводимость обработки больших массивов данных. Средние баллы по вопросам и муниципальным образованиям визуализированы в виде тепловой карты, позволяющей выявлять как сильные, так и слабые стороны организационной готовности. Эмоциональная окраска ответов коррелировала с уровнем готовности, а тематическое моделирование позволило выделить кластеры проблемных областей. Применение модели позволяет автоматизировать процесс анализа, уйдя от ручного кодирования и получить объективизированные комплексные результаты.Заключение. Современные языковые модели, такие как RuBERT, доказали свою эффективность для количественного анализа опросов в здравоохранении. Автоматизация обработки текстовых ответов способствует получению объективизированных и масштабируемых результатов мониторинга оценки проблем в медицинских организациях и системе здравоохранения, а полученные числовые показатели могут служить основой для принятия управленческих решений по повышению устойчивости к чрезвычайным ситуациям и глобальным вызовам. Дальнейшее развитие метода связано с улучшением алгоритмов учета релевантности и корректности отдельных элементов речи, связанных с возможной предвзятостью респондентов при ответе на конкретные вопросы.
Ключевые слова: анализ текстовых данных, глобальные вызовы, готовность к чрезвычайным ситуациям, опрос, тематическое моделирование, языковые модели, NLI-классификация.

STANDARDIZATION AND AUTOMATION OF MEDICAL PERSONNEL SURVEY DATA ANALYSIS USING MODERN LANGUAGE MODELS: EXPERIENCE IN TOPIC MODELING AND QUANTITATIVE ASSESSMENT OF READINESS FOR GLOBAL CHALLENGES

S.A. Orlov, O.Yu. Aleksandrova, I.V. Gerasimov

Sergey A. Orlov*, PhD, Senior Researcher of Federal Scientific State Budgetary Institution «N.A. Semashko National Research Institute of Public Health». Moscow, Russia. E-mail: orlovsergio@mail.ru. http://orcid.org/0000-0002-8749-8504.

Oxana Yu. Aleksandrova, PhD, ScD (Med.), Professor, Deputy Director of Federal Scientific State Budgetary Institution «N.A. Semashko National Research Institute of Public Health». Moscow, Russia. E-mail: aou18@mail.ru. http://orcid.org/0000-0002-0761-1838.

Ilya V. Gerasimov, master of master's degree in «Applied data analysis in the medical field» 03.04.01 «Applied Mathematics and Physics» in Moscow Institute of Physics and Technology. Dolgoprudny, Russia. E-mail: ilyavlgerasimov@yandex.ru. http://orcid.org/0009-0008-2223-471X.

N. A. Semashko National Research Institute of Public Health nstitute of Physics and Technology (MIPT)

Objective. To assess the readiness of medical organizations for emergencies and global challenges using topic modeling and automated analysis of textual responses from healthcare professionals, based on the state-of-the-art Russian-language language model RuBERT.Materials and Methods. The study was conducted on a demonstration synthetic dataset containing survey results from 3,415 physicians providing primary health care in one of the constituent entities of the Russian Federation. A questionnaire with 26 items covering various aspects of organizational readiness for emergencies and global challenges was used. Automated analysis was performed using the Russian-language language model RuBERT (cointegrated/rubert-base-cased-nli-threeway) in zero-shot classification mode. Each response was assessed on a scale from 0 to 1, with an increment of 0,01, ranging from absolutely negative to absolutely positive, relative to antagonistic hypotheses of full readiness and lack thereof. Quantitative analysis of the emotional coloring of responses was performed using embeddings and clustering, followed by thematic category analysis and calculation of weighted average scores.Results. The RuBERT language model enabled a quantitative assessment of all textual responses on the readiness scale, ensuring uniformity and reproducibility in processing large datasets. Mean scores by questions and municipalities were visualized as a heatmap, allowing the identification of both strengths and weaknesses in organizational readiness. The emotional coloring of responses correlated with the level of readiness, and topic modeling enabled the identification of clusters of problematic areas. The application of the model allows automation of the analysis process, eliminating manual coding and providing objective, comprehensive results.Conclusion. Modern language models such as RuBERT have proven effective for quantitative analysis of surveys in healthcare. Automation of textual response processing facilitates the generation of objective and scalable results for monitoring and evaluating issues in medical organizations and the healthcare system. The resulting quantitative indicators can serve as a basis for management decisions aimed at enhancing resilience to emergencies and global challenges. Further development of the method is associated with improving algorithms for accounting for the relevance and correctness of individual speech elements, considering potential respondent bias when answering specific questions.
Keywords: text data analysis, global challenges, emergency preparedness, survey, topic modeling, language models, NLI classification.