http://doi.org/10.26347/1607-2502202501-020023-031

МАШИННЫЙ ПЕРЕВОД ОПРОСНИКА ПО ВЫЯВЛЕНИЮ ХРОНИЧЕСКИХ НЕИНФЕКЦИОННЫХ И ИНФЕКЦИОННЫХ ЗАБОЛЕВАНИЙ MEDICASE С ИСПОЛЬЗОВАНИЕМ ТЕХНОЛОГИЙ ИСКУСТВЕННОГО ИНТЕЛЛЕКТА

А.В. Соловьева, П.А. Воробьев, А.А. Родионов, Д. Сингла, А.П. Воробьев, О.В. Крячкова, Л.С. Краснова

Соловьева Алла Валентиновна – к.м.н., доцент, проректор по реализации национальных проектов и развитию регионального здравоохранения ФГБОУ ВО Тверской ГМУ Минздрава России; заведующий кафедрой организации и информатизации здравоохранения, Тверь, Россия. E-mail: solovyeva.alla@yandex.ru; https://orcid.org/0000-0002-7603-3170

Воробьев Павел Андреевич* – д.м.н., профессор. Председатель правления Московского городского научного общества терапевтов, Москва, Россия. Профессор кафедры организации и информатизации здравоохранения, ФГБОУ ВО Тверской ГМУ Минздрава России, Тверь, Россия. E-mail: paanvo@me.com; https://orcid.org/0000-0003-2500-1555

Родионов Андрей Александрович – к.м.н., доцент кафедры организации и информатизации здравоохранения ФГБОУ ВО Тверской ГМУ Минздрава России. E-mail: rodionovaa@tvgmu.ru; https://orcid.org/0000-0002-7226-772X

Сингла Динеш – аспирант кафедры организации и информатизации здравоохранения, ФГБОУ ВО Тверской ГМУ Минздрава России, Тверь, Россия

Воробьев Андрей Павлович – к.м.н., заместитель Председателя правления Московского городского научного общества терапевтов, Москва, Россия. Доцент кафедры организации и информатизации здравоохранения ФГБОУ ВО Тверской ГМУ Минздрава России, Тверь, Россия. E-mail: a.vorobiev@newdiamed.ru; https://orcid.org/0000-0003-3851-8473

Крячкова Ольга Владимировна — старший преподаватель кафедры организации и информатизации здравоохранения ФГБОУ ВО Тверской ГМУ Минздрава России; e-mail: tver.olga@mail.ru; ORCID: https://orcid.org/0000-0001-7535-221X

Краснова Любовь Сергеевна – к.м.н., доцент, Ученый секретарь Московского городского научного общества терапевтов, Москва, Россия. E-mail: liubov.krasnova@gmail.com; https://orcid.org/0000-0002-8102-3989

1ФГБОУ ВО Тверской ГМУ Минздрава России 2Московское городское научное общество терапевтов

Перевод медицинского опросника для выявлений заболеваний и факторов риска с русского на английский язык с использованием искусственного интеллекта, в том числе – больших языковых моделей, является новым в современном здравоохранении. Даже человеческий перевод таит в себе множество неточностей, затрудняющих в дальнейшем сопоставление результатов опросов, проведенных в разных странах. Цель создание англоязычной версии опросника системы MeDiCase по выявлению хронических неинфекционных и инфекционных заболеваний, факторов риска у абитуриентов и студентов – индусов, обучающихся в ВУЗах РФ с использованием современных возможностей машинного медицинского перевода. Задачи:1. Оценить возможности современных переводчиков, основанных на искусственном интеллекте, в том числе – больших лингвистических моделей (LLM).2. Провести двойной перевод опросника с русского на английский язык и обратно с применением нескольких переводчиков, использующих искусственный интеллект3. Проведение анализа результатов двойного перевода вопросника с использованием переводчиков на основе искусственного интеллекта и формирование окончательной версии опросника для внесения его в систему MeDiCase4. Проведение обратного перевода носителем английского языка на русскийМатериалы и методы. Был проведен анализ современной литературы по вопросам перевода медицинских текстов с использованием искусственного интеллекта с глубиной поиска в 5 лет. Для машинного перевода использовали системы искусственного интеллекта Алиса (Яндекс – большая лингвистическая модель LLM) и Translate.google.com Google холдинга Alphabet. В последнюю были внесены все вопросы на русском языке, входящие в опросник MeDiCase, а затем – полученная англоязычная версия для проверки гипотезы, что обратный перевод на русский язык будет существенно отличаться от первоначального русского текста. Попарно сопоставлены исходный и конечный русские текст, выявлены текстуальные и смысловые несовпадения, проанализированы причины этих несовпадений (терминологические, нюансы вопросов, - фразеологизмы, идиомы, контекст). Проведен специальный поиск через в систему LLM Алиса для достижения полного смыслового совпадение вопросов. Был проведен обратный перевод окончательного английского текста вопросов экспертом, носителем индийской версии английского языка, обладающего хорошим знанием русского языка и не знающего русской версии опросника.Результаты. Выявлены основные проблемы машинного перевода, в том числе, связанные с медицинскими текстами. Сделаны предложения по формированию и актуализации, стандартизации языка, созданию и поддержанию баз данных для обучения искусственного интеллекта. При двойном переводе системой ИИ Translate.google.com 213 вопросов в 45 вопросах система имелся неадекватный перевод (неточные переводы терминов, неверная временная и ситуационная связь, терминологические оттенки). Устранение дефектов перевода проводилось с использованием большая лингвистическая модель LLM «Алиса», были достигнуты полные соответствия между исходным русским и конечным текстами. Дополнительное тестирование: обратный перевод конечной английской версии на русский язык носителем английского языка продемонстрировал хорошее совпадение результатов (несущественные неточности перевода в 17 вопросах), не требующее изменения английской версии.Выводы:1. Возможности современных переводчиков на основе ИИ, в частности - больших лингвистических моделей (LLM) представляют одновременно огромный шаг вперед в переводе медицинских текстов, но и таят немало угроз, что требует обязательного участия человека-переводчика в редактировании окончательной версии перевода.2. При двойном перевод опросника с русского на английский язык и обратно с применением системы ИИ translate.google.com, в 45 вопросах из 213 система допустила неадекватный перевод, что потребовало подключения системы LLM «Алиса» YandexGPT и получения идентичных вопросов при обратном переводе.3. Обратный перевод с английского «оригинала», созданного системами ИИ на русский носителем английского языка, показал удовлетворительное совпадение с исходными русскими текстами, не требующими изменения в англоязычной версии опросника.
Ключевые слова: машинный перевод, большие лингвистические модели, искусственный интеллект, медицинские опросники.

MACHINE TRANSLATION OF THE MEDICASE QUESTIONNAIRE FOR IDENTIFYING CHRONIC NON-INFECTIOUS AND INFECTIOUS DISEASES USING ARTIFICIAL INTELLIGENCE TECHNOLOGIES

A.V. Solovieva, P.A. Vorobyov, A.A. Rodionov, D. Singla, A.P. Vorobyov, O.V. Kryachkova, L.S. Krasnova

Alla V. Solovyeva — MD, PhD, Associate Professor, Head of the Department of Public Health Organization and Informatization Tver State Medical Universiry, Tver, Russia. E-mail: solovyeva.alla@yandex.ru; https://orcid.org/0000-0002-7603-3170

Pavel A. Vorobyev — MD, PhD, DSc (Med.), Professor. Chairman of the Moscow City Science Society of Physicians, Moscow, Russia. Professor, Department of Public Health Organization and Informatization, Tver State Medical University; Tver, Russia. E-mail: paanvo@me.com; https://orcid.org/0000-0003-2500-1555

Andrey A. Rodionov — MD, MPH, PhD, Associate Professor of the Department of Public Health Organization and Informatization, Tver State Medical University, Tver, Russia. E-mail: rodionovaa@tvgmu.ru; ORCID: https://orcid.org/0000-0002-7226-772X

Dinesh Singla – MD., Doctorate Student, Department of Public Health Organization and Informatization, Tver State Medical University; Tver, Russia.

Andrey P. Vorobiev — MD, PhD, Deputy Chairman of the Moscow City Science Society of Physicians; Moscow, Russia. Associate Professor, Department of Public Health Organization and Informatization, Tver State Medical University; Tver, Russia. E-mail: vap@mgnot.ru; https://orcid.org/0000-0003-3851-8473

Olga V. Kryachkova — MD, Senior Lecturer, Department of Public Health Organization and Informatization, Tver State Medical University, Tver, Russia. E-mail: tver.olga@mail.ru; https://orcid.org/0000-0001-7535-221X

Lubov S. Krasnova – MD, PhD, Associate Professor, Academic Secretary, Moscow City Science Society of Physicians, Moscow, Russia. E-mail: liubov.krasnova@gmail.com https://orcid.org/0000-0002-8102-3989

1Tver State Medical University 2Moscow City Science Society of Physicians

Translation of a medical questionnaire for identifying diseases and risk factors from Russian into English using artificial intelligence, including large language models, is new in modern healthcare. Even human translation is fraught with many inaccuracies, which make it difficult to further compare the results of surveys conducted in different countries.The purpose is to create an English version of the MeDiCase questionnaire to identify chronic non-communicable and infectious diseases, risk factors in applicants and students - Indians studying in universities of the Russian Federation using modern capabilities of machine medical translation. Objectives:1. To evaluate the capabilities of modern translators based on artificial intelligence, including large linguistic models (LLM).2. To conduct a double translation of the questionnaire from Russian to English and back using several translators using artificial intelligence3. To analyze the results of the double translation of the questionnaire using translators based on artificial intelligence and to form the final version of the questionnaire for entering it into the MeDiCase system4. Conducting a reverse translation by a native English speaker into RussianMaterials and methods. An analysis of modern literature on the issues of translating medical texts using artificial intelligence was conducted with a search depth of 5 years. For machine translation, the Alice artificial intelligence system (Yandex is a large linguistic model of LLM) and Translate.google.com by Google of the Alphabet holding were used. The latter included all the questions in Russian included in the MeDiCase questionnaire, and then the resulting English version to test the hypothesis that the reverse translation into Russian would differ significantly from the original Russian text. The original and final Russian texts were compared in pairs, textual and semantic discrepancies were identified, and the reasons for these discrepancies were analyzed (terminology, nuances of questions, phraseological units, idioms, context). A special search was conducted through the Alice LLM system to achieve a complete semantic match of the questions. The final English text of the questions was reverse translated by an expert, a native speaker of the Indian version of English, with a good knowledge of the Russian language and not knowing the Russian version of the questionnaire. Results. The main problems of machine translation were identified, including those related to medical texts. Suggestions were made for the formation and updating, standardization of the language, creation and maintenance of databases for training artificial intelligence. During the double translation of 213 questions by the AI system Translate.google.com, 45 questions had inadequate translation (inaccurate translations of terms, incorrect temporal and situational connections, terminological nuances). The elimination of translation defects was carried out using the large linguistic model LLM "Alice", full correspondence between the original Russian and final texts was achieved. Additional testing: the reverse translation of the final English version into Russian by a native English speaker demonstrated a good match of the results (minor translation inaccuracies in 17 questions), which does not require changing the English version. Conclusions:1. The capabilities of modern AI-based translators, in particular large linguistic models (LLM), represent a huge step forward in the translation of medical texts, but also pose many threats, which requires the mandatory participation of a human translator in editing the final version of the translation.2. When double translating the questionnaire from Russian to English and back using the AI system translate.google.com, the system made an inadequate translation in 45 questions out of 213, which required connecting the LLM system "Alice" YandexGPT and obtaining identical questions during the reverse translation.3. The reverse translation from the English "original" created by AI systems into Russian by a native English speaker showed a satisfactory match with the original Russian texts, which did not require changes in the English version of the questionnaire.
Keywords: machine translation, large linguistic models, artificial intelligence, medical questionnaires