Loading...
Научная группа из России собирает новые корпуса пользовательских текстов медицинской направленности, создает модели, улучшающие существующие методы извлечения информации из отзывов и коротких сообщений, посвященных лекарственным препаратам и реакциям на них, разрабатывает программные средства обработки текстов на английском и русском языках.
«Научная группа из Пенсильванского университета создала инициативу #SMM4H, чтобы облегчить и интенсифицировать разработку автоматических методов сбора, извлечения, представления, анализа данных социальных сетей по теме здоровья. В этом году она проводилась в пятый раз и первый раз включала в себя данные на русском языке, которые предоставляли мы с коллегами из Казанского федерального университета», — объясняет одна из организаторов соревнования и руководитель проекта по гранту Российского научного фонда, старший научный сотрудник КФУ Елена Тутубалина.
Огромный объем информации в социальных сетях представляет возможности для использования в качестве ресурса для здравоохранения. Через интернет-ресурсы пользователи получают возможность обмена мнениями и почти неограниченный доступ к информации о фармацевтическом рынке. Кроме того, клинические испытания не всегда позволяют обнаружить полный перечень побочных эффектов, которые часто начинают проявляться после длительного приема препарата или же оказывают эффект только на определенную группу пациентов. Решение этих проблем ученые предлагают искать с помощью интеллектуального анализа отзывов пользователей о лечении.
В этом году участники SMM4H Shared Task должны были разработать методы классификации публикаций в Твиттере о неблагоприятных лекарственных эффектах. В исследованиях было задействовано 9,5 тысячи русскоязычных твитов о 70 антидепрессантах, противовирусных, бронхорасширяющих и противодиарейных препаратах. Командам из России, Финляндии, США, Хорватии и Великобритании необходимо было предложить способы автоматизации классификации, используя современные языковые модели и методы машинного обучения.
По результатам подготовлен и опубликован новый размеченный корпус твитов на русском языке. Готовые корпуса могут быть использованы для обучения моделей, которые в дальнейшем можно будет применять для автоматической разметки текстов и других задач программистов и исследователей.
Подписывайтесь на InScience.News в социальных сетях: ВКонтакте, Telegram, Одноклассники.