Информатика и автоматизация
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Информатика и автоматизация:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Информатика и автоматизация, 2022, выпуск 21, том 6, страницы 1169–1210
DOI: https://doi.org/10.15622/ia.21.6.4
(Mi trspy1222)
 

Эта публикация цитируется в 2 научных статьях (всего в 2 статьях)

Искусственный интеллект, инженерия данных и знаний

Методы и модели извлечения знаний из медицинских документов

Р. Х. Зулкарнеевa, Н. И. Юсуповаb, О. Н. Сметанинаb, М. М. Гаяноваb, А. М. Вульфинb

a Башкирский государственный медицинский университет
b Уфимский государственный авиационный технический университет
Аннотация: В работе выполнен анализ современного состояния проблемы извлечения знаний из клинических рекомендаций, представленных в виде слабоструктурированных корпусов текстовых документов на естественном языке с учетом их периодического обновления. Рассматриваемые методы интеллектуального анализа накопленных массивов медицинских данных позволяют автоматизировать ряд задач, направленных на повышение качества медицинской помощи за счет значимой поддержки принятия решений в процессе диагностики и лечения. Выполнен обзор известных публикаций, освещающий подходы к автоматизации построения нейросетевых языковых моделей, онтологий и графов знаний в задачах семантического моделирования проблемно-ориентированного корпуса текстов. Представлена структурно-функциональная организация системы извлечения знаний и автоматического построения онтологии и графа знаний проблемно-ориентированного корпуса для конкретной предметной области. Рассмотрены основные этапы извлечения знаний и динамического обновления графа знаний: извлечение именованных сущностей, семантическое аннотирование, извлечение терминов, ключевых слов, тематическое моделирование, идентификация тем и извлечение отношений. Формализованное представление текстов получено с помощью предобученной модели-трансформера BERT. Использовано автоматическое выделение триплетов «объект»-«действие»-«субъект» на основе частеречной разметки корпуса текстов для построения фрагментов графа знаний. Проведен эксперимент на корпусе медицинских текстов заданной тематики (162 документа обезличенных историй болезни пациентов педиатрического центра) без предварительной разметки с целью проверки предложенного решения по извлечению триплетов и конструирования на их основе графа знаний. Анализ экспериментальных результатов подтверждает необходимость более глубокой разметки корпуса текстовых документов для учета специфики медицинских текстовых документов. Показано, что модели общего назначения не позволяют приблизиться по качеству выделения именованных сущностей к специализированным моделям, однако, позволяют предварительно разметить корпус для дальнейшей верификации и уточнения разметки (оценка F1-меры для модели общего назначения – 20,4% по сравнению с вариантом использования словаря – 16,7%). Для неразмеченного корпуса текстов предложенное решение демонстрирует удовлетворительную работоспособность ввиду выделения атомарных фрагментов, включаемых в автоматически формируемую онтологию.
Ключевые слова: клинические тексты, извлечение информации, машинное обучение, интеллектуальный анализ медицинских данных, автоматическое построение онтологий, графы знаний.
Финансовая поддержка Номер гранта
Российский научный фонд 22-19-00471
Работа выполнена при финансовой поддержке РНФ (проект № 22-19-00471).
Поступила в редакцию: 28.07.2022
Тип публикации: Статья
УДК: 004.89
Образец цитирования: Р. Х. Зулкарнеев, Н. И. Юсупова, О. Н. Сметанина, М. М. Гаянова, А. М. Вульфин, “Методы и модели извлечения знаний из медицинских документов”, Информатика и автоматизация, 21:6 (2022), 1169–1210
Цитирование в формате AMSBIB
\RBibitem{ZulYusSme22}
\by Р.~Х.~Зулкарнеев, Н.~И.~Юсупова, О.~Н.~Сметанина, М.~М.~Гаянова, А.~М.~Вульфин
\paper Методы и модели извлечения знаний из медицинских документов
\jour Информатика и автоматизация
\yr 2022
\vol 21
\issue 6
\pages 1169--1210
\mathnet{http://mi.mathnet.ru/trspy1222}
\crossref{https://doi.org/10.15622/ia.21.6.4}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/trspy1222
  • https://www.mathnet.ru/rus/trspy/v21/i6/p1169
  • Эта публикация цитируется в следующих 2 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Информатика и автоматизация
    Статистика просмотров:
    Страница аннотации:212
    PDF полного текста:95
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024