Труды института системного программирования РАН
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Труды ИСП РАН:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Труды института системного программирования РАН, 2021, том 33, выпуск 6, страницы 217–228
DOI: https://doi.org/10.15514/ISPRAS-2021-33(6)-15
(Mi tisp656)
 

Межъязыковой перенос знаний при извлечении информации о лекарствах из пользовательских текстов

А. С. Саховскийab, Е. В. Тутубалинаacd

a Казанский федеральный университет
b Московский государственный университет имени М. В. Ломоносова
c Национальный исследовательский университет "Высшая школа экономики"
d Sber AI
Аннотация: Задача извлечения именованных сущностей, соответствующих лекарствам, заболеваниям и лекарственным реакциям, из текстов различных предметных областей и языков является основополагающим компонентом многих приложений, основанных на извлечении информации из текстов. В данной работе производится оценка эффективности многоязыковых моделей, основанных на архитектуре BERT, для решения задач распознавания именованных сущностей медицинской направленности и многоклассовой классификации предложений. В ходе экспериментов было исследовано влияние переноса знаний между двумя англоязычными корпусами и одним русскоязычным корпусом размеченных отзывов о лекарственных препаратах. Рассмотренные корпуса содержат разметку на уровне предложений, обозначающую присутствие или отсутствие в них медицинских сущностей некоторого типа. Предложения, принадлежащие некоторому классу, содержат дополнительную разметку на уровне сущностей, позволяющую установить принадлежность отдельных выражений к сущностям некоторого типа, таким, как название, показание к применению или эффект лекарства. Результаты экспериментов показали, что для русского языка наибольшая эффективность переноса знаний при предобучении моделей BERT на коллекции, состоящей из 5 миллионов неразмеченных русскоязычных и англоязычных пользовательских отзывах, наблюдается при распознавании побочных эффектов лекарств. Для задачи распознавания именованных сущностей наилучшее значение макро F-меры, равное 74,85%, показала модель RuDR-BERT, предобученная на русскоязычных текстах медицинской предметной области. Для задачи классификации наилучшее значение макро F-меры, равное 70%, показала модель EnRuDR-BERT, предобученная на русскоязычных и англоязычных текстах медицинской направленности. Превосходство данной модели над моделью BERT, предобученной на текстах общей предметной области, составляет 8,64% макро F-меры.
Ключевые слова: обработка естественного языка, классификация текстов, извлечение информации, распознавание именованных сущностей, BERT.
Финансовая поддержка Номер гранта
Министерство науки и высшего образования Российской Федерации МК-3193.2021.1.6
Данная работа выполнена при поддержке гранта Президента РФ МК-3193.2021.1.6
Тип публикации: Статья
Образец цитирования: А. С. Саховский, Е. В. Тутубалина, “Межъязыковой перенос знаний при извлечении информации о лекарствах из пользовательских текстов”, Труды ИСП РАН, 33:6 (2021), 217–228
Цитирование в формате AMSBIB
\RBibitem{SakTut21}
\by А.~С.~Саховский, Е.~В.~Тутубалина
\paper Межъязыковой перенос знаний при извлечении информации о лекарствах из пользовательских текстов
\jour Труды ИСП РАН
\yr 2021
\vol 33
\issue 6
\pages 217--228
\mathnet{http://mi.mathnet.ru/tisp656}
\crossref{https://doi.org/10.15514/ISPRAS-2021-33(6)-15}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/tisp656
  • https://www.mathnet.ru/rus/tisp/v33/i6/p217
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Труды института системного программирования РАН
    Статистика просмотров:
    Страница аннотации:9
    PDF полного текста:2
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024