|
Межъязыковой перенос знаний при извлечении информации о лекарствах из пользовательских текстов
А. С. Саховскийab, Е. В. Тутубалинаacd a Казанский федеральный университет
b Московский государственный университет имени М. В. Ломоносова
c Национальный исследовательский университет "Высшая школа экономики"
d Sber AI
Аннотация:
Задача извлечения именованных сущностей, соответствующих лекарствам, заболеваниям и лекарственным реакциям, из текстов различных предметных областей и языков является основополагающим компонентом многих приложений, основанных на извлечении информации из текстов. В данной работе производится оценка эффективности многоязыковых моделей, основанных на архитектуре BERT, для решения задач распознавания именованных сущностей медицинской направленности и многоклассовой классификации предложений. В ходе экспериментов было исследовано влияние переноса знаний между двумя англоязычными корпусами и одним русскоязычным корпусом размеченных отзывов о лекарственных препаратах. Рассмотренные корпуса содержат разметку на уровне предложений, обозначающую присутствие или отсутствие в них медицинских сущностей некоторого типа. Предложения, принадлежащие некоторому классу, содержат дополнительную разметку на уровне сущностей, позволяющую установить принадлежность отдельных выражений к сущностям некоторого типа, таким, как название, показание к применению или эффект лекарства. Результаты экспериментов показали, что для русского языка наибольшая эффективность переноса знаний при предобучении моделей BERT на коллекции, состоящей из 5 миллионов неразмеченных русскоязычных и англоязычных пользовательских отзывах, наблюдается при распознавании побочных эффектов лекарств. Для задачи распознавания именованных сущностей наилучшее значение макро F-меры, равное 74,85%, показала модель RuDR-BERT, предобученная на русскоязычных текстах медицинской предметной области. Для задачи классификации наилучшее значение макро F-меры, равное 70%, показала модель EnRuDR-BERT, предобученная на русскоязычных и англоязычных текстах медицинской направленности. Превосходство данной модели над моделью BERT, предобученной на текстах общей предметной области, составляет 8,64% макро F-меры.
Ключевые слова:
обработка естественного языка, классификация текстов, извлечение информации, распознавание именованных сущностей, BERT.
Образец цитирования:
А. С. Саховский, Е. В. Тутубалина, “Межъязыковой перенос знаний при извлечении информации о лекарствах из пользовательских текстов”, Труды ИСП РАН, 33:6 (2021), 217–228
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/tisp656 https://www.mathnet.ru/rus/tisp/v33/i6/p217
|
Статистика просмотров: |
Страница аннотации: | 22 | PDF полного текста: | 6 |
|