А. С. Саховский, Е. В. Тутубалина, “Межъязыковой перенос знаний при извлечении информации о лекарствах из пользовательских текстов”, Труды ИСП РАН, 33:6 (2021), 217

Труды института системного программирования РАН

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Общая информация
	Последний выпуск
	Архив

	Поиск публикаций
	Поиск ссылок

	RSS
	Последний выпуск
	Текущие выпуски
	Архивные выпуски
	Что такое RSS

Труды ИСП РАН:
Год:
Том:
Выпуск:
Страница:
	Найти

Персональный вход:
Логин:
Пароль:
	Запомнить пароль
	Войти
	Забыли пароль?
	Регистрация

Труды института системного программирования РАН, 2021, том 33, выпуск 6, страницы 217–228
DOI: https://doi.org/10.15514/ISPRAS-2021-33(6)-15 (Mi tisp656)

Межъязыковой перенос знаний при извлечении информации о лекарствах из пользовательских текстов

А. С. Саховский^ab, Е. В. Тутубалина^acd

^a Казанский федеральный университет
^b Московский государственный университет имени М. В. Ломоносова
^c Национальный исследовательский университет "Высшая школа экономики"
^d Sber AI

PDF полного текста (361 kB)

DOI: https://doi.org/10.15514/ISPRAS-2021-33(6)-15

Аннотация: Задача извлечения именованных сущностей, соответствующих лекарствам, заболеваниям и лекарственным реакциям, из текстов различных предметных областей и языков является основополагающим компонентом многих приложений, основанных на извлечении информации из текстов. В данной работе производится оценка эффективности многоязыковых моделей, основанных на архитектуре BERT, для решения задач распознавания именованных сущностей медицинской направленности и многоклассовой классификации предложений. В ходе экспериментов было исследовано влияние переноса знаний между двумя англоязычными корпусами и одним русскоязычным корпусом размеченных отзывов о лекарственных препаратах. Рассмотренные корпуса содержат разметку на уровне предложений, обозначающую присутствие или отсутствие в них медицинских сущностей некоторого типа. Предложения, принадлежащие некоторому классу, содержат дополнительную разметку на уровне сущностей, позволяющую установить принадлежность отдельных выражений к сущностям некоторого типа, таким, как название, показание к применению или эффект лекарства. Результаты экспериментов показали, что для русского языка наибольшая эффективность переноса знаний при предобучении моделей BERT на коллекции, состоящей из 5 миллионов неразмеченных русскоязычных и англоязычных пользовательских отзывах, наблюдается при распознавании побочных эффектов лекарств. Для задачи распознавания именованных сущностей наилучшее значение макро F-меры, равное 74,85%, показала модель RuDR-BERT, предобученная на русскоязычных текстах медицинской предметной области. Для задачи классификации наилучшее значение макро F-меры, равное 70%, показала модель EnRuDR-BERT, предобученная на русскоязычных и англоязычных текстах медицинской направленности. Превосходство данной модели над моделью BERT, предобученной на текстах общей предметной области, составляет 8,64% макро F-меры.

Ключевые слова: обработка естественного языка, классификация текстов, извлечение информации, распознавание именованных сущностей, BERT.

Финансовая поддержка	Номер гранта
Министерство науки и высшего образования Российской Федерации	МК-3193.2021.1.6
Данная работа выполнена при поддержке гранта Президента РФ МК-3193.2021.1.6

Тип публикации: Статья

Образец цитирования: А. С. Саховский, Е. В. Тутубалина, “Межъязыковой перенос знаний при извлечении информации о лекарствах из пользовательских текстов”, Труды ИСП РАН, 33:6 (2021), 217–228

Цитирование в формате AMSBIB

\RBibitem{SakTut21}

\by А.~С.~Саховский, Е.~В.~Тутубалина

\paper Межъязыковой перенос знаний при извлечении информации о лекарствах из пользовательских текстов

\jour Труды ИСП РАН

\yr 2021

\vol 33

\issue 6

\pages 217--228

\mathnet{http://mi.mathnet.ru/tisp656}

\crossref{https://doi.org/10.15514/ISPRAS-2021-33(6)-15}

Образцы ссылок на эту страницу:

https://www.mathnet.ru/rus/tisp656

https://www.mathnet.ru/rus/tisp/v33/i6/p217

Citing articles in Google Scholar: Russian citations, English citations
Related articles in Google Scholar: Russian articles, English articles

Труды института системного программирования РАН

Статистика просмотров:
Страница аннотации:	22
PDF полного текста:	6

Что такое QR-код?

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы