|
Эта публикация цитируется в 1 научной статье (всего в 1 статье)
Theory of data
Задачи в области распознавания именованных сущностей: технологии и инструменты
Н. С. Лагутина, А. М. Васильев, Д. Д. Зафиевский Ярославский государственный университет им. П. Г. Демидова, ул. Советская, д. 14, г. Ярославль, 150003 Россия
Аннотация:
Задача распознавания именованных сущностей (named entity recognition, NER) состоит в выделении и классификации слов и словосочетаний, обозначающих именованные объекты, таких как люди, организации, географические названия, даты, события, обозначения терминов предметных областей. В поисках лучшего решения исследователи проводят широкий спектр экспериментов с разными технологиями и исходными данными. Сравнение результатов этих экспериментов показывает значительное расхождение качества NER и ставит проблему определения условий и границ применения используемых технологий, а также поиска новых путей решения. Важным звеном в ответах на эти вопросы является систематизация и анализ актуальных исследований и публикация соответствующих обзоров. В области распознавания именованных сущностей авторы аналитических статей в первую очередь рассматривают математические методы выделения и классификации и не уделяют внимание специфике самой задачи. В предлагаемом обзоре область распознавания именованных сущностей рассмотрена с точки зрения отдельных категорий задач. Авторы выделили пять категорий: классическая задача NER, подзадачи NER, NER в социальных сетях, NER в предметных областях, NER в задачах обработки естественного языка (natural language processing, NLP). Для каждой категории обсуждается качество решения, особенности методов, проблемы и ограничения. Информация об актуальных научных работах каждой категории для наглядности приводится в виде таблицы, содержащей информацию об исследованиях: ссылку на работу, язык использованного корпуса текстов и его название, базовый метод решения задачи, оценку качества решения в виде стандартной статистической характеристики F-меры, которая является средним гармоническим между точностью и полнотой решения. Обзор позволяет сделать ряд выводов. В качестве базовых технологий лидируют методы глубокого обучения. Основными проблемами являются дефицит эталонных наборов данных, высокие требования к вычислительным ресурсам, отсутствие анализа ошибок. Перспективным направлением исследований в области NER является развитие методов на основе обучения без учителя или на основе правил. Возможной базой предобработки текста для таких методов могут служить интенсивно развивающиеся модели языков в существующих инструментах NLP. Завершают статью описание и результаты экспериментов с инструментами NER для русскоязычных текстов.
Ключевые слова:
распознавание именованных сущностей, автоматическая обработка текста, обзор, инструменты обработки естественного языка.
Поступила в редакцию: 21.10.2022 Исправленный вариант: 01.02.2023 Принята в печать: 08.02.2023
Образец цитирования:
Н. С. Лагутина, А. М. Васильев, Д. Д. Зафиевский, “Задачи в области распознавания именованных сущностей: технологии и инструменты”, Модел. и анализ информ. систем, 30:1 (2023), 64–85
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/mais791 https://www.mathnet.ru/rus/mais/v30/i1/p64
|
|