Моделирование и анализ информационных систем
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Импакт-фактор

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Модел. и анализ информ. систем:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Моделирование и анализ информационных систем, 2023, том 30, номер 1, страницы 64–85
DOI: https://doi.org/10.18255/1818-1015-2023-1-64-85
(Mi mais791)
 

Эта публикация цитируется в 1 научной статье (всего в 1 статье)

Theory of data

Задачи в области распознавания именованных сущностей: технологии и инструменты

Н. С. Лагутина, А. М. Васильев, Д. Д. Зафиевский

Ярославский государственный университет им. П. Г. Демидова, ул. Советская, д. 14, г. Ярославль, 150003 Россия
Список литературы:
Аннотация: Задача распознавания именованных сущностей (named entity recognition, NER) состоит в выделении и классификации слов и словосочетаний, обозначающих именованные объекты, таких как люди, организации, географические названия, даты, события, обозначения терминов предметных областей. В поисках лучшего решения исследователи проводят широкий спектр экспериментов с разными технологиями и исходными данными. Сравнение результатов этих экспериментов показывает значительное расхождение качества NER и ставит проблему определения условий и границ применения используемых технологий, а также поиска новых путей решения. Важным звеном в ответах на эти вопросы является систематизация и анализ актуальных исследований и публикация соответствующих обзоров. В области распознавания именованных сущностей авторы аналитических статей в первую очередь рассматривают математические методы выделения и классификации и не уделяют внимание специфике самой задачи. В предлагаемом обзоре область распознавания именованных сущностей рассмотрена с точки зрения отдельных категорий задач. Авторы выделили пять категорий: классическая задача NER, подзадачи NER, NER в социальных сетях, NER в предметных областях, NER в задачах обработки естественного языка (natural language processing, NLP). Для каждой категории обсуждается качество решения, особенности методов, проблемы и ограничения. Информация об актуальных научных работах каждой категории для наглядности приводится в виде таблицы, содержащей информацию об исследованиях: ссылку на работу, язык использованного корпуса текстов и его название, базовый метод решения задачи, оценку качества решения в виде стандартной статистической характеристики F-меры, которая является средним гармоническим между точностью и полнотой решения. Обзор позволяет сделать ряд выводов. В качестве базовых технологий лидируют методы глубокого обучения. Основными проблемами являются дефицит эталонных наборов данных, высокие требования к вычислительным ресурсам, отсутствие анализа ошибок. Перспективным направлением исследований в области NER является развитие методов на основе обучения без учителя или на основе правил. Возможной базой предобработки текста для таких методов могут служить интенсивно развивающиеся модели языков в существующих инструментах NLP. Завершают статью описание и результаты экспериментов с инструментами NER для русскоязычных текстов.
Ключевые слова: распознавание именованных сущностей, автоматическая обработка текста, обзор, инструменты обработки естественного языка.
Финансовая поддержка
Работа выполнена при поддержке инициативного проекта VIP-016.
Поступила в редакцию: 21.10.2022
Исправленный вариант: 01.02.2023
Принята в печать: 08.02.2023
Тип публикации: Статья
УДК: 004.912
MSC: 68T50
Образец цитирования: Н. С. Лагутина, А. М. Васильев, Д. Д. Зафиевский, “Задачи в области распознавания именованных сущностей: технологии и инструменты”, Модел. и анализ информ. систем, 30:1 (2023), 64–85
Цитирование в формате AMSBIB
\RBibitem{LagVasZaf23}
\by Н.~С.~Лагутина, А.~М.~Васильев, Д.~Д.~Зафиевский
\paper Задачи в области распознавания именованных сущностей: технологии и инструменты
\jour Модел. и анализ информ. систем
\yr 2023
\vol 30
\issue 1
\pages 64--85
\mathnet{http://mi.mathnet.ru/mais791}
\crossref{https://doi.org/10.18255/1818-1015-2023-1-64-85}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/mais791
  • https://www.mathnet.ru/rus/mais/v30/i1/p64
  • Эта публикация цитируется в следующих 1 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Моделирование и анализ информационных систем
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2025