|
Artificial intelligence
Извлечение именованных сущностей из русскоязычных документов с различной выраженностью структуры
М. Д. Аверина, О. А. Леванова Ярославский государственный университет им. П.Г. Демидова, ул. Советская, д. 14, г. Ярославль, 150003 Россия
Аннотация:
Данная работа посвящена решению задачи распознавания именованных сущностей для русскоязычных текстов на основе модели CRF. Рассмотрены два набора данных: документы о рефинансировании с хорошей структурой документа, слабоструктурированные тексты судебных протоколов. Было проведено тестирование модели при различных наборах текстовых признаков и параметрах CRF (алгоритмов оптимизации). В среднем по всем сущностям лучшее значение F-меры для структурированных документов составило 0.99, а для слабоструктурированных 0.86.
Ключевые слова:
извлечение именованных сущностей, CRF.
Поступила в редакцию: 13.10.2023 Исправленный вариант: 10.11.2023 Принята в печать: 15.11.2023
Образец цитирования:
М. Д. Аверина, О. А. Леванова, “Извлечение именованных сущностей из русскоязычных документов с различной выраженностью структуры”, Модел. и анализ информ. систем, 30:4 (2023), 382–393
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/mais810 https://www.mathnet.ru/rus/mais/v30/i4/p382
|
Статистика просмотров: |
Страница аннотации: | 34 | PDF полного текста: | 20 | Список литературы: | 11 |
|