|
Токенизация текстов на основе метода функциональных шаблонов
Ю. В. Никитинa, А. А. Хорошиловbac, А. Е. Макароваd a Федеральный исследовательский центр «Информатика и управление» Российской академии наук
b Московский авиационный институт
c 27 Центральный научно-исследовательский институт Министерства обороны Российской Федерации
d АО «НПК "ВТ и СС"»
Аннотация:
Предлагается новый метод токенизации текста, базирующийся на применении обобщенных функциональных шаблонов. В основу метода положена классификация символов Юникода, учитывающая их роль в формировании элементарных элементов текста (сегментов), и классификация сформированных сегментов по типу их графематических классов. Особенность метода заключается в использовании при формировании шаблона интервалов последовательности символов Юникода. Основное достоинство метода — возможность токенизации сложных информационных объектов (номера, географические координаты, наименования артикулов инженерных изделий и т. п.), возможность получения детальной классификации токенов на стадии их формирования, возможность включения и выключения токенизации определенного вида токенов, а также добавления новых шаблонов по образцу текста для дообучения системы.
Ключевые слова:
токенизация, сегментация текста, функциональные шаблоны, графематический анализ, компьютерная лингвистика, автоматическая обработка текстов.
Поступила в редакцию: 15.09.2022
Образец цитирования:
Ю. В. Никитин, А. А. Хорошилов, А. Е. Макарова, “Токенизация текстов на основе метода функциональных шаблонов”, Системы и средства информ., 32:4 (2022), 59–68
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/ssi856 https://www.mathnet.ru/rus/ssi/v32/i4/p59
|
|