Системы и средства информатики
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Импакт-фактор

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Системы и средства информ.:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Системы и средства информатики, 2022, том 32, выпуск 4, страницы 59–68
DOI: https://doi.org/10.14357/08696527220406
(Mi ssi856)
 

Токенизация текстов на основе метода функциональных шаблонов

Ю. В. Никитинa, А. А. Хорошиловbac, А. Е. Макароваd

a Федеральный исследовательский центр «Информатика и управление» Российской академии наук
b Московский авиационный институт
c 27 Центральный научно-исследовательский институт Министерства обороны Российской Федерации
d АО «НПК "ВТ и СС"»
Список литературы:
Аннотация: Предлагается новый метод токенизации текста, базирующийся на применении обобщенных функциональных шаблонов. В основу метода положена классификация символов Юникода, учитывающая их роль в формировании элементарных элементов текста (сегментов), и классификация сформированных сегментов по типу их графематических классов. Особенность метода заключается в использовании при формировании шаблона интервалов последовательности символов Юникода. Основное достоинство метода — возможность токенизации сложных информационных объектов (номера, географические координаты, наименования артикулов инженерных изделий и т. п.), возможность получения детальной классификации токенов на стадии их формирования, возможность включения и выключения токенизации определенного вида токенов, а также добавления новых шаблонов по образцу текста для дообучения системы.
Ключевые слова: токенизация, сегментация текста, функциональные шаблоны, графематический анализ, компьютерная лингвистика, автоматическая обработка текстов.
Поступила в редакцию: 15.09.2022
Тип публикации: Статья
Образец цитирования: Ю. В. Никитин, А. А. Хорошилов, А. Е. Макарова, “Токенизация текстов на основе метода функциональных шаблонов”, Системы и средства информ., 32:4 (2022), 59–68
Цитирование в формате AMSBIB
\RBibitem{NikKhoMak22}
\by Ю.~В.~Никитин, А.~А.~Хорошилов, А.~Е.~Макарова
\paper Токенизация текстов на~основе метода функциональных шаблонов
\jour Системы и средства информ.
\yr 2022
\vol 32
\issue 4
\pages 59--68
\mathnet{http://mi.mathnet.ru/ssi856}
\crossref{https://doi.org/10.14357/08696527220406}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/ssi856
  • https://www.mathnet.ru/rus/ssi/v32/i4/p59
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Системы и средства информатики
    Статистика просмотров:
    Страница аннотации:55
    PDF полного текста:18
    Список литературы:14
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024