|
Эта публикация цитируется в 1 научной статье (всего в 1 статье)
Построение двухфакторных паттернов в задаче классификации текстов
М. Ю. Воронина, А. А. Кислицын, Ю. Н. Орлов
Аннотация:
Построены двухфакторные паттерны эмпирических распределений частот биграмм для машинной классификации текстов по авторам и тематике. Атрибуты текста распознаются методом ближайшего соседа применительно к эталонным распределениям. Близость между распределениями понимается в смысле нормы в L1. Пара «автор-тема» неизвестного текста определяется как такая, к эталонному распределению которой тестируемый текст находится ближе всего. Анализируется проблема распознавания автора безотносительно темы текста и темы безотносительно автора. Исследуются также возможности укрупнения и детализации классификационных признаков.
Ключевые слова:
машинная классификация, текст, распределение
биграмм, спектральный портрет, кластеризация.
Образец цитирования:
М. Ю. Воронина, А. А. Кислицын, Ю. Н. Орлов, “Построение двухфакторных паттернов в задаче классификации текстов”, Препринты ИПМ им. М. В. Келдыша, 2022, 043, 24 с.
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/ipmp3069 https://www.mathnet.ru/rus/ipmp/y2022/p43
|
Статистика просмотров: |
Страница аннотации: | 72 | PDF полного текста: | 21 | Список литературы: | 15 |
|