|
Проблемы передачи информации, 2017, том 53, выпуск 3, страницы 100–111
(Mi ppi2248)
|
|
|
|
Эта публикация цитируется в 7 научных статьях (всего в 7 статьях)
Кодирование источников
Теоретико-информационный метод классификации текстов
Б. Я. Рябкоab, А. Е. Гуськовca, И. В. Селивановаbc a Институт вычислительных технологий СО РАН
b Новосибирский государственный университет
c Государственная публичная научно-техническая библиотека СО РАН
Аннотация:
Рассматривается метод автоматической, т.е. не требующей участия человека, классификации текстов, основанный на использовании методов универсального кодирования источников информации (или “сжатия данных”). Показано, что при некоторых ограничениях предлагаемый метод состоятелен, т.е. при увеличении длины рассматриваемых текстов ошибка классификации стремится к нулю. В качестве примера практического использования метода рассматривается задача классификации научных текстов (статей, книг и т.п.). Экспериментально показано, что предлагаемый метод обладает высокой эффективностью.
Поступила в редакцию: 21.10.2015 После переработки: 13.05.2017
Образец цитирования:
Б. Я. Рябко, А. Е. Гуськов, И. В. Селиванова, “Теоретико-информационный метод классификации текстов”, Пробл. передачи информ., 53:3 (2017), 100–111; Problems Inform. Transmission, 53:3 (2017), 294–304
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/ppi2248 https://www.mathnet.ru/rus/ppi/v53/i3/p100
|
|