|
Эта публикация цитируется в 1 научной статье (всего в 1 статье)
Обработка естественного языка
Классификация текстовых документов с использованием вероятностной тематической модели
С. Н. Карповичa, А. В. Смирновb, Н. Н. Тесляb a АО "Олимп", г. Москва, Россия
b Санкт-Петербургский институт информатики и автоматизации РАН, Санкт-Петербург, Россия
Аннотация:
Предложен подход к классификации текстовых документов с использованием вероятностной тематической модели, отличающейся тем, что обучающее множество документов представлено экземплярами одного класса. Этот подход позволяет отбирать положительные экземпляры, похожие на заданный класс, из коллекций и потоков текстовых документов. Рассмотрены модели, обучаемые на экземплярах одного класса, решающие задачи классификации в применении к текстовым документам, обозначены их ключевые особенности. Представлена модель классификации Positive Example Based Learning-TM и разработан программный прототип, реализующий классификацию текстовых документов на ее основе. Не имея представления об отрицательных экземплярах документов, она демонстрирует высокую точность классификации, превышающую альтернативные подходы. Экспериментально доказано превосходство Positive Example Based Learning-TM по критерию точности классификации при малом объеме обучающей выборки.
Ключевые слова:
классификация, бинарная классификация, тематическое моделирование, обработка текста на естественном языке.
Образец цитирования:
С. Н. Карпович, А. В. Смирнов, Н. Н. Тесля, “Классификация текстовых документов с использованием вероятностной тематической модели”, Искусственный интеллект и принятие решений, 2018, № 3, 69–77; Scientific and Technical Information Processing, 46:5 (2019), 314–320
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/iipr217 https://www.mathnet.ru/rus/iipr/y2018/i3/p69
|
Статистика просмотров: |
Страница аннотации: | 42 | PDF полного текста: | 13 | Список литературы: | 1 |
|