|
Эта публикация цитируется в 2 научных статьях (всего в 2 статьях)
КОМПЬЮТЕРНОЕ ОБЕСПЕЧЕНИЕ И ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА
Дискриминантный анализ технических коротких текстов
А. В. Боровскийa, Е. Е. Раковскаяa, А. Л. Бисикалоb a Байкальский государственный университет
b Иркутский государственный университет
Аннотация:
Большое внимание к обработке текстовой информации для формирования тематических групп и систематизации документов, обусловленное развитием и ростом популярности Интернета как средства коммуникации, требует категоризации коротких технических текстов, которая, в свою очередь, характеризуется сложностью традиционных подходов (проведением предобработки и «оцифровки» документов, идентификацией «классифицирующих» признаков, выбором методов классификации). Специфичность исследования на каждом этапе обусловлена характеристикой текста: небольшим размером, употреблением сходной лексики, наличием большого количества узкоспециальных символов и обозначений, синонимией терминов. Предложено описание процедуры подготовки текстов к анализу, снижения размерности матрицы «термин – документ» с помощью сингулярного разложения, позволяющего решить задачу малоранговой аппроксимации исходной матрицы. Применяемые методы классификации — метод $k$-ближайших соседей и дискриминантный анализ с использованием элементарных функций Фишера. В процедуре классификации по методу Фишера используются дискриминантные переменные и прием максимизации различий между классами для получения функции классификации. Объект относится к тому классу, для которого значение классифицирующей функции является наибольшим. Дана оценка полученных результатов, отмечается недостаточная точность классификации при применении меры $TF - IDF$ в условиях эксперимента. Для улучшения качества классификации предложен комбинированный метод, в рамках которого предлагается на первом этапе провести селекцию слов при помощи меры $TF - IDF$, на втором этапе применить словарь терминов и словосочетаний для классификации текстов. На основании полученных данных предлагается провести классификацию методами дискриминантного анализа и $k$-ближайших соседей. В будущем планируются уточнение и доработка предлагаемого комбинированного метода.
Ключевые слова:
классификация коротких текстов, определение веса терминов, сингулярное разложение, дискриминантный анализ, элементарные функции Фишера, метод $k$-ближайших соседей.
Поступила в редакцию: 05.03.2018
Образец цитирования:
А. В. Боровский, Е. Е. Раковская, А. Л. Бисикало, “Дискриминантный анализ технических коротких текстов”, Вестн. Астрахан. гос. техн. ун-та. Сер. управление, вычисл. техн. информ., 2018, № 2, 53–60
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/vagtu530 https://www.mathnet.ru/rus/vagtu/y2018/i2/p53
|
Статистика просмотров: |
Страница аннотации: | 139 | PDF полного текста: | 40 | Список литературы: | 20 |
|