Вестник Астраханского государственного технического университета. Серия: Управление, вычислительная техника и информатика
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Импакт-фактор

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Вестн. Астрахан. гос. техн. ун-та. Сер. управление, вычисл. техн. информ.:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Вестник Астраханского государственного технического университета. Серия: Управление, вычислительная техника и информатика, 2018, номер 2, страницы 53–60
DOI: https://doi.org/10.24143/2072-9502-2018-2-53-60
(Mi vagtu530)
 

Эта публикация цитируется в 2 научных статьях (всего в 2 статьях)

КОМПЬЮТЕРНОЕ ОБЕСПЕЧЕНИЕ И ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА

Дискриминантный анализ технических коротких текстов

А. В. Боровскийa, Е. Е. Раковскаяa, А. Л. Бисикалоb

a Байкальский государственный университет
b Иркутский государственный университет
Список литературы:
Аннотация: Большое внимание к обработке текстовой информации для формирования тематических групп и систематизации документов, обусловленное развитием и ростом популярности Интернета как средства коммуникации, требует категоризации коротких технических текстов, которая, в свою очередь, характеризуется сложностью традиционных подходов (проведением предобработки и «оцифровки» документов, идентификацией «классифицирующих» признаков, выбором методов классификации). Специфичность исследования на каждом этапе обусловлена характеристикой текста: небольшим размером, употреблением сходной лексики, наличием большого количества узкоспециальных символов и обозначений, синонимией терминов. Предложено описание процедуры подготовки текстов к анализу, снижения размерности матрицы «термин – документ» с помощью сингулярного разложения, позволяющего решить задачу малоранговой аппроксимации исходной матрицы. Применяемые методы классификации — метод $k$-ближайших соседей и дискриминантный анализ с использованием элементарных функций Фишера. В процедуре классификации по методу Фишера используются дискриминантные переменные и прием максимизации различий между классами для получения функции классификации. Объект относится к тому классу, для которого значение классифицирующей функции является наибольшим. Дана оценка полученных результатов, отмечается недостаточная точность классификации при применении меры $TF - IDF$ в условиях эксперимента. Для улучшения качества классификации предложен комбинированный метод, в рамках которого предлагается на первом этапе провести селекцию слов при помощи меры $TF - IDF$, на втором этапе применить словарь терминов и словосочетаний для классификации текстов. На основании полученных данных предлагается провести классификацию методами дискриминантного анализа и $k$-ближайших соседей. В будущем планируются уточнение и доработка предлагаемого комбинированного метода.
Ключевые слова: классификация коротких текстов, определение веса терминов, сингулярное разложение, дискриминантный анализ, элементарные функции Фишера, метод $k$-ближайших соседей.
Поступила в редакцию: 05.03.2018
Реферативные базы данных:
Тип публикации: Статья
УДК: 004.93
Образец цитирования: А. В. Боровский, Е. Е. Раковская, А. Л. Бисикало, “Дискриминантный анализ технических коротких текстов”, Вестн. Астрахан. гос. техн. ун-та. Сер. управление, вычисл. техн. информ., 2018, № 2, 53–60
Цитирование в формате AMSBIB
\RBibitem{BorRakBis18}
\by А.~В.~Боровский, Е.~Е.~Раковская, А.~Л.~Бисикало
\paper Дискриминантный анализ технических коротких текстов
\jour Вестн. Астрахан. гос. техн. ун-та. Сер. управление, вычисл. техн. информ.
\yr 2018
\issue 2
\pages 53--60
\mathnet{http://mi.mathnet.ru/vagtu530}
\crossref{https://doi.org/10.24143/2072-9502-2018-2-53-60}
\elib{https://elibrary.ru/item.asp?id=32808856}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/vagtu530
  • https://www.mathnet.ru/rus/vagtu/y2018/i2/p53
  • Эта публикация цитируется в следующих 2 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Вестник Астраханского государственного технического университета. Серия: Управление, вычислительная техника и информатика
    Статистика просмотров:
    Страница аннотации:139
    PDF полного текста:40
    Список литературы:20
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024