Моделирование и анализ информационных систем
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Импакт-фактор

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Модел. и анализ информ. систем:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Моделирование и анализ информационных систем, 2017, том 24, номер 6, страницы 772–787
DOI: https://doi.org/10.18255/1818-1015-2017-6-772-787
(Mi mais600)
 

Эта публикация цитируется в 6 научных статьях (всего в 6 статьях)

Анализ использования различных типов связей между терминами тезауруса, сгенерированного с помощью гибридных методов, в задачах классификации текстов

Н. С. Лагутина, К. В. Лагутина, И. А. Щитов, И. В. Парамонов

Ярославский государственный университет им. П.Г. Демидова, ул. Советская, 14, г. Ярославль, 150003 Россия
Список литературы:
Аннотация: Цель данной статьи — проанализировать, насколько эффективно могут применяться различные типы тезаурусных связей в задачах классификации текстов. Основой исследования является автоматически сгенерированный тезаурус предметной области, содержащий три типа связей: синонимические, иерархические и ассоциативные. Для генерации тезауруса используется гибридный метод, основанный на нескольких лингвистических и статистических алгоритмах выделения семантических связей и позволяющий создать тезаурус с достаточно большим числом терминов и связей между ними. Авторы рассматривают две задачи: тематическая классификация текстов и классификация больших новостных статей по тональности. Для решения каждой из них авторами были использованы два подхода, каждый из которых дополняет стандартные алгоритмы процедурой, применяющей связи тезауруса для определения семантических особенностей текстов. Подход к тематической классификации включает в себя стандартный алгоритм BM25 вида «обучение без учителя» и процедуру, использующую синонимические и иерархические связи тезауруса предметной области. Подход к классификации по тональности состоит из двух шагов. На первом шаге создается тезаурус, тональные веса терминов которого считаются в зависимости от частоты встречаемости в обучаемой выборке или от веса соседей по тезаурусу. На втором шаге тезаурус применяется для вычисления признаков слов из текстов и классификации текстов методом опорных векторов или наивным байесовским классификатором. В экспериментах с корпусами BBCSport, Reuters, PubMed и корпусом статей об американских иммигрантах авторы варьировали типы связей, которые участвуют в классификации, и степень их использования. Результаты экспериментов позволяют оценить эффективность применения тезаурусных связей для классификации текстов на естественном языке и определить, при каких условиях те или иные связи имеют бо́льшую значимость. В частности, наиболее полезными тезаурусными связями оказались синонимические и иерархические, так как они обеспечивает лучшее качество классификации.
Ключевые слова: тезаурус, семантические отношения, тезаурусные связи, тематическая классификация, классификация по тональности.
Финансовая поддержка Номер гранта
Министерство образования и науки Российской Федерации MK-5456.2016.9
Работа выполнена при финансовой поддержке гранта Президента Российской Федерации для государственной поддержки молодых российских ученых (государственный контракт № MK-5456.2016.9).
Поступила в редакцию: 16.10.2017
Реферативные базы данных:
Тип публикации: Статья
УДК: 004.912
Образец цитирования: Н. С. Лагутина, К. В. Лагутина, И. А. Щитов, И. В. Парамонов, “Анализ использования различных типов связей между терминами тезауруса, сгенерированного с помощью гибридных методов, в задачах классификации текстов”, Модел. и анализ информ. систем, 24:6 (2017), 772–787
Цитирование в формате AMSBIB
\RBibitem{LagLagShc17}
\by Н.~С.~Лагутина, К.~В.~Лагутина, И.~А.~Щитов, И.~В.~Парамонов
\paper Анализ использования различных типов связей между терминами тезауруса, сгенерированного с помощью гибридных методов, в~задачах классификации текстов
\jour Модел. и анализ информ. систем
\yr 2017
\vol 24
\issue 6
\pages 772--787
\mathnet{http://mi.mathnet.ru/mais600}
\crossref{https://doi.org/10.18255/1818-1015-2017-6-772-787}
\elib{https://elibrary.ru/item.asp?id=30730616}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/mais600
  • https://www.mathnet.ru/rus/mais/v24/i6/p772
  • Эта публикация цитируется в следующих 6 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Моделирование и анализ информационных систем
    Статистика просмотров:
    Страница аннотации:229
    PDF полного текста:174
    Список литературы:29
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024