Моделирование и анализ информационных систем
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Импакт-фактор

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Модел. и анализ информ. систем:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Моделирование и анализ информационных систем, 2021, том 28, номер 3, страницы 280–291
DOI: https://doi.org/10.18255/1818-1015-2021-3-280-291
(Mi mais750)
 

Эта публикация цитируется в 2 научных статьях (всего в 2 статьях)

Theory of data

Классификация текстов по жанрам на основе ритмических характеристик

К. В. Лагутинаa, Н. С. Лагутинаa, Е. И. Бойчукb

a Ярославский государственный университет им. П. Г. Демидова, ул. Советская, д. 14, г. Ярославль, 150003 Россия
b Ярославский государственный педагогический университет им. К. Д. Ушинского, ул. Республиканская, д. 108/1, г. Ярославль, 150000 Россия
Список литературы:
Аннотация: Статья посвящена анализу ритма текстов различных жанров: художественных романов, рекламы, научных статей, отзывов, твитов и политических статей. Авторы выделили в текстах лексико-грамматические средства: анафору, эпифору, диакопу, апозиопезу и т. п., которые являются маркерами ритма текста. На их основе были подсчитаны статистические характеристики, описывающие количественно и структурно данные ритмические средства.
Полученная модель текста была визуализирована для статистического анализа с помощью диаграмм размаха и тепловых карт, которые показали отличия в ритме текстов различных жанров. Диаграммы размаха показали, что практически все жанры отличаются друг от друга по общей плотности ритмических характеристик. Тепловые карты показали различную структуру ритма у жанров.
Далее ритмические характеристики успешно использовались для классификации текстов по шести жанрам. Высокое качество классификации показало, что ритмические характеристики являются хорошим маркером для большинства жанров, в особенности для художественной литературы. Эксперименты проводились с помощью программного инструмента ProseRhythmDetector для русского и английского языков. Корпуса текстов содержат по 300 текстов для каждого языка.
Ключевые слова: стилометрия, обработка естественного языка, ритмические характеристики, жанры, классификация текстов.
Финансовая поддержка Номер гранта
Российский фонд фундаментальных исследований 19-07-00243
Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 19-07-00243.
Поступила в редакцию: 20.08.2021
Исправленный вариант: 30.08.2021
Принята в печать: 01.09.2021
Реферативные базы данных:
Тип публикации: Статья
УДК: 004.912
MSC: 68T50
Образец цитирования: К. В. Лагутина, Н. С. Лагутина, Е. И. Бойчук, “Классификация текстов по жанрам на основе ритмических характеристик”, Модел. и анализ информ. систем, 28:3 (2021), 280–291
Цитирование в формате AMSBIB
\RBibitem{LagLagBoy21}
\by К.~В.~Лагутина, Н.~С.~Лагутина, Е.~И.~Бойчук
\paper Классификация текстов по жанрам на основе ритмических характеристик
\jour Модел. и анализ информ. систем
\yr 2021
\vol 28
\issue 3
\pages 280--291
\mathnet{http://mi.mathnet.ru/mais750}
\crossref{https://doi.org/10.18255/1818-1015-2021-3-280-291}
\elib{https://elibrary.ru/item.asp?id=46677108}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/mais750
  • https://www.mathnet.ru/rus/mais/v28/i3/p280
  • Эта публикация цитируется в следующих 2 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Моделирование и анализ информационных систем
    Статистика просмотров:
    Страница аннотации:129
    PDF полного текста:65
    Список литературы:31
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024