Известия Саратовского университета. Новая серия. Серия: Математика. Механика. Информатика
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Импакт-фактор

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Изв. Сарат. ун-та. Нов. сер. Сер.: Математика. Механика. Информатика:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Известия Саратовского университета. Новая серия. Серия: Математика. Механика. Информатика, 2020, том 20, выпуск 1, страницы 116–126
DOI: https://doi.org/10.18500/1816-9791-2020-20-1-116-126
(Mi isu833)
 

Эта публикация цитируется в 1 научной статье (всего в 1 статье)

Научный отдел
Информатика

Исследование статистических характеристик текста на основе графовой модели лингвистического корпуса

Е. Г. Григорьеваa, В. А. Клячинba

a Волгоградский государственный университет, Россия, 400062, г. Волгоград, Университетский пр-т, д. 100
b Калмыцкий государственный университет имени Б. Б. Городовикова, Россия, Республика Калмыкия, 358000, г. Элиста, ул. Пушкина, д. 11
Список литературы:
Аннотация: Статья посвящена исследованию статистических характеристик текста, которые вычисляются на базе графовой модели представления текста из лингвистического корпуса. Во введении излагается актуальность статистического анализа текстов и приводятся некоторые задачи, решаемые с помощью такого анализа. Предлагаемая в статье графовая модель текста строится как граф, в вершинах которого расположены слова текста, а ребра графа отражают факт попадания двух слов в какую-либо часть текста, например в предложение. Для вершин и ребер графа в статье вводятся понятия веса как значения из некоторой аддитивной полугруппы. Доказываются формулы вычисления графа и его весов при конкатенации текстов. На основе предложенной модели реализуются вычисления на языке программирования Python. Для экспериментального исследования статистических характеристик выделяются 24 величины, которые выражаются через веса вершин, ребер графа, а также других характеристик графа, например степени его вершин. Надо отметить, что целью численных экспериментов является поиск характеристик текста, с помощью которых можно определять, является ли текст созданным человеком или случайно сгенерированным. В статье предлагается один из возможных таких алгоритмов, который генерирует случайный текст, используя некоторый созданный человеком другой текст в качестве шаблона. При этом в случайном тексте сохраняется последовательность чередования частей речи вспомогательного текста. Оказывается, что требуемым условиям удовлетворяет медианное значение отношения величины веса ребра графа текста к числу предложений в тексте.
Ключевые слова: текст, лингвистический корпус, граф, автоматическая обработка текста.
Финансовая поддержка Номер гранта
Российский фонд фундаментальных исследований 18-412-340007
Работа выполнена при финансовой поддержке РФФИ и Администрации Волгоградской области (проект № 18-412-340007).
Поступила в редакцию: 28.02.2019
Принята в печать: 19.05.2019
Реферативные базы данных:
Тип публикации: Статья
УДК: 519.688+004.942
Образец цитирования: Е. Г. Григорьева, В. А. Клячин, “Исследование статистических характеристик текста на основе графовой модели лингвистического корпуса”, Изв. Сарат. ун-та. Нов. сер. Сер.: Математика. Механика. Информатика, 20:1 (2020), 116–126
Цитирование в формате AMSBIB
\RBibitem{GriKly20}
\by Е.~Г.~Григорьева, В.~А.~Клячин
\paper Исследование статистических характеристик текста на~основе графовой модели лингвистического корпуса
\jour Изв. Сарат. ун-та. Нов. сер. Сер.: Математика. Механика. Информатика
\yr 2020
\vol 20
\issue 1
\pages 116--126
\mathnet{http://mi.mathnet.ru/isu833}
\crossref{https://doi.org/10.18500/1816-9791-2020-20-1-116-126}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/isu833
  • https://www.mathnet.ru/rus/isu/v20/i1/p116
  • Эта публикация цитируется в следующих 1 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Известия Саратовского университета. Новая серия. Серия Математика. Механика. Информатика
    Статистика просмотров:
    Страница аннотации:207
    PDF полного текста:222
    Список литературы:23
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024