|
Эта публикация цитируется в 1 научной статье (всего в 1 статье)
Научный отдел
Информатика
Исследование статистических характеристик текста на основе графовой модели лингвистического корпуса
Е. Г. Григорьеваa, В. А. Клячинba a Волгоградский государственный университет, Россия, 400062, г. Волгоград, Университетский пр-т, д. 100
b Калмыцкий государственный университет имени Б. Б. Городовикова, Россия, Республика
Калмыкия, 358000, г. Элиста, ул. Пушкина, д. 11
Аннотация:
Статья посвящена исследованию статистических характеристик текста, которые вычисляются на базе графовой модели представления текста из лингвистического корпуса. Во введении излагается актуальность статистического анализа текстов и приводятся некоторые задачи, решаемые с помощью такого анализа. Предлагаемая в статье графовая модель текста строится как граф, в вершинах которого расположены слова текста, а ребра графа отражают факт попадания двух слов в какую-либо часть текста, например в предложение. Для вершин и ребер графа в статье вводятся понятия веса как значения из некоторой аддитивной полугруппы. Доказываются формулы вычисления графа и его весов при конкатенации текстов. На основе предложенной модели реализуются вычисления на языке программирования Python. Для экспериментального исследования статистических характеристик выделяются 24 величины, которые выражаются через веса вершин, ребер графа, а также других характеристик графа, например степени его вершин. Надо отметить, что целью численных экспериментов является поиск характеристик текста, с помощью которых можно определять, является ли текст созданным человеком или случайно сгенерированным. В статье предлагается один из возможных таких алгоритмов, который генерирует случайный текст, используя некоторый созданный человеком другой текст в качестве шаблона. При этом в случайном тексте сохраняется последовательность чередования частей речи вспомогательного текста. Оказывается, что требуемым условиям удовлетворяет медианное значение отношения величины веса ребра графа текста к числу предложений в тексте.
Ключевые слова:
текст, лингвистический корпус, граф, автоматическая обработка текста.
Поступила в редакцию: 28.02.2019 Принята в печать: 19.05.2019
Образец цитирования:
Е. Г. Григорьева, В. А. Клячин, “Исследование статистических характеристик текста на основе графовой модели лингвистического корпуса”, Изв. Сарат. ун-та. Нов. сер. Сер.: Математика. Механика. Информатика, 20:1 (2020), 116–126
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/isu833 https://www.mathnet.ru/rus/isu/v20/i1/p116
|
Статистика просмотров: |
Страница аннотации: | 219 | PDF полного текста: | 238 | Список литературы: | 26 |
|