Е. Г. Григорьева, В. А. Клячин, “Исследование статистических характеристик текста на основе графовой модели лингвистического корпуса”, Изв. Сарат. ун-та. Нов. сер. Сер.: Математика. Механика. Информатика, 20:1 (2020), 116

Известия Саратовского университета. Новая серия. Серия: Математика. Механика. Информатика

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Общая информация
	Последний выпуск
	Архив
	Импакт-фактор

	Поиск публикаций
	Поиск ссылок

	RSS
	Последний выпуск
	Текущие выпуски
	Архивные выпуски
	Что такое RSS

Изв. Сарат. ун-та. Нов. сер. Сер.: Математика. Механика. Информатика:
Год:
Том:
Выпуск:
Страница:
	Найти

Персональный вход:
Логин:
Пароль:
	Запомнить пароль
	Войти
	Забыли пароль?
	Регистрация

Известия Саратовского университета. Новая серия. Серия: Математика. Механика. Информатика, 2020, том 20, выпуск 1, страницы 116–126
DOI: https://doi.org/10.18500/1816-9791-2020-20-1-116-126 (Mi isu833)

Эта публикация цитируется в 1 научной статье (всего в 1 статье)

Научный отдел
Информатика

Исследование статистических характеристик текста на основе графовой модели лингвистического корпуса

Е. Г. Григорьева^a, В. А. Клячин^ba

^a Волгоградский государственный университет, Россия, 400062, г. Волгоград, Университетский пр-т, д. 100
^b Калмыцкий государственный университет имени Б. Б. Городовикова, Россия, Республика Калмыкия, 358000, г. Элиста, ул. Пушкина, д. 11

PDF полного текста (425 kB) Список цитирования (1)

Список литературы:

PDF

HTML

DOI: https://doi.org/10.18500/1816-9791-2020-20-1-116-126

Аннотация: Статья посвящена исследованию статистических характеристик текста, которые вычисляются на базе графовой модели представления текста из лингвистического корпуса. Во введении излагается актуальность статистического анализа текстов и приводятся некоторые задачи, решаемые с помощью такого анализа. Предлагаемая в статье графовая модель текста строится как граф, в вершинах которого расположены слова текста, а ребра графа отражают факт попадания двух слов в какую-либо часть текста, например в предложение. Для вершин и ребер графа в статье вводятся понятия веса как значения из некоторой аддитивной полугруппы. Доказываются формулы вычисления графа и его весов при конкатенации текстов. На основе предложенной модели реализуются вычисления на языке программирования Python. Для экспериментального исследования статистических характеристик выделяются 24 величины, которые выражаются через веса вершин, ребер графа, а также других характеристик графа, например степени его вершин. Надо отметить, что целью численных экспериментов является поиск характеристик текста, с помощью которых можно определять, является ли текст созданным человеком или случайно сгенерированным. В статье предлагается один из возможных таких алгоритмов, который генерирует случайный текст, используя некоторый созданный человеком другой текст в качестве шаблона. При этом в случайном тексте сохраняется последовательность чередования частей речи вспомогательного текста. Оказывается, что требуемым условиям удовлетворяет медианное значение отношения величины веса ребра графа текста к числу предложений в тексте.

Ключевые слова: текст, лингвистический корпус, граф, автоматическая обработка текста.

Финансовая поддержка	Номер гранта
Российский фонд фундаментальных исследований	18-412-340007
Работа выполнена при финансовой поддержке РФФИ и Администрации Волгоградской области (проект № 18-412-340007).

Поступила в редакцию: 28.02.2019
Принята в печать: 19.05.2019

Реферативные базы данных:

Тип публикации: Статья

УДК: 519.688+004.942

Образец цитирования: Е. Г. Григорьева, В. А. Клячин, “Исследование статистических характеристик текста на основе графовой модели лингвистического корпуса”, Изв. Сарат. ун-та. Нов. сер. Сер.: Математика. Механика. Информатика, 20:1 (2020), 116–126

Цитирование в формате AMSBIB

\RBibitem{GriKly20}

\by Е.~Г.~Григорьева, В.~А.~Клячин

\paper Исследование статистических характеристик текста на~основе графовой модели лингвистического корпуса

\jour Изв. Сарат. ун-та. Нов. сер. Сер.: Математика. Механика. Информатика

\yr 2020

\vol 20

\issue 1

\pages 116--126

\mathnet{http://mi.mathnet.ru/isu833}

\crossref{https://doi.org/10.18500/1816-9791-2020-20-1-116-126}

Образцы ссылок на эту страницу:

https://www.mathnet.ru/rus/isu833

https://www.mathnet.ru/rus/isu/v20/i1/p116

Эта публикация цитируется в следующих 1 статьяx:

Citing articles in Google Scholar: Russian citations, English citations
Related articles in Google Scholar: Russian articles, English articles

Известия Саратовского университета. Новая серия. Серия Математика. Механика. Информатика

Статистика просмотров:
Страница аннотации:	219
PDF полного текста:	238
Список литературы:	26

Что такое QR-код?

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы