Сибирские электронные математические известия
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Импакт-фактор

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Сиб. электрон. матем. изв.:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Сибирские электронные математические известия, 2020, том 17, страницы 1959–1974
DOI: https://doi.org/10.33048/semi.2020.17.132
(Mi semr1326)
 

Эта публикация цитируется в 1 научной статье (всего в 1 статье)

Теория вероятностей и математическая статистика

A statistical test for correspondence of texts to the Zipf—Mandelbrot law

A. Chakrabartya, M. G. Chebuninba, A. P. Kovalevskiica, I. M. Pupyshevca, N. S. Zakrevskayac, Q. Zhoud

a Novosibirsk State University, 1, Pirogova str., Novosibirsk, 630090, Russia
b Sobolev Institute of Mathematics, 4, Koptyuga ave., Novosibirsk, 630090, Russia
c Novosibirsk State Technical University, 20, K. Marksa ave., Novosibirsk, 630073, Russia
d School of Mathematical Sciences, Nankai University, Tianjin, 300071, China
Список литературы:
Аннотация: We analyse correspondence of texts to a simple probabilistic model. The model assumes that the words are selected independently from an infinite dictionary, and the probability distribution of words corresponds to the Zipf—Mandelbrot law. We count the numbers of different words in the text sequentially and get the process of the numbers of different words. Then we estimate the Zipf—Mandelbrot law's parameters using the same sequence and construct an estimate of the expectation of the number of different words in the text. After that we subtract the corresponding values of the estimate from the sequence and normalize along the coordinate axes, obtaining a random process on a segment from $0$ to $1$. We prove that this process (the empirical text bridge) converges weakly in the uniform metric on $C(0, 1)$ to a centered Gaussian process with continuous a.s. paths. We develop and implement an algorithm for calculating the probability distribution of the integral of the square of this process. We present several examples of application of the algorithm for analysis of the homogeneity of texts in English, French, Russian, and Chinese.
Ключевые слова: Zipf's law, weak convergence, Gaussian process.
Финансовая поддержка Номер гранта
Российский фонд фундаментальных исследований 19-51-53010
The reported study was funded by RFBR and NSFC according to the research project No. 19-51-53010.
Поступила 28 сентября 2020 г., опубликована 27 ноября 2020 г.
Реферативные базы данных:
Тип публикации: Статья
УДК: 519.233
MSC: 62F03
Язык публикации: английский
Образец цитирования: A. Chakrabarty, M. G. Chebunin, A. P. Kovalevskii, I. M. Pupyshev, N. S. Zakrevskaya, Q. Zhou, “A statistical test for correspondence of texts to the Zipf—Mandelbrot law”, Сиб. электрон. матем. изв., 17 (2020), 1959–1974
Цитирование в формате AMSBIB
\RBibitem{ChaCheKov20}
\by A.~Chakrabarty, M.~G.~Chebunin, A.~P.~Kovalevskii, I.~M.~Pupyshev, N.~S.~Zakrevskaya, Q.~Zhou
\paper A statistical test for correspondence of texts to the Zipf---Mandelbrot law
\jour Сиб. электрон. матем. изв.
\yr 2020
\vol 17
\pages 1959--1974
\mathnet{http://mi.mathnet.ru/semr1326}
\crossref{https://doi.org/10.33048/semi.2020.17.132}
\isi{https://gateway.webofknowledge.com/gateway/Gateway.cgi?GWVersion=2&SrcApp=Publons&SrcAuth=Publons_CEL&DestLinkType=FullRecord&DestApp=WOS_CPL&KeyUT=000593965200001}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/semr1326
  • https://www.mathnet.ru/rus/semr/v17/p1959
  • Эта публикация цитируется в следующих 1 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Статистика просмотров:
    Страница аннотации:279
    PDF полного текста:150
    Список литературы:34
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024