Математические заметки
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Скоро в журнале
Архив
Импакт-фактор
Правила для авторов
Лицензионный договор
Загрузить рукопись

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Матем. заметки:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Математические заметки, 2023, том 114, выпуск 3, страницы 390–403
DOI: https://doi.org/10.4213/mzm13868
(Mi mzm13868)
 

Об одном функционале от числа появившихся неперекрывающихся цепочек исходов полиномиальной схемы и его связи с энтропией

М. П. Савелов

Московский государственный университет им. М. В. Ломоносова
Список литературы:
Аннотация: Рассмотрим $n$ независимых цепочек, состоящих из $k$ независимых полиномиальных испытаний с $M$ исходами. Предполагается, что $n, k \to \infty$ и $\ln(n/M^k)=o(k)$. Установлена асимптотика нормированного логарифма числа появившихся цепочек и указана связь данного функционала с энтропией.
Библиография: 11 названий.
Ключевые слова: число непоявившихся цепочек, число пустых ячеек, энтропия, теорема Шеннона–Макмиллана–Бреймана, случайные размещения.
Поступило: 03.01.2023
Исправленный вариант: 31.01.2023
Англоязычная версия:
Mathematical Notes, 2023, Volume 114, Issue 3, Pages 339–350
DOI: https://doi.org/10.1134/S0001434623090067
Реферативные базы данных:
Тип публикации: Статья
УДК: 519.214
MSC: 60F15, 60F25

1. Введение

Пусть $\xi_{jl}$, $1 \leqslant j \leqslant n$, $1 \leqslant l \leqslant k$, – независимые случайные величины, имеющие полиномиальное распределение:

$$ \begin{equation*} \mathbf{P}(\xi_{jl}=i)=p_i, \qquad 1 \leqslant i \leqslant M, \quad 1 \leqslant j \leqslant n, \quad 1 \leqslant l \leqslant k. \end{equation*} \notag $$
Они образуют $n$ независимых цепочек $(\xi_{11},\dots,\xi_{1k}), (\xi_{21},\dots,\xi_{2k}),\dots,(\xi_{n1},\dots,\xi_{nk})$, принимающих значения во множестве $\{1,2,\dots,M \}^k$. Число непоявившихся цепочек $\mu_0$ вычисляется по формуле
$$ \begin{equation*} \mu_0=\sum_{(s_1,\dots,s_k) \in \{1,2,\dots,M \}^k } I \{ \eta^{(s_1,\dots,s_k)}=0 \}, \end{equation*} \notag $$
где $\eta^{(s_1,\dots,s_k)}=\sum_{j=1}^n I \{ (\xi_{j1},\dots,\xi_{jk}) =(s_1,\dots,s_k)\}$. Очевидно, $\mu_0<M^k$.

Если некоторые из чисел $p_i$, $1\leqslant i \leqslant M$, равны нулю, то можно исключить соответствующие исходы из рассмотрения, поэтому всюду далее без ограничения общности будем считать, что все $p_i$ положительны.

Пусть $\vec{p}=(p_1, p_2,\dots,p_M)$ и

$$ \begin{equation*} \widehat{H}=\frac{\ln(M^k - \mu_0)}{k}. \end{equation*} \notag $$
Ниже мы покажем, что величина $\widehat{H}$ естественным образом связана с шенноновской энтропией распределения $\xi_{11}$, т.е. с
$$ \begin{equation*} H=H(\vec{p})=-\sum_{i=1}^M p_i \ln p_i. \end{equation*} \notag $$
Заметим, что $\widehat{H}$ является функционалом от $\mu_0$ в полиномиальной схеме специального вида, в которой $M^k$ исходов и вероятности исходов задаются числами $p_{l_1\dotsb l_M}=p_1^{l_1}\dotsb p_M^{l_M}$, где $l_i \geqslant 0$ и $\sum_{i=1}^M l_i=k$. Занумеруем элементы множества вероятностей исходов $\{ p_{l_1\dotsb l_M} \}$ произвольным, но фиксированным образом и получим такие числа $a_1,\dots,a_{M^k}$, что $ \{ a_1,\dots,a_{M^k} \}=\{ p_{l_1\dotsb l_M} \}$. Например, можно положить $a_1= p_1^k$, $a_2=p_1^{k-1} p_2$ и т.д.

Предположим, что $n, k \to \infty$ и число $n$ независимых цепочек имеет такой же порядок, как и число исходов полиномиальной схемы $M^k$, т.е. $0<c_1 \leqslant {n}/{M^k} \leqslant c_2<\infty$ (ср. определение центральной области в [1; гл. III]). Целью настоящей статьи является изучение асимптотических свойств $\widehat{H}$ в этом и в более широком классах случаев, когда $\ln(n/M^k)=o(k)$. Отметим, что за последние десятилетия был получен ряд новых результатов в области исследования числа непоявившихся цепочек в различных схемах размещения частиц по ячейкам, см., например, [2]–[6]. В нашей задаче применение известных результатов затруднительно в силу того, что если не все $p_i$ равны друг другу, то выполнены соотношения $n \min_j a_j \to 0$ и $n \max_j a_j \to \infty$. Например, условие $n \max_j a_j \to \infty$ означает, что наша ситуация не соответствует центральной области и левой $r$-области при любом $r\geqslant 0$, а в силу условия $n \min_j a_j \to 0$ наша ситуация не соответствует правой $r$-области при любом $r\geqslant 0$, где под центральной областью, левой $r$-областью и правой $r$-областью понимается то же, что и в [1; гл. III].

Далее, положим

$$ \begin{equation*} \begin{gathered} \, f(x)=\begin{cases} \log_{(1-x)/x}2(1-x), &\text{если }x \in \biggl(0, \dfrac12\biggr) \cup \biggl(\dfrac12,1\biggr), \\ x,&\text{если }x \in \biggl\{0, \dfrac12, 1 \biggr\}, \end{cases} \\ G(\vec{p})=\ln \biggl( \min_{h \in [0,1]} \sum_{i=1}^M (Mp_i)^h \biggr). \end{gathered} \end{equation*} \notag $$
Функция $f(x)$ непрерывна на отрезке $[0,1]$, строго возрастает, принимает значения в диапазоне от $0$ до $1$ и удовлетворяет соотношению $f(1-x)=1 - f(x)$. Очевидно, $G(\vec{p}) \leqslant \ln \bigl(\sum_{i=1}^M (Mp_i)^0 \bigr)=\ln M$. Далее, функция $g(h)=\sum_{i=1}^M (Mp_i)^h$ выпукла и $g(0)=g(1)$. Если не все $p_i$ равны, то $g(h)$ строго выпукла и минимум в выражении для $G(\vec{p})$ достигается в единственной точке из интервала $(0,1)$. Для формулировки еще одного свойства $G(\vec{p})$ нам потребуется следующее определение. Функцией уклонений случайной величины $Z$ называют
$$ \begin{equation*} I_{Z}(z)=\sup_{h \in \mathbb{R}} (z h - \ln \mathbf{E} e^{h Z}). \end{equation*} \notag $$
Случайная величина $-\ln p_{\xi_{11}}$ принимает значение $-\ln p_i$ с вероятностью $p_i$, $1 \leqslant i \leqslant M$, поэтому $\mathbf{E}(-\ln p_{\xi_{11}})=H$, и, кроме того, $G(\vec{p}) = \ln M - I_{-\ln p_{\xi_{11}}}(\ln M)$ в силу приведенной ниже леммы 1. Как следует из сформулированной ниже леммы 3, при $M=2$ для функции $G(\vec{p})$ справедлива явная формула:
$$ \begin{equation*} G\bigl((p_1,p_2)\bigr)= H\bigl((f(p_1), f(p_2))\bigr)=H\bigl((f(p_1), 1 - f(p_1))\bigr). \end{equation*} \notag $$

Всюду далее предполагается, что число исходов $M$ и вектор вероятностей $\vec{p}$ фиксированы, $k\to \infty$ и $n=n(k) \to \infty$ при $k \to \infty$. Напомним, что также предполагается, что $p_i > 0$, $1 \leqslant i \leqslant M$.

Основные результаты настоящей работы представлены в следующих двух теоремах.

Теорема 1. Пусть $M$ фиксировано, $n=q_k M^k$ и $\lim_{k \to \infty} (\ln q_k)/k=0$. Тогда $\widehat{H} \overset{\text{п.н.}}{\to} G(\vec{p})$, причем $G(\vec{p}) \geqslant H(\vec{p})$ и равенство достигается тогда и только тогда, когда все вероятности $p_i$ равны $1/{M}$. Кроме того,

$$ \begin{equation*} \frac{\ln{(M^k-\mathbf{E} \mu_0)}}{k} \to G(\vec{p}), \qquad k \to \infty. \end{equation*} \notag $$

В частности, из теоремы 1 следует, что $G(\vec{p})>0$.

Пример 1. Если $n=q_k M^k$ и $1/{k^{100}} \leqslant q_k \leqslant k^{100}$, то условия теоремы 1 выполнены.

Теорема 2. В условиях теоремы 1 при любом $r > 0$ выполнены соотношения $\mathbf{E}\widehat{H}^r \to G^r(\vec{p})$ и

$$ \begin{equation*} \mathbf{E} | \widehat{H} - G(\vec{p})|^r \to 0, \qquad k \to \infty, \end{equation*} \notag $$
откуда, в частности, следует, что $\mathbf{E}\widehat{H} \to G(\vec{p})$ и $\mathbf{D} \widehat{H} \to 0$ при $ k \to \infty$.

Теоремы 1 и 2 – это аналоги закона больших чисел для логарифма числа появившихся цепочек в рассматриваемой полиномиальной схеме.

Перейдем к обсуждению вопроса о связи величины $\widehat{H}$ с энтропией. Рассмотрим последовательность независимых одинаково распределенных случайных величин $X_j$, имеющих полиномиальное распределение:

$$ \begin{equation} \mathbf{P}(X_j=i)=p_i > 0, \qquad j \geqslant 1, \quad 1 \leqslant i \leqslant M. \end{equation} \tag{1.1} $$
Наиболее естественной оценкой энтропии $H=H(\vec{p})$ является величина
$$ \begin{equation*} \breve{H}^{*} =-\sum_{i=1}^M \widehat{p}_i \ln \widehat{p}_i \end{equation*} \notag $$
(а также ее аналоги), где $\widehat{p}_i$ – выборочная частота $i$-го исхода. Однако у такого рода оценок есть существенный недостаток: в случае, когда $p_i$ малы, частотные оценки вероятностей $\widehat{p_i}$ становятся “близки” к истинным значениям $p_i$ только при очень большом числе наблюдений. В связи с этим возникает естественная идея о том, чтобы сразу оценивать “всю” величину $H$, а не оценивать по отдельности все $p_i$ с последующей подстановкой полученных оценок в формулу для $H$. Способ реализации данной идеи был предложен Добрушиным в [7]. Работа [7] способствовала развитию так называемых “спэйсинговых” методов (см., например, [8], [9]). Есть и другие методы, одним из которых является следующий подход к оцениванию энтропии, предложенный автору А. М. Зубковым и связанный с теоремой Шеннона–Макмиллана–Бреймана и теорией случайных размещений. Пусть $X_1, X_2, \dots$ – стационарный эргодический процесс со значениями во множестве $\{1, 2, \dots,M\}$, причем
$$ \begin{equation*} \begin{gathered} \, \mathbf{P}(X_1= x_1, X_2=x_2, \dots,X_k=x_k)=p(x_1, x_2,\dots,x_k), \\ \mathbf{P}(X_k= x_k \mid X_{k-1}=x_{k-1},\dots,X_1=x_1)=p(x_k \mid x_{k-1}, \dots,x_1). \end{gathered} \end{equation*} \notag $$
В силу теоремы Шеннона–Макмиллана–Бреймана (см. (1) в [10]) выполнено соотношение
$$ \begin{equation*} -k^{-1}\ln p(X_1, X_2,\dots,X_k) \overset{\text{п.н.}}{\to} H, \end{equation*} \notag $$
где $H=\lim_{k \to \infty} \mathbf{E} \bigl(-\ln p(X_k\mid X_k,\dots,X_1) \bigr)$ – энтропия процесса $\{ X_k \}_{k \geqslant 1}$. Рассмотрим следующие $n$ цепочек случайных величин: $(X_1,\dots,X_k)$, $(X_{k+1},\dots,X_{2k})$, $\dots$, $(X_{k(n-1)+1},\dots,X_{kn})$. Пусть $k, n \to \infty$. Обозначим через $\mu_r$ число цепочек, появившихся в такой выборке ровно $r \geqslant 0$ раз. Тогда
$$ \begin{equation*} \mu_0+\mu_1+\dots+\mu_{n}= M^k, \qquad\mu_1+2\mu_2+\dots+n \mu_{n}=n. \end{equation*} \notag $$
В силу теоремы Шеннона–Макмиллана–Бреймана естественно предположить, что число “типичных” цепочек имеет порядок $e^{H k}$. Значит, оценку энтропии можно получить с помощью оценки числа этих “типичных” цепочек, что, в свою очередь, можно сделать с помощью чисел $\mu_r$ следующим образом: из $M^k$ цепочек мы вычтем как можно больше “редко наблюдаемых” цепочек так, чтобы оставшиеся цепочки составляли “основную часть выборки”. Другими словами, для некоторого $0<\varepsilon<1$ можно рассмотреть величины
$$ \begin{equation*} \begin{gathered} \, m_0 =\sup\{ m \geqslant 1\colon \mu_1+2\mu_2+\dots+m\mu_m<\varepsilon n \}, \\ H^* =\frac{\ln(M^k - \mu_0 - \mu_1 - \dots - \mu_{m_0})}{k}, \end{gathered} \end{equation*} \notag $$
где супремум по пустому множеству полагается равным $0$. Величина $H^*$ является естественной оценкой энтропии $H$. Однако по техническим причинам удобнее работать с величиной $\widehat{H}=(\ln(M^k - \mu_0))/k$, которая является упрощенной версией оценки $H^*$ и, очевидно, удовлетворяет соотношению $\widehat{H} \geqslant H^{*}$.

Результаты настоящей статьи можно интерпретировать в терминах асимптотических свойств оценки $\widehat{H}$ при фиксированном $\vec{p}$ и $n,k \to \infty$. А именно, в случае с независимыми случайными величинами $X_1, X_2,\dots$, имеющими полиномиальное распределение, заданное с помощью $\vec{p}$ по формуле (1.1), при выполнении условия $\ln({n}/{M^k})=o(k)$, $n,k \to \infty$, величина $\widehat{H}$, хотя и не является состоятельной оценкой величины $H$, тем не менее является сильно состоятельной оценкой величины $G(\vec{p})$ и, кроме того, $\widehat{H} \overset{L_r}{\to} G(\vec{p})$ при $r > 0$.

Величина $H^*$ является естественной оценкой энтропии, причем $\widehat{H} \geqslant H^*$, поэтому довольно естественно, что предельное (в смысле сходимости почти наверное) значение $\widehat{H}$ оказалось не меньше, чем $H$.

2. Доказательство теоремы 1

Как известно из теории случайных размещений (см. [1]), $\mathbf{E} \mu_0=\sum_{i=1}^{M^k}(1-a_i)^n$, где, как и ранее, $\{ a_i \}_{i=1}^{M^k}$ – вероятности цепочек, возникающих в $k$ последовательных испытаниях полиномиальной схемы. Значит,

$$ \begin{equation*} \mathbf{E} \mu_0=\sum_{\substack{l_1,\dots,l_M \geqslant 0 \\\sum_{i=1}^M l_i=k}} C_k^{l_1, l_2,\dots,l_M} (1-p_1^{l_1} p_2^{l_2} \dotsb p_M^{l_M})^n, \end{equation*} \notag $$
где $C_k^{l_1, l_2,\dots,l_M} ={k!}/(l_1!\,l_2!\,\dotsb l_M!)$ – полиномиальный коэффициент.

Для упрощения записи будем использовать следующие обозначения:

$$ \begin{equation*} \begin{gathered} \, \vec{l}=(l_1, l_2,\dots,l_M), \qquad C_k^{\vec{l}}=C_k^{l_1, l_2,\dots,l_M}, \\ p^{\vec{l}}=p_1^{l_1} p_2^{l_2} \dotsb p_M^{l_M}, \qquad z_{\vec{l}}= (1-p^{\vec{l}})^n=(1-p_1^{l_1} p_2^{l_2} \dotsb p_M^{l_M})^n, \\ R=\biggl\{ \vec{l}\colon l_1,\dots,l_M \geqslant 0, \,\sum_{i=1}^M l_i=k \biggr\}. \end{gathered} \end{equation*} \notag $$

Лемма 1. Если выполнены условия теоремы 1, то $G(\vec{p}) =\ln M - I_{-\ln p_{\xi_{11}}}(\ln M)$ и

$$ \begin{equation*} \frac{\ln{(M^k-\mathbf{E} \mu_0)}}{k} \to G(\vec{p}). \end{equation*} \notag $$

Доказательство. Сначала докажем лемму в случае, когда $p_1=\dots=p_M={1}/M$. Первое соотношение из утверждения леммы 1 получается с помощью непосредственной проверки. Далее,
$$ \begin{equation*} \mathbf{E} \mu_0 = \sum_{i=1}^{M^k}(1-a_i)^n= M^k (1-M^{-k})^n=M^k \cdot e^{-q_k(1+\alpha_k)} \end{equation*} \notag $$
для некоторой бесконечно малой последовательности $\alpha_k$. По условию
$$ \begin{equation*} \lim_{k \to \infty}\frac {\ln q_k}{k}=0, \end{equation*} \notag $$
откуда $q_k=e^{k\beta_k}$, где $\beta_k \to 0$ при $k \to \infty$. Значит, при $p_1=\dots=p_M={1}/M$ выполнены соотношения
$$ \begin{equation} \frac{\ln{(M^k-\mathbf{E} \mu_0)}}{k}=\frac{\ln{M^k(1 - e^{-q_k(1+\alpha_k)})}}{k} =\ln M+\frac{\ln{(1 - e^{-e^{k\beta_k}(1+\alpha_k)})}}{k}. \end{equation} \tag{2.1} $$
Далее, $e^{k\beta_k} \geqslant \min (e^{-k|\beta_k|}, k^{-1})$ и $1 - e^{-x} \geqslant {x}/{2}$ при $x \in [0,1/{10}]$, поэтому при достаточно больших $k \geqslant k_0$ имеем
$$ \begin{equation*} \begin{aligned} \, 0 &=\frac{\ln (1-0)}{k}\geqslant \frac{\ln{(1 - e^{-e^{k\beta_k}(1+\alpha_k)})}}{k} \geqslant \frac{\ln{(1 - e^{- \min (e^{-k|\beta_k|}, k^{-1})(1+\alpha_k)})}}{k} \\ &\geqslant \frac{\ln{( \frac12 \min (e^{-k|\beta_k|}, k^{-1})(1+\alpha_k) )}}{k} =\frac{\ln (2^{-1}(1+\alpha_k))}{k} +\frac{\ln{( \min (e^{-k|\beta_k|}, e^{-\ln k}) )}}{k} \\ &=o(1)+\frac{ \min( \ln e^{-k|\beta_k|}, \ln e^{-\ln k } ) }{k}=o(1) - \frac{\max (k |\beta_k|, \ln k)}{k}=o(1), \end{aligned} \end{equation*} \notag $$
откуда
$$ \begin{equation*} \frac{\ln{(1 - e^{-e^{k\beta_k}(1+\alpha_k)})}}{k}=o(1) \qquad\text{при}\quad k \to \infty. \end{equation*} \notag $$
Учитывая (2.1), получаем, что в случае $p_1=\dots=p_M={1}/M$ утверждение леммы 1 доказано.

Предположим теперь, что не все $p_i$ равны. Идея доказательства состоит в следующем: мы, грубо говоря, разобьем сумму $\sum_{\vec{l} \in R} C_k^{\vec{l}} z_{\vec{l}}=\mathbf{E} \mu_0$ на две части, в одной из которых $z_{\vec{l}}$ “близки” к $1$, а в другой – к $0$, после чего оценивание каждой из частей суммы упростится.

Фиксируем $\varepsilon \in (0, 1/{M})$. Положим

$$ \begin{equation*} \begin{gathered} \, Q_{\varepsilon}=\biggl\{ \vec{l} \in R\colon p_1^{l_1} p_2^{l_2} \dotsb p_M^{l_M} \geqslant \biggl( \frac{1}{M}+\varepsilon \biggr)^k \biggr\}, \\ Q_{-\varepsilon}=\biggl\{ \vec{l} \in R\colon p_1^{l_1} p_2^{l_2} \dotsb p_M^{l_M} > \biggl( \frac{1}{M} - \varepsilon \biggr)^k \biggr\}, \\ \alpha_1=\sum_{\vec{l} \in Q_{-\varepsilon}} C_k^{\vec{l}} (1 - z_{\vec{l}}), \qquad \alpha_2=\sum_{\vec{l} \in R \setminus Q_{-\varepsilon}} C_k^{\vec{l}} (1 - z_{\vec{l}}). \end{gathered} \end{equation*} \notag $$
Так как $\sum_{\vec{l} \in R} C_k^{\vec{l}}=M^k$ и $z_{\vec{l}} \in [0,1]$, то
$$ \begin{equation*} M^k - \mathbf{E} \mu_0=\sum_{\vec{l} \in R} C_k^{\vec{l}} (1 - z_{\vec{l}})=\alpha_1+\alpha_2 \end{equation*} \notag $$
и имеют место следующие соотношения:
$$ \begin{equation*} \sum_{\vec{l} \in Q_{-\varepsilon}} C_k^{\vec{l}} \geqslant \alpha_1 \geqslant \biggl(\sum_{\vec{l} \in Q_{\varepsilon}} C_k^{\vec{l}}\biggr) \min_{ \vec{l} \in Q_{\varepsilon} }(1 - z_{\vec{l}}) \geqslant \biggl( 1 - \biggl(1 - \biggl( \frac1{M}+\varepsilon \biggr)^k \biggr)^n \biggr) \sum_{\vec{l} \in Q_{\varepsilon}} C_k^{\vec{l}}. \end{equation*} \notag $$
Значит,
$$ \begin{equation} (1+o(1))\sum_{\vec{l} \in Q_{\varepsilon}} C_k^{\vec{l}} \leqslant \alpha_1 \leqslant \sum_{\vec{l} \in Q_{-\varepsilon}} C_k^{\vec{l}} \leqslant \sum_{\vec{l} \in R\colon p^{\vec{l}} \geqslant(1/M-\varepsilon)^k} C_k^{\vec{l}}, \end{equation} \tag{2.2} $$
так как
$$ \begin{equation*} \ln \biggl(1 - \biggl( \frac1{M}+\varepsilon \biggr)^k \biggr)^n \sim (-n) \biggl( \frac1{M}+\varepsilon \biggr)^k=-q_k M^k \biggl( \frac1{M}+ \varepsilon \biggr)^k=-e^{o(k)}\cdot e^{k \ln(1+\varepsilon M)} \to -\infty. \end{equation*} \notag $$

Далее, известно, что $\ln(1-x) \leqslant -x$ и $e^{-x} \leqslant 1 - x+x^2$ при $x \in [0,1/{10}]$. Кроме того,

$$ \begin{equation*} \max_{\vec{l} \in R \setminus Q_{-\varepsilon}} n p^{\vec{l}}\leqslant n\biggl(\frac1{M} - \varepsilon \biggr)^k=q_k (1 - M \varepsilon)^k=e^{o(k)} \cdot e^{k \ln (1- M \varepsilon)}=o(1). \end{equation*} \notag $$
Поэтому если $\vec{l} \in R \setminus Q_{-\varepsilon}$, то $n p^{\vec{l}}\leqslant 1/{10}$ при $k \geqslant k_0$, откуда, учитывая неравенство Бернулли, получаем, что
$$ \begin{equation*} \begin{aligned} \, &1 - n p^{\vec{l}}\leqslant (1 - p^{\vec{l}})^n=z_{\vec{l}}=e^{n \ln (1 -p^{\vec{l}}) } \leqslant e^{- n p^{\vec{l}}} \\ &\qquad \leqslant 1 - n p^{\vec{l}}+(n p^{\vec{l}})^2 \leqslant 1 - n p^{\vec{l}} \biggl(1 - n\biggl(\frac1{M} - \varepsilon\biggr)^k \biggr). \end{aligned} \end{equation*} \notag $$
Следовательно,
$$ \begin{equation*} n \cdot \sum_{\vec{l} \in R \setminus Q_{-\varepsilon}} C_k^{\vec{l}}p^{\vec{l}} \geqslant \sum_{\vec{l} \in R \setminus Q_{-\varepsilon}} C_k^{\vec{l}} (1 - z_{\vec{l}}) \geqslant n \biggl(1 - n\biggl(\frac1{M} - \varepsilon\biggr)^k \biggr) \sum_{\vec{l} \in R \setminus Q_{-\varepsilon}} C_k^{\vec{l}}p^{\vec{l}}. \end{equation*} \notag $$
Значит, если $\varepsilon$ фиксировано, то
$$ \begin{equation} \alpha_2 \sim n \cdot \biggl( \sum_{\vec{l} \in R \setminus Q_{-\varepsilon}} C_k^{\vec{l}}p^{\vec{l}}\biggr), \qquad k \to \infty. \end{equation} \tag{2.3} $$

Рассмотрим последовательность независимых одинаково распределенных случайных векторов $\vec{X}_i$, принимающих значения в $\mathbb{R}^M$ и имеющих следующее полиномиальное распределение: $\mathbf{P}(\vec{X}_i= \vec{e}_j)=p_j$, $1 \leqslant i \leqslant k$, $1 \leqslant j \leqslant M$, где $\vec{e}_1=(1, 0,\dots,0) \in \mathbb{R}^M$, $\dots$, $\vec{e}_M=(0,\dots,0, 1) \in \mathbb{R}^M$. Пусть $\nu_m=(\vec{e}_m, \sum_{i=1}^k \vec{X}_i)$ – частота $m$-го исхода (в выборке объема $k$). Тогда

$$ \begin{equation} \begin{aligned} \, &\sum_{\vec{l} \in R \setminus Q_{-\varepsilon}} C_k^{\vec{l}} p^{\vec{l}}=\mathbf{P} \bigl( (\nu_1,\dots,\nu_M) \in R \setminus Q_{-\varepsilon} \bigr) =\mathbf{P} \biggl( p_1^{\nu_1} p_2^{\nu_2} \dotsb p_M^{\nu_M} \leqslant \biggl( \frac{1}{M} - \varepsilon \biggr)^k \biggr) \nonumber \\ &\qquad= \mathbf{P}\biggl( \sum_{i=1}^M \nu_i (-\ln p_i) \geqslant -k \biggl(\ln \biggl(\frac1{M} - \varepsilon\biggr)\biggr)\biggr). \end{aligned} \end{equation} \tag{2.4} $$
Положим $Y_i=-( (\ln p_1, \ln p_2,\dots,\ln p_M), \vec{X}_i)$. Случайные величины $Y_i$, $1\leqslant i \leqslant k$, независимы, $\mathbf{P}(Y_i= -\ln p_j)=p_j$, $1 \leqslant j \leqslant M$ и $\sum_{i=1}^M \nu_i (-\ln p_i)= \sum_{i=1}^k Y_i$. Из теории больших уклонений известен следующий результат.

Теорема 3. Пусть случайные величины $Z_1, Z_2, \dots$ независимы, одинаково распределены и удовлетворяют условию $\mathbf{E} e^{h Z_1}<\infty$ для всех $h \in \mathbb{R}$. Тогда для любого $a > \mathbf{E}Z_1$

$$ \begin{equation*} \lim_{k \to \infty} \frac1{k} \ln\mathbf{P}(Z_1+\dots+Z_k \geqslant ak) =- I_{Z_1}(a). \end{equation*} \notag $$

Заметим, что $H \leqslant \ln M$, поэтому

$$ \begin{equation*} \mathbf{E}Y_i=H <-\ln \biggl( \frac1{M} - \varepsilon \biggr). \end{equation*} \notag $$
Применяя теорему 3 к величинам $Y_1, Y_2, \dots$, получаем, что
$$ \begin{equation} \begin{aligned} \, & \mathbf{P}\biggl( \sum_{i=1}^M \nu_i (-\ln p_i) \geqslant -k \biggl(\ln \biggl(\frac1{M} - \varepsilon\biggr)\biggr)\biggr)= \mathbf{P}\biggl( \sum_{i=1}^k Y_i \geqslant k \biggl(-\ln \biggl(\frac1{M} - \varepsilon\biggr)\biggr)\biggr) \nonumber \\ &\qquad =\exp\biggl(-k I_{Y_1} \biggl(-\ln\biggl( \frac1{M} - \varepsilon \biggr) \biggr)+ o(k)\biggr). \end{aligned} \end{equation} \tag{2.5} $$
Рассмотрим последовательность независимых одинаково распределенных случайных векторов $\vec{X}_i^*$, принимающих значения в $\mathbb{R}^M$ и имеющих следующее полиномиальное распределение: $\mathbf{P}(\vec{X}_i^*= \vec{e}_j)={1}/{M}$, $1 \leqslant i \leqslant k$, $1 \leqslant j \leqslant M$. Пусть $\nu_m^*= (\vec{e}_m, \sum_{i=1}^k \vec{X}_i^*)$ – частота $m$-го исхода (в выборке объема $k$). Положим $Y_i^*=( (\ln p_1, \ln p_2,\dots,\ln p_M), \vec{X}^*_i)$. Случайные величины $Y_i^*$, $1\leqslant i \leqslant k$, независимы и $\mathbf{P}(Y_i^*=\ln p_j)= {1}/{M}$, $1 \leqslant j \leqslant M$. Так как не все $p_j$ равны, то $\prod_{j=1}^M p_j<1/M^M$ в силу неравенства о средних. Значит,
$$ \begin{equation*} \frac{1}{M}\ln (p_1 \dotsb p_M) <\ln \frac{1}{M}. \end{equation*} \notag $$
Будем считать, что $\varepsilon > 0$ достаточно мало для того, чтобы выполнялось неравенство
$$ \begin{equation*} \frac{1}{M}\ln (p_1 \dotsb p_M)<\ln \biggl(\frac{1}{M} - \varepsilon \biggr). \end{equation*} \notag $$
Тогда
$$ \begin{equation*} \mathbf{E}Y_i^*= \frac{1}{M}\ln (p_1 \dotsb p_M)<\ln \biggl(\frac{1}{M} - \varepsilon \biggr)<\ln \biggl(\frac{1}{M} +\varepsilon \biggr). \end{equation*} \notag $$
Рассуждая так же, как и ранее, с помощью теоремы 3 получаем, что
$$ \begin{equation} \begin{aligned} \, M^{-k}\sum_{\vec{l} \in Q_{\varepsilon}} C_k^{\vec{l}} &=\mathbf{P} \bigl( (\nu_1,\dots,\nu_M) \in Q_{\varepsilon} \bigr) =\mathbf{P} \biggl( p_1^{\nu_1} p_2^{\nu_2} \dotsb p_M^{\nu_M} \geqslant \biggl( \frac{1}{M}+ \varepsilon \biggr)^k \biggr) \nonumber \\ & = \mathbf{P}\biggl( \sum_{i=1}^M \nu_i \ln p_i \geqslant k \ln \biggl(\frac1{M}+ \varepsilon\biggr)\biggr)=\mathbf{P} \biggl( \sum_{i=1}^k Y_i^* \geqslant k \ln \biggl(\frac1{M}+\varepsilon\biggr) \biggr) \nonumber \\ & = \exp\biggl(-k I_{Y_1^*} \biggl( \ln\biggl( \frac1{M}+\varepsilon \biggr) \biggr)+o(k)\biggr), \end{aligned} \end{equation} \tag{2.6} $$
и, аналогично,
$$ \begin{equation} \sum_{\vec{l} \in R\colon p^{\vec{l}} \geqslant (1/M-\varepsilon)^k} M^{-k} C_k^{\vec{l}} =\exp\biggl(-k I_{Y_1^*} \biggl( \ln\biggl( \frac1{M} - \varepsilon \biggr) \biggr)+o(k)\biggr). \end{equation} \tag{2.7} $$
Далее,
$$ \begin{equation*} \begin{aligned} \, &I_{Y_1^*} ( - \ln z ) - \ln M=\sup_{h \in \mathbb{R}} \biggl( -h \ln z - \ln \biggl( \frac1{M} \sum_{i=1}^M e^{h \ln p_i} \biggr)\biggr) - \ln M \\ &\qquad= \sup_{h \in \mathbb{R}} \biggl( -h \ln z - \ln \biggl(\sum_{i=1}^M p_i^h \biggr)\biggr), \\ &I_{Y_1} ( \ln z ) - \ln z=\sup_{h \in \mathbb{R}} \biggl( h \ln z - \ln \biggl( \sum_{i=1}^M p_i e^{-h \ln p_i} \biggr)\biggr) - \ln z \\ &\qquad=\sup_{h \in \mathbb{R}} \biggl( (-\ln z)(1-h) - \ln \biggl(\sum_{i=1}^M p_i^{1-h} \biggr)\biggr) =\sup_{\widetilde{h} \in \mathbb{R}} \biggl( -\widetilde{h} \ln z - \ln \biggl(\sum_{i=1}^M p_i^{\widetilde{h}} \biggr)\biggr). \end{aligned} \end{equation*} \notag $$
Поэтому
$$ \begin{equation} \begin{aligned} \, I_{Y_1^*} ( - \ln z ) - \ln M &=I_{Y_1} ( \ln z ) - \ln z=\sup_{h \in \mathbb{R}} \biggl( -h \ln z - \ln \biggl(\sum_{i=1}^M p_i^h \biggr)\biggr) \nonumber \\ &=\sup_{h \in \mathbb{R}} \biggl( - \ln \biggl( \sum_{i=1}^M (zp_i)^h \biggr) \biggr) =- \ln \inf_{h \in \mathbb{R}} \sum_{i=1}^M (zp_i)^h. \end{aligned} \end{equation} \tag{2.8} $$

Так как не все $p_i$ равны, то функция $g(h)=\sum_{i=1}^M (Mp_i)^h$ строго выпукла на $\mathbb{R}$. При этом $g(0)=g(1)$, поэтому минимальное значение $g(h)$ достигается в единственной точке из интервала $(0,1)$, откуда в силу (2.8) получаем, что $ I_{Y_1}(\ln M)=\ln M - G(\vec{p})$. Тем самым, первое утверждение леммы 1 доказано. Из (2.8) следует, что $I_{Y_1^*} ( - \ln M )=I_{Y_1} ( \ln M ) $, поэтому

$$ \begin{equation} I_{Y_1^*} ( - \ln M )=I_{Y_1} ( \ln M )=\ln M - G(\vec{p}) . \end{equation} \tag{2.9} $$
Далее, $\inf_{h \in [0,1]} g(h)<g(0)$, значит, $G(\vec{p})<\ln M$. В силу приведенной ниже леммы 4 функция $U(z)=\inf_{h \in \mathbb{R}} \sum_{i=1}^M (zp_i)^h$ непрерывна в точке $z=M$, откуда, учитывая (2.8), получаем, что функции $ I_{Y_1} ( \ln z )$ и $I_{Y_1^*}(-\ln z )$ также непрерывны в точке $z=M$. Из этого факта и соотношения (2.9) следует, что
$$ \begin{equation} I_{Y_1} \biggl( -\ln\biggl( \frac1{M} - \varepsilon \biggr) \biggr) =I_{Y_1} \bigl( \ln M \bigr)+ \Delta_1 (\varepsilon) =\ln M - G(\vec{p})+\Delta_1 (\varepsilon), \end{equation} \tag{2.10} $$
$$ \begin{equation} I_{Y_1^*} \biggl( \ln\biggl( \frac1{M} \pm \varepsilon \biggr) \biggr) = I_{Y_1^*} \biggl( \ln\biggl( \frac1{M} \biggr) \biggr)+\Delta_2 (\pm \varepsilon) = \ln M - G(\vec{p})+\Delta_2 (\pm \varepsilon), \end{equation} \tag{2.11} $$
где $\Delta_1 (\varepsilon), \Delta_2 (\pm \varepsilon) \to 0$ при $\varepsilon \to 0+$.

Из (2.2), (2.6), (2.7) и (2.11) получаем, что если $\varepsilon$ фиксировано, то

$$ \begin{equation*} \begin{aligned} \, e^{o(1)} \exp\bigl(-k (\ln M - G(\vec{p})+\Delta_2 (\varepsilon)) +o(k)\bigr) &\leqslant \alpha_1 M^{-k} \\ &\leqslant \exp\bigl(-k (\ln M - G(\vec{p}) +\Delta_2 (-\varepsilon))+o(k)\bigr) \end{aligned} \end{equation*} \notag $$
и, следовательно,
$$ \begin{equation} \exp\bigl(k ( G(\vec{p}) - \Delta_2 (\varepsilon))+o(k)\bigr) \leqslant \alpha_1 \leqslant \exp\bigl(k (G(\vec{p}) - \Delta_2 (-\varepsilon))+o(k)\bigr). \end{equation} \tag{2.12} $$
Из (2.3)(2.5) и (2.10) получаем, что $n^{-1} \alpha_2=e^{o(1)} \exp\bigl(-k(\ln M - G(\vec{p}) + \Delta_1 (\varepsilon))+o(k)\bigr)$, откуда в силу равенства $n=q_kM^k= \exp(k \ln M+o(k))$ следует, что
$$ \begin{equation} \alpha_2=\exp\bigl(k(G(\vec{p}) - \Delta_1 (\varepsilon))+o(k)\bigr). \end{equation} \tag{2.13} $$
Для произвольных чисел $a, b \in \mathbb{R}$ выполнено неравенство
$$ \begin{equation*} e^{\max(a,b)} \leqslant e^a+e^b \leqslant 2 \max(e^a, e^b)=e^{\max(a, b)+\ln2}, \end{equation*} \notag $$
поэтому из (2.12) и (2.13) следует, что
$$ \begin{equation*} \begin{aligned} \, &\exp\bigl(k \max \bigl( G(\vec{p}) - \Delta_2 (\varepsilon), G(\vec{p}) - \Delta_1 (\varepsilon)\bigr)+o(k)\bigr) \leqslant \alpha_1+\alpha_2 \\ &\qquad \leqslant \exp\bigl(k \max \bigl( G(\vec{p}) - \Delta_2 (-\varepsilon), G(\vec{p}) - \Delta_1 (\varepsilon)\bigr)+o(k)\bigr). \end{aligned} \end{equation*} \notag $$
Далее, $\alpha_1+\alpha_2=M^k - \mathbf{E} \mu_0 $, поэтому при фиксированном достаточном малом $\varepsilon>0$ выполнены неравенства
$$ \begin{equation*} \begin{aligned} \, &\max \bigl( G(\vec{p}) - \Delta_2 (\varepsilon), G(\vec{p}) - \Delta_1 (\varepsilon)\bigr) \leqslant \liminf_{k \to \infty } \frac{\ln{(M^k-\mathbf{E} \mu_0)}}{k} \\ &\qquad \leqslant \limsup_{k \to \infty } \frac{\ln{(M^k-\mathbf{E} \mu_0)}}{k} \leqslant \max \bigl( G(\vec{p}) - \Delta_2 (-\varepsilon), G(\vec{p}) - \Delta_1 (\varepsilon)\bigr). \end{aligned} \end{equation*} \notag $$
Так как $\varepsilon>0$ может быть сколь угодно малым, то
$$ \begin{equation*} \lim_{k \to \infty }\frac{\ln{(M^k-\mathbf{E} \mu_0)}}{k}=G(\vec{p}), \end{equation*} \notag $$
что завершает доказательство леммы 1.

Лемма 2. Выполнено неравенство $G(\vec{p}) \geqslant H$. Равенство достигается тогда и только тогда, когда все вероятности $p_i$ равны ${1}/M$.

Доказательство. Функция $e^x$ выпукла, поэтому $\sum_{i=1}^M p_i e^{x_i} \geqslant \exp(\sum_{i=1}^M p_i x_i)$ в силу неравенства Йенсена. При $x_i=h \ln M+ (h-1) \ln p_i$ получаем, что
$$ \begin{equation*} \sum_{i=1}^M (Mp_i)^h \geqslant \exp\biggl(h \ln M+ (h-1) \sum_{i=1}^M p_i \ln p_i\biggr) =e^H e^{ h (\ln M - H)} \geqslant e^H \end{equation*} \notag $$
при $h \in [0,1]$, откуда следует, что $G(\vec{p}) \geqslant H$. Второе утверждение леммы следует из критерия достижимости равенства в неравенстве Йенсена.

Вернемся к доказательству теоремы 1. Так как все вероятности $p_i$ положительны, то $H > 0$, откуда в силу лемм 1 и 2 следует, что $G(\vec{p})>0$ и

$$ \begin{equation} \mathbf{E}\mu_0=M^k - e^{ k (G(\vec{p}) +o(1)) }. \end{equation} \tag{2.14} $$
Как легко видеть,
$$ \begin{equation} \frac{ \ln(M^k - \mu_0) }{k}=\frac{ \ln(M^k - \mathbf{E}\mu_0) }{k}+ \frac{\ln (( M^k - \mu_0)/(M^k - \mathbf{E} \mu_0))}{k}. \end{equation} \tag{2.15} $$
Пусть
$$ \begin{equation*} \xi_k =\frac{ M^k - \mu_0}{M^k - \mathbf{E} \mu_0}; \end{equation*} \notag $$
тогда $\xi_k > 0$ и $\mathbf{E}\xi_k=1$. В силу неравенства Маркова
$$ \begin{equation*} \mathbf{P} \biggl( \frac{\ln \xi_k}{k} \geqslant \frac{1}{\sqrt{k}}\biggr) = \mathbf{P} (\xi_k \geqslant e^{\sqrt{k}}) \leqslant \frac{\mathbf{E}\xi_k}{e^{\sqrt{k}}}=e^{-\sqrt{k}}; \end{equation*} \notag $$
следовательно,
$$ \begin{equation*} \sum_{k \geqslant 1}^{\infty} \mathbf{P} \biggl( \frac{\ln \xi_k}{k} \geqslant \frac1{\sqrt{k}} \biggr)<\infty. \end{equation*} \notag $$
По лемме Бореля–Кантелли с вероятностью $1$ выполнено соотношение
$$ \begin{equation} \limsup_{k \to \infty} \frac{\ln \xi_k}{k} \leqslant 0. \end{equation} \tag{2.16} $$

Положим

$$ \begin{equation*} I_5=\sum_{i=1}^{M^k} (1-a_i)^n, \qquad I_6=\sum_{i=1}^{M^k} (1-a_i)^{2n}, \qquad I_7=\sum_{i \ne j} \bigl( (1-a_i)^n(1-a_j)^n - (1-a_i-a_j)^n \bigr). \end{equation*} \notag $$
Известно (см. [1; с. 112]), что $\mathbf{D} \mu_0=I_5 - I_6 - I_7$.

Далее, $\mathbf{E}\mu_0=\sum_{i=1}^{M^k} (1-a_i)^n=I_5$. Кроме того, $I_6=\sum_{i=1}^{M^k} (1-a_i)^{\widetilde{n}}$ при $\widetilde{n}=2n$, откуда в силу (2.14) и равенства $\ln (\widetilde{n}/M^k)=o(k)$ находим, что

$$ \begin{equation*} I_5=M^k - \exp\bigl(k(1+o(1))G(\vec{p})\bigr), \qquad I_6=M^k - \exp\bigl(k(1+o(1))G(\vec{p})\bigr). \end{equation*} \notag $$
Заметим, что
$$ \begin{equation*} I_7=\sum_{i \ne j} \bigl( (1-a_i - a_j+a_i a_j)^n - (1 - a_i - a_j)^n \bigr) \geqslant 0, \end{equation*} \notag $$
поэтому
$$ \begin{equation} 0 \leqslant \mathbf{D} \mu_0=I_5 -I_6 - I_7 \leqslant I_5 - I_6 \leqslant \exp\bigl(k(1+o(1))G(\vec{p})\bigr). \end{equation} \tag{2.17} $$
Значит, в силу (2.14) и неравенства Чебышёва при фиксированном $\varepsilon>0$ выполнены следующие соотношения:
$$ \begin{equation*} \begin{aligned} \, & \mathbf{P}\biggl(\frac{\ln \xi_k}{k}<{-\varepsilon }\biggr)= \mathbf{P}\biggl(\frac{M^k - \mu_0}{M^k - \mathbf{E} \mu_0} < e^{-\varepsilon k}\biggr) \\ &\qquad = \mathbf{P} \bigl(\mu_0 - \mathbf{E} \mu_0 > (M^k -\mathbf{E} \mu_0)(1-e^{-\varepsilon k}) \bigr) \\ &\qquad\leqslant \mathbf{P} \bigl(|\mu_0 - \mathbf{E} \mu_0| > (M^k -\mathbf{E} \mu_0) (1-e^{-\varepsilon k}) \bigr) \\ &\qquad \leqslant \frac{\mathbf{D}\mu_0}{(M^k - \mathbf{E}\mu_0)^2 (1-e^{-\varepsilon k})^2} \leqslant \frac{\exp\bigl(k(1+o(1) ) G(\vec{p})\bigr)}{\bigl(\exp(k(1+o(1)) G(\vec{p}))\bigr)^2 (1-e^{-\varepsilon k})^2} . \end{aligned} \end{equation*} \notag $$
Таким образом,
$$ \begin{equation*} \mathbf{P} \biggl(\frac{\ln \xi_k}{k}<{-\varepsilon }\biggr) \leqslant \frac{1}{\exp\bigl(k(1+u_k(\vec{p}))G(\vec{p})\bigr)} \cdot \frac1{(1-e^{-\varepsilon k})^2} , \end{equation*} \notag $$
где $u_k(\vec{p}) \to 0$ при $k \to \infty$. При фиксированном $\varepsilon>0$ ряд из чисел $\mathbf{P} ((\ln \xi_k)/k<-\varepsilon)$ сходится, так как $G(\vec{p}) > 0$. Следовательно, c вероятностью 1 выполнено неравенство
$$ \begin{equation*} \liminf_{k \to \infty} \frac{\ln \xi_k}{k} \geqslant -\varepsilon, \end{equation*} \notag $$
откуда в силу (2.16) и произвольности $\varepsilon >0$ следует, что
$$ \begin{equation*} \frac1{k} \ln{\frac{M^k - \mu_0}{M^k - \mathbf{E} \mu_0}} \overset{\text{п.н.}}{\to} 0 \end{equation*} \notag $$
при $k \to \infty$. Учитывая (2.14) и (2.15), получаем, что
$$ \begin{equation*} \widehat{H} \overset{\text{п.н.}}{\to} G(\vec{p}), \qquad k \to \infty. \end{equation*} \notag $$
Теорема доказана.

3. Доказательство теоремы 2

Как и ранее, $G(\vec{p}) \geqslant H >0$. В силу (2.14), (2.17) и неравенства Чебышёва

$$ \begin{equation} M^k - \mathbf{E}\mu_0=\exp\bigl(k(1+v_k)G(\vec{p})\bigr), \end{equation} \tag{3.1} $$
$$ \begin{equation} \begin{split} \alpha &=\mathbf{P}\bigl(|(M^k - \mu_0) - (M^k - \mathbf{E} \mu_0)| \geqslant 2^{-1} \exp(k(1+v_k)G(\vec{p}))\bigr) \\ &\leqslant \frac{\mathbf{D}\mu_0}{2^{-2} \exp\bigl(2k(1+v_k)G(\vec{p})\bigr) } \leqslant \frac{4}{\exp\bigl(kG(\vec{p})(1+w_k)\bigr)}, \end{split} \end{equation} \tag{3.2} $$
где $v_k, w_k \to 0$, $k \to \infty$. Через $A$ обозначим событие
$$ \begin{equation*} \bigl\{ |(M^k - \mu_0) - (M^k - \mathbf{E} \mu_0)| <2^{-1}\exp\bigl(k(1+v_k)G(\vec{p})\bigr)\bigr \} \end{equation*} \notag $$
и через $\overline{A}$ – его дополнение. В силу (3.1) выполнено соотношение
$$ \begin{equation*} A \subset \bigl\{ M^k - \mu_0 > 2^{-1}\exp\bigl(k(1+v_k)G(\vec{p})\bigr) \bigr\} \qquad\text{при}\quad k \geqslant k_0. \end{equation*} \notag $$
Для произвольного фиксированного $r > 0$ выполнено равенство
$$ \begin{equation*} \mathbf{E} \widehat{H}^r=\mathbf{E} \frac{\ln^r (M^k - \mu_0)}{k^r} I_A+ \mathbf{E} \frac{\ln^r (M^k - \mu_0)}{k^r} I_{\overline{A}}, \end{equation*} \notag $$
причем
$$ \begin{equation*} \begin{aligned} \, &\mathbf{E} \frac{\ln^r(M^k - \mu_0)}{k^r} I_A \geqslant \mathbf{E} \frac{\ln^r \bigl( 2^{-1} \exp(k(1+v_k)G(\vec{p})) \bigr) }{k^r} I_A \\ &\qquad = \biggl((1+v_k)G(\vec{p}) - \frac{\ln 2}{k} \biggr)^r \mathbf{P}(A) = \biggl((1+v_k)G(\vec{p}) - \frac{\ln 2}{k} \biggr)^r (1-\alpha), \end{aligned} \end{equation*} \notag $$
где величина $\alpha$ определена в (3.2). Рассуждая аналогично, получаем
$$ \begin{equation*} \mathbf{E} \frac{\ln^r(M^k - \mu_0)}{k^r} I_A \leqslant \mathbf{E} \frac{\ln^r \bigl( \frac32 \exp(k(1+v_k)G(\vec{p})) \bigr) }{k^r} I_A \leqslant \biggl( (1+v_k)G(\vec{p})+\frac1{k} \ln\frac32 \biggr)^r. \end{equation*} \notag $$
Так как $0 \leqslant \mu_0 \leqslant M^k-1$, то $0 \leqslant k^{-1}\ln(M^k - \mu_0) \leqslant \ln M$ и потому
$$ \begin{equation*} 0 \leqslant \mathbf{E} \frac{\ln^r (M^k - \mu_0)}{k^r} I_{\overline{A}} \leqslant \mathbf{P}(\overline{A})\ln^r M=\alpha \ln^r M. \end{equation*} \notag $$
Значит,
$$ \begin{equation*} \biggl((1+v_k)G(\vec{p}) - \frac{\ln 2}{k} \biggr)^r (1-\alpha) \leqslant \mathbf{E}\widehat{H}^r \leqslant \biggl( (1+v_k)G(\vec{p})+\frac1{k} \ln\frac32 \biggr)^r+\alpha \ln^r M, \end{equation*} \notag $$
откуда, учитывая (3.2), получаем, что $\mathbf{E}\widehat{H}^r \to G^r(\vec{p})$ при $k \to \infty$. При четных $r \geqslant 2$ выполнены следующие соотношения:
$$ \begin{equation*} \begin{aligned} \, &\mathbf{E} |\widehat{H} - G(\vec{p})|^r =\mathbf{E} (\widehat{H} - G(\vec{p}))^r=\mathbf{E} \sum_{i=0}^r C_r^i \widehat{H}^i (- G(\vec{p}))^{r-i} \\ &\qquad \to \sum_{i=0}^r C_r^i G^i(\vec{p}) (- G(\vec{p}))^{r-i} =0, \qquad k \to \infty. \end{aligned} \end{equation*} \notag $$
Для произвольного $r > 0$ в силу неравенства Ляпунова имеем:
$$ \begin{equation*} \bigl( \mathbf{E} |\widehat{H} - G(\vec{p})|^{r} \bigr)^{1/r} \leqslant \bigl( \mathbf{E} |\widehat{H} - G(\vec{p})|^{2[r]+2} \bigr)^{1/(2[r]+2)} \to 0, \qquad k \to \infty. \end{equation*} \notag $$
Теорема 2 доказана.

4. Приложение

Лемма 3. Если $M=2$, то

$$ \begin{equation*} G\bigl((p_1,1-p_1)\bigr)=H\bigl((f(p_1), 1 - f(p_1))\bigr)=H\bigl((f(p_1), f(1 - p_1))\bigr). \end{equation*} \notag $$

Доказательство. При $p_1=1/2$ утверждение леммы проверяется непосредственно. Рассмотрим случай, когда $p_1 \ne1/2$. Из определения $G(\vec{p})$ следует, что $e^{G(\vec{p})} =\min_{h \in [0,1]} g(h)$, где функция $g(h)=(2p_1)^h+(2(1-p_1))^h$ строго выпукла и $g(0)=g(1)$. Минимум функции $g(h)$ на отрезке $[0,1]$ достигается в точке $h_0$, являющейся единственным корнем уравнения $g'(h)=0$. Непосредственная проверка показывает, что $g(h_0)=\exp\bigl(H\bigl((f(p_1), 1 - f(p_1))\bigr)\bigr)$. Тем самым, лемма 3 доказана.

Альтернативное доказательство леммы 3 состоит в том, чтобы оценить величины

$$ \begin{equation*} 2^{-k}\sum_{\vec{l} \in Q_{\varepsilon}} C_k^{\vec{l}} \qquad\text{и}\qquad \sum_{\vec{l} \in R\colon p^{\vec{l}} \geqslant (1/2-\varepsilon)^k} 2^{-k}C_k^{\vec{l}}, \end{equation*} \notag $$
применив теорему 1 из [11] к случайным величинам, имеющим биномиальное распределение с параметрами $(k, 1/2)$, а затем сравнить полученный результат с в формулами (2.6), (2.7) и (2.11). Такой способ доказательства позволяет сразу заметить, что величина $G(\vec{p})=\ln g(h_0)$ представима в виде композиции функций, одной из которых является $H(\vec{p})$.

Лемма 4. Если не все $p_i$ равны, то функция $U(z)=\inf_{h \in \mathbb{R}} \sum_{i=1}^M (zp_i)^h$ непрерывна в точке $z=M$.

Доказательство. Положим $u(z,h)=\sum_{i=1}^M (zp_i)^h$. В силу неравенства о средних
$$ \begin{equation*} \prod_{i=1}^M p_i<\frac1{M^M}. \end{equation*} \notag $$
При $z \to M$ величина
$$ \begin{equation*} \frac{\partial}{\partial h} u(z,0)=\sum_{i=1}^M \ln (zp_i) \end{equation*} \notag $$
стремится к $\ln \bigl( \prod_{i=1}^M p_i \bigr)+M \ln M<0$, а величина
$$ \begin{equation*} \frac{\partial}{\partial h} u(z,1)=\sum_{i=1}^M (zp_i)\ln (zp_i) =z(\ln z - H) \end{equation*} \notag $$
стремится к $M(\ln M - H) > 0$. Следовательно, существует такое $\varepsilon \in (0, M)$, что
$$ \begin{equation} \frac{\partial}{\partial h} u(z,0)<0<\frac{\partial}{\partial h} u(z,1) \qquad \text{при} \quad z \in [M-\varepsilon, M+\varepsilon]. \end{equation} \tag{4.1} $$
Далее, положим $V(z)=\inf_{h \in [0,1]} u(z,h)$. Функция $u(z,h)$ непрерывна на множестве $[M-\varepsilon, M+\varepsilon] \times [0,1]$, и, следовательно, равномерно непрерывна на нем. Значит, функция $V(z)= \inf_{h \in [0,1]} u(z,h)$ непрерывна в точке $M$.

При фиксированном $z=z_0$ функция $u(z_0,h)$ является выпуклой функцией переменной $h$, откуда в силу (4.1) следует, что при $z \in [M-\varepsilon, M+\varepsilon]$ выполнено равенство $\inf_{h \in \mathbb{R}} u(z,h)=\inf_{h \in [0,1]} u(z,h)$, т.е. $U(z)= V(z)$. Тем самым, лемма доказана.

Автор благодарит А. М. Зубкова за постановку задачи и многочисленные ценные указания.

СПИСОК ЦИТИРОВАННОЙ ЛИТЕРАТУРЫ

1. В. Ф. Колчин, Б. А. Севастьянов, В. П. Чистяков, Случайные размещения, Наука, М., 1976  mathscinet
2. М. И. Тихомирова, В. П. Чистяков, “Асимптотическая нормальность чисел непоявившихся значений $m$-зависимых случайных величин”, Дискрет. матем., 26:2 (2014), 143–158  mathnet  crossref  mathscinet
3. М. И. Тихомирова, В. П. Чистяков, “Об асимптотике моментов числа непоявившихся $s$-цепочек”, Дискрет. матем., 9:1 (1997), 12–29  mathnet  crossref  mathscinet  zmath
4. В. П. Чистяков, “Об асимптотической нормальности числа пустых ячеек в одной схеме размещения частиц комплектами”, Матем. вопр. криптогр., 5:4 (2014), 129–138  mathnet  crossref
5. М. И. Тихомирова, “Об асимптотической нормальности числа непоявившихся $s$-цепочек”, Дискрет. матем., 4:2 (1992), 122–129  mathnet  mathscinet  zmath
6. М. И. Тихомирова, “Предельные распределения числа непоявившихся цепочек одинаковых исходов”, Дискрет. матем., 20:3 (2008), 40–46  mathnet  crossref  mathscinet  zmath
7. Р. Л. Добрушин, “Упрощенный метод экспериментальной оценки энтропии стационарной последовательности”, Теория вероятн. и ее примен., 3:4 (1958), 462–464  mathnet
8. Л. Ф. Козаченко, Н. Н. Леоненко, “О статистической оценке энтропии случайного вектора”, Пробл. передачи информ., 23:2 (1987), 9–16  mathnet  mathscinet  zmath
9. A. B. Tsybakov, E. C. van der Meulen, “Root-$n$ consistent estimators of entropy for densities with unbounded support”, Scand. J. Statist., 23:1 (1996), 75–83  mathscinet
10. P. H. Algoet, T. M. Cover, “A sandwich proof of the Shannon–McMillan–Breiman theorem”, Ann. Probab., 16:2 (1988), 899–909  mathscinet
11. А. М. Зубков, А. А. Серов, “Полное доказательство универсальных неравенств для функции распределения биномиального закона”, Теория вероятн. и ее примен., 57:3 (2012), 597–602  mathnet  crossref

Образец цитирования: М. П. Савелов, “Об одном функционале от числа появившихся неперекрывающихся цепочек исходов полиномиальной схемы и его связи с энтропией”, Матем. заметки, 114:3 (2023), 390–403; Math. Notes, 114:3 (2023), 339–350
Цитирование в формате AMSBIB
\RBibitem{Sav23}
\by М.~П.~Савелов
\paper Об одном функционале от числа появившихся неперекрывающихся цепочек исходов полиномиальной схемы и его связи с~энтропией
\jour Матем. заметки
\yr 2023
\vol 114
\issue 3
\pages 390--403
\mathnet{http://mi.mathnet.ru/mzm13868}
\crossref{https://doi.org/10.4213/mzm13868}
\mathscinet{http://mathscinet.ams.org/mathscinet-getitem?mr=4658786}
\transl
\jour Math. Notes
\yr 2023
\vol 114
\issue 3
\pages 339--350
\crossref{https://doi.org/10.1134/S0001434623090067}
\scopus{https://www.scopus.com/record/display.url?origin=inward&eid=2-s2.0-85174626515}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/mzm13868
  • https://doi.org/10.4213/mzm13868
  • https://www.mathnet.ru/rus/mzm/v114/i3/p390
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Математические заметки Mathematical Notes
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024