|
Об одном функционале от числа появившихся неперекрывающихся цепочек исходов полиномиальной схемы и его связи с энтропией
М. П. Савелов Московский государственный университет им. М. В. Ломоносова
Аннотация:
Рассмотрим $n$ независимых цепочек, состоящих из $k$ независимых полиномиальных
испытаний с $M$ исходами. Предполагается, что $n, k \to \infty$ и
$\ln(n/M^k)=o(k)$. Установлена асимптотика нормированного логарифма числа
появившихся цепочек и указана связь данного функционала с энтропией.
Библиография: 11 названий.
Ключевые слова:
число непоявившихся цепочек, число пустых ячеек, энтропия, теорема Шеннона–Макмиллана–Бреймана, случайные размещения.
Поступило: 03.01.2023 Исправленный вариант: 31.01.2023
1. Введение Пусть $\xi_{jl}$, $1 \leqslant j \leqslant n$, $1 \leqslant l \leqslant k$, – независимые случайные величины, имеющие полиномиальное распределение:
$$
\begin{equation*}
\mathbf{P}(\xi_{jl}=i)=p_i, \qquad 1 \leqslant i \leqslant M, \quad 1 \leqslant j \leqslant n, \quad 1 \leqslant l \leqslant k.
\end{equation*}
\notag
$$
Они образуют $n$ независимых цепочек $(\xi_{11},\dots,\xi_{1k}), (\xi_{21},\dots,\xi_{2k}),\dots,(\xi_{n1},\dots,\xi_{nk})$, принимающих значения во множестве $\{1,2,\dots,M \}^k$. Число непоявившихся цепочек $\mu_0$ вычисляется по формуле
$$
\begin{equation*}
\mu_0=\sum_{(s_1,\dots,s_k) \in \{1,2,\dots,M \}^k } I \{ \eta^{(s_1,\dots,s_k)}=0 \},
\end{equation*}
\notag
$$
где $\eta^{(s_1,\dots,s_k)}=\sum_{j=1}^n I \{ (\xi_{j1},\dots,\xi_{jk}) =(s_1,\dots,s_k)\}$. Очевидно, $\mu_0<M^k$. Если некоторые из чисел $p_i$, $1\leqslant i \leqslant M$, равны нулю, то можно исключить соответствующие исходы из рассмотрения, поэтому всюду далее без ограничения общности будем считать, что все $p_i$ положительны. Пусть $\vec{p}=(p_1, p_2,\dots,p_M)$ и
$$
\begin{equation*}
\widehat{H}=\frac{\ln(M^k - \mu_0)}{k}.
\end{equation*}
\notag
$$
Ниже мы покажем, что величина $\widehat{H}$ естественным образом связана с шенноновской энтропией распределения $\xi_{11}$, т.е. с
$$
\begin{equation*}
H=H(\vec{p})=-\sum_{i=1}^M p_i \ln p_i.
\end{equation*}
\notag
$$
Заметим, что $\widehat{H}$ является функционалом от $\mu_0$ в полиномиальной схеме специального вида, в которой $M^k$ исходов и вероятности исходов задаются числами $p_{l_1\dotsb l_M}=p_1^{l_1}\dotsb p_M^{l_M}$, где $l_i \geqslant 0$ и $\sum_{i=1}^M l_i=k$. Занумеруем элементы множества вероятностей исходов $\{ p_{l_1\dotsb l_M} \}$ произвольным, но фиксированным образом и получим такие числа $a_1,\dots,a_{M^k}$, что $ \{ a_1,\dots,a_{M^k} \}=\{ p_{l_1\dotsb l_M} \}$. Например, можно положить $a_1= p_1^k$, $a_2=p_1^{k-1} p_2$ и т.д. Предположим, что $n, k \to \infty$ и число $n$ независимых цепочек имеет такой же порядок, как и число исходов полиномиальной схемы $M^k$, т.е. $0<c_1 \leqslant {n}/{M^k} \leqslant c_2<\infty$ (ср. определение центральной области в [1; гл. III]). Целью настоящей статьи является изучение асимптотических свойств $\widehat{H}$ в этом и в более широком классах случаев, когда $\ln(n/M^k)=o(k)$. Отметим, что за последние десятилетия был получен ряд новых результатов в области исследования числа непоявившихся цепочек в различных схемах размещения частиц по ячейкам, см., например, [2]–[6]. В нашей задаче применение известных результатов затруднительно в силу того, что если не все $p_i$ равны друг другу, то выполнены соотношения $n \min_j a_j \to 0$ и $n \max_j a_j \to \infty$. Например, условие $n \max_j a_j \to \infty$ означает, что наша ситуация не соответствует центральной области и левой $r$-области при любом $r\geqslant 0$, а в силу условия $n \min_j a_j \to 0$ наша ситуация не соответствует правой $r$-области при любом $r\geqslant 0$, где под центральной областью, левой $r$-областью и правой $r$-областью понимается то же, что и в [1; гл. III]. Далее, положим
$$
\begin{equation*}
\begin{gathered} \, f(x)=\begin{cases} \log_{(1-x)/x}2(1-x), &\text{если }x \in \biggl(0, \dfrac12\biggr) \cup \biggl(\dfrac12,1\biggr), \\ x,&\text{если }x \in \biggl\{0, \dfrac12, 1 \biggr\}, \end{cases} \\ G(\vec{p})=\ln \biggl( \min_{h \in [0,1]} \sum_{i=1}^M (Mp_i)^h \biggr). \end{gathered}
\end{equation*}
\notag
$$
Функция $f(x)$ непрерывна на отрезке $[0,1]$, строго возрастает, принимает значения в диапазоне от $0$ до $1$ и удовлетворяет соотношению $f(1-x)=1 - f(x)$. Очевидно, $G(\vec{p}) \leqslant \ln \bigl(\sum_{i=1}^M (Mp_i)^0 \bigr)=\ln M$. Далее, функция $g(h)=\sum_{i=1}^M (Mp_i)^h$ выпукла и $g(0)=g(1)$. Если не все $p_i$ равны, то $g(h)$ строго выпукла и минимум в выражении для $G(\vec{p})$ достигается в единственной точке из интервала $(0,1)$. Для формулировки еще одного свойства $G(\vec{p})$ нам потребуется следующее определение. Функцией уклонений случайной величины $Z$ называют
$$
\begin{equation*}
I_{Z}(z)=\sup_{h \in \mathbb{R}} (z h - \ln \mathbf{E} e^{h Z}).
\end{equation*}
\notag
$$
Случайная величина $-\ln p_{\xi_{11}}$ принимает значение $-\ln p_i$ с вероятностью $p_i$, $1 \leqslant i \leqslant M$, поэтому $\mathbf{E}(-\ln p_{\xi_{11}})=H$, и, кроме того, $G(\vec{p}) = \ln M - I_{-\ln p_{\xi_{11}}}(\ln M)$ в силу приведенной ниже леммы 1. Как следует из сформулированной ниже леммы 3, при $M=2$ для функции $G(\vec{p})$ справедлива явная формула:
$$
\begin{equation*}
G\bigl((p_1,p_2)\bigr)= H\bigl((f(p_1), f(p_2))\bigr)=H\bigl((f(p_1), 1 - f(p_1))\bigr).
\end{equation*}
\notag
$$
Всюду далее предполагается, что число исходов $M$ и вектор вероятностей $\vec{p}$ фиксированы, $k\to \infty$ и $n=n(k) \to \infty$ при $k \to \infty$. Напомним, что также предполагается, что $p_i > 0$, $1 \leqslant i \leqslant M$. Основные результаты настоящей работы представлены в следующих двух теоремах. Теорема 1. Пусть $M$ фиксировано, $n=q_k M^k$ и $\lim_{k \to \infty} (\ln q_k)/k=0$. Тогда $\widehat{H} \overset{\text{п.н.}}{\to} G(\vec{p})$, причем $G(\vec{p}) \geqslant H(\vec{p})$ и равенство достигается тогда и только тогда, когда все вероятности $p_i$ равны $1/{M}$. Кроме того,
$$
\begin{equation*}
\frac{\ln{(M^k-\mathbf{E} \mu_0)}}{k} \to G(\vec{p}), \qquad k \to \infty.
\end{equation*}
\notag
$$
В частности, из теоремы 1 следует, что $G(\vec{p})>0$. Пример 1. Если $n=q_k M^k$ и $1/{k^{100}} \leqslant q_k \leqslant k^{100}$, то условия теоремы 1 выполнены. Теорема 2. В условиях теоремы 1 при любом $r > 0$ выполнены соотношения $\mathbf{E}\widehat{H}^r \to G^r(\vec{p})$ и
$$
\begin{equation*}
\mathbf{E} | \widehat{H} - G(\vec{p})|^r \to 0, \qquad k \to \infty,
\end{equation*}
\notag
$$
откуда, в частности, следует, что $\mathbf{E}\widehat{H} \to G(\vec{p})$ и $\mathbf{D} \widehat{H} \to 0$ при $ k \to \infty$. Теоремы 1 и 2 – это аналоги закона больших чисел для логарифма числа появившихся цепочек в рассматриваемой полиномиальной схеме. Перейдем к обсуждению вопроса о связи величины $\widehat{H}$ с энтропией. Рассмотрим последовательность независимых одинаково распределенных случайных величин $X_j$, имеющих полиномиальное распределение:
$$
\begin{equation}
\mathbf{P}(X_j=i)=p_i > 0, \qquad j \geqslant 1, \quad 1 \leqslant i \leqslant M.
\end{equation}
\tag{1.1}
$$
Наиболее естественной оценкой энтропии $H=H(\vec{p})$ является величина
$$
\begin{equation*}
\breve{H}^{*} =-\sum_{i=1}^M \widehat{p}_i \ln \widehat{p}_i
\end{equation*}
\notag
$$
(а также ее аналоги), где $\widehat{p}_i$ – выборочная частота $i$-го исхода. Однако у такого рода оценок есть существенный недостаток: в случае, когда $p_i$ малы, частотные оценки вероятностей $\widehat{p_i}$ становятся “близки” к истинным значениям $p_i$ только при очень большом числе наблюдений. В связи с этим возникает естественная идея о том, чтобы сразу оценивать “всю” величину $H$, а не оценивать по отдельности все $p_i$ с последующей подстановкой полученных оценок в формулу для $H$. Способ реализации данной идеи был предложен Добрушиным в [7]. Работа [7] способствовала развитию так называемых “спэйсинговых” методов (см., например, [8], [9]). Есть и другие методы, одним из которых является следующий подход к оцениванию энтропии, предложенный автору А. М. Зубковым и связанный с теоремой Шеннона–Макмиллана–Бреймана и теорией случайных размещений. Пусть $X_1, X_2, \dots$ – стационарный эргодический процесс со значениями во множестве $\{1, 2, \dots,M\}$, причем
$$
\begin{equation*}
\begin{gathered} \, \mathbf{P}(X_1= x_1, X_2=x_2, \dots,X_k=x_k)=p(x_1, x_2,\dots,x_k), \\ \mathbf{P}(X_k= x_k \mid X_{k-1}=x_{k-1},\dots,X_1=x_1)=p(x_k \mid x_{k-1}, \dots,x_1). \end{gathered}
\end{equation*}
\notag
$$
В силу теоремы Шеннона–Макмиллана–Бреймана (см. (1) в [10]) выполнено соотношение
$$
\begin{equation*}
-k^{-1}\ln p(X_1, X_2,\dots,X_k) \overset{\text{п.н.}}{\to} H,
\end{equation*}
\notag
$$
где $H=\lim_{k \to \infty} \mathbf{E} \bigl(-\ln p(X_k\mid X_k,\dots,X_1) \bigr)$ – энтропия процесса $\{ X_k \}_{k \geqslant 1}$. Рассмотрим следующие $n$ цепочек случайных величин: $(X_1,\dots,X_k)$, $(X_{k+1},\dots,X_{2k})$, $\dots$, $(X_{k(n-1)+1},\dots,X_{kn})$. Пусть $k, n \to \infty$. Обозначим через $\mu_r$ число цепочек, появившихся в такой выборке ровно $r \geqslant 0$ раз. Тогда
$$
\begin{equation*}
\mu_0+\mu_1+\dots+\mu_{n}= M^k, \qquad\mu_1+2\mu_2+\dots+n \mu_{n}=n.
\end{equation*}
\notag
$$
В силу теоремы Шеннона–Макмиллана–Бреймана естественно предположить, что число “типичных” цепочек имеет порядок $e^{H k}$. Значит, оценку энтропии можно получить с помощью оценки числа этих “типичных” цепочек, что, в свою очередь, можно сделать с помощью чисел $\mu_r$ следующим образом: из $M^k$ цепочек мы вычтем как можно больше “редко наблюдаемых” цепочек так, чтобы оставшиеся цепочки составляли “основную часть выборки”. Другими словами, для некоторого $0<\varepsilon<1$ можно рассмотреть величины
$$
\begin{equation*}
\begin{gathered} \, m_0 =\sup\{ m \geqslant 1\colon \mu_1+2\mu_2+\dots+m\mu_m<\varepsilon n \}, \\ H^* =\frac{\ln(M^k - \mu_0 - \mu_1 - \dots - \mu_{m_0})}{k}, \end{gathered}
\end{equation*}
\notag
$$
где супремум по пустому множеству полагается равным $0$. Величина $H^*$ является естественной оценкой энтропии $H$. Однако по техническим причинам удобнее работать с величиной $\widehat{H}=(\ln(M^k - \mu_0))/k$, которая является упрощенной версией оценки $H^*$ и, очевидно, удовлетворяет соотношению $\widehat{H} \geqslant H^{*}$. Результаты настоящей статьи можно интерпретировать в терминах асимптотических свойств оценки $\widehat{H}$ при фиксированном $\vec{p}$ и $n,k \to \infty$. А именно, в случае с независимыми случайными величинами $X_1, X_2,\dots$, имеющими полиномиальное распределение, заданное с помощью $\vec{p}$ по формуле (1.1), при выполнении условия $\ln({n}/{M^k})=o(k)$, $n,k \to \infty$, величина $\widehat{H}$, хотя и не является состоятельной оценкой величины $H$, тем не менее является сильно состоятельной оценкой величины $G(\vec{p})$ и, кроме того, $\widehat{H} \overset{L_r}{\to} G(\vec{p})$ при $r > 0$. Величина $H^*$ является естественной оценкой энтропии, причем $\widehat{H} \geqslant H^*$, поэтому довольно естественно, что предельное (в смысле сходимости почти наверное) значение $\widehat{H}$ оказалось не меньше, чем $H$.
2. Доказательство теоремы 1 Как известно из теории случайных размещений (см. [1]), $\mathbf{E} \mu_0=\sum_{i=1}^{M^k}(1-a_i)^n$, где, как и ранее, $\{ a_i \}_{i=1}^{M^k}$ – вероятности цепочек, возникающих в $k$ последовательных испытаниях полиномиальной схемы. Значит,
$$
\begin{equation*}
\mathbf{E} \mu_0=\sum_{\substack{l_1,\dots,l_M \geqslant 0 \\\sum_{i=1}^M l_i=k}} C_k^{l_1, l_2,\dots,l_M} (1-p_1^{l_1} p_2^{l_2} \dotsb p_M^{l_M})^n,
\end{equation*}
\notag
$$
где $C_k^{l_1, l_2,\dots,l_M} ={k!}/(l_1!\,l_2!\,\dotsb l_M!)$ – полиномиальный коэффициент. Для упрощения записи будем использовать следующие обозначения:
$$
\begin{equation*}
\begin{gathered} \, \vec{l}=(l_1, l_2,\dots,l_M), \qquad C_k^{\vec{l}}=C_k^{l_1, l_2,\dots,l_M}, \\ p^{\vec{l}}=p_1^{l_1} p_2^{l_2} \dotsb p_M^{l_M}, \qquad z_{\vec{l}}= (1-p^{\vec{l}})^n=(1-p_1^{l_1} p_2^{l_2} \dotsb p_M^{l_M})^n, \\ R=\biggl\{ \vec{l}\colon l_1,\dots,l_M \geqslant 0, \,\sum_{i=1}^M l_i=k \biggr\}. \end{gathered}
\end{equation*}
\notag
$$
Лемма 1. Если выполнены условия теоремы 1, то $G(\vec{p}) =\ln M - I_{-\ln p_{\xi_{11}}}(\ln M)$ и
$$
\begin{equation*}
\frac{\ln{(M^k-\mathbf{E} \mu_0)}}{k} \to G(\vec{p}).
\end{equation*}
\notag
$$
Доказательство. Сначала докажем лемму в случае, когда $p_1=\dots=p_M={1}/M$. Первое соотношение из утверждения леммы 1 получается с помощью непосредственной проверки. Далее,
$$
\begin{equation*}
\mathbf{E} \mu_0 = \sum_{i=1}^{M^k}(1-a_i)^n= M^k (1-M^{-k})^n=M^k \cdot e^{-q_k(1+\alpha_k)}
\end{equation*}
\notag
$$
для некоторой бесконечно малой последовательности $\alpha_k$. По условию
$$
\begin{equation*}
\lim_{k \to \infty}\frac {\ln q_k}{k}=0,
\end{equation*}
\notag
$$
откуда $q_k=e^{k\beta_k}$, где $\beta_k \to 0$ при $k \to \infty$. Значит, при $p_1=\dots=p_M={1}/M$ выполнены соотношения
$$
\begin{equation}
\frac{\ln{(M^k-\mathbf{E} \mu_0)}}{k}=\frac{\ln{M^k(1 - e^{-q_k(1+\alpha_k)})}}{k} =\ln M+\frac{\ln{(1 - e^{-e^{k\beta_k}(1+\alpha_k)})}}{k}.
\end{equation}
\tag{2.1}
$$
Далее, $e^{k\beta_k} \geqslant \min (e^{-k|\beta_k|}, k^{-1})$ и $1 - e^{-x} \geqslant {x}/{2}$ при $x \in [0,1/{10}]$, поэтому при достаточно больших $k \geqslant k_0$ имеем
$$
\begin{equation*}
\begin{aligned} \, 0 &=\frac{\ln (1-0)}{k}\geqslant \frac{\ln{(1 - e^{-e^{k\beta_k}(1+\alpha_k)})}}{k} \geqslant \frac{\ln{(1 - e^{- \min (e^{-k|\beta_k|}, k^{-1})(1+\alpha_k)})}}{k} \\ &\geqslant \frac{\ln{( \frac12 \min (e^{-k|\beta_k|}, k^{-1})(1+\alpha_k) )}}{k} =\frac{\ln (2^{-1}(1+\alpha_k))}{k} +\frac{\ln{( \min (e^{-k|\beta_k|}, e^{-\ln k}) )}}{k} \\ &=o(1)+\frac{ \min( \ln e^{-k|\beta_k|}, \ln e^{-\ln k } ) }{k}=o(1) - \frac{\max (k |\beta_k|, \ln k)}{k}=o(1), \end{aligned}
\end{equation*}
\notag
$$
откуда
$$
\begin{equation*}
\frac{\ln{(1 - e^{-e^{k\beta_k}(1+\alpha_k)})}}{k}=o(1) \qquad\text{при}\quad k \to \infty.
\end{equation*}
\notag
$$
Учитывая (2.1), получаем, что в случае $p_1=\dots=p_M={1}/M$ утверждение леммы 1 доказано.
Предположим теперь, что не все $p_i$ равны. Идея доказательства состоит в следующем: мы, грубо говоря, разобьем сумму $\sum_{\vec{l} \in R} C_k^{\vec{l}} z_{\vec{l}}=\mathbf{E} \mu_0$ на две части, в одной из которых $z_{\vec{l}}$ “близки” к $1$, а в другой – к $0$, после чего оценивание каждой из частей суммы упростится.
Фиксируем $\varepsilon \in (0, 1/{M})$. Положим
$$
\begin{equation*}
\begin{gathered} \, Q_{\varepsilon}=\biggl\{ \vec{l} \in R\colon p_1^{l_1} p_2^{l_2} \dotsb p_M^{l_M} \geqslant \biggl( \frac{1}{M}+\varepsilon \biggr)^k \biggr\}, \\ Q_{-\varepsilon}=\biggl\{ \vec{l} \in R\colon p_1^{l_1} p_2^{l_2} \dotsb p_M^{l_M} > \biggl( \frac{1}{M} - \varepsilon \biggr)^k \biggr\}, \\ \alpha_1=\sum_{\vec{l} \in Q_{-\varepsilon}} C_k^{\vec{l}} (1 - z_{\vec{l}}), \qquad \alpha_2=\sum_{\vec{l} \in R \setminus Q_{-\varepsilon}} C_k^{\vec{l}} (1 - z_{\vec{l}}). \end{gathered}
\end{equation*}
\notag
$$
Так как $\sum_{\vec{l} \in R} C_k^{\vec{l}}=M^k$ и $z_{\vec{l}} \in [0,1]$, то
$$
\begin{equation*}
M^k - \mathbf{E} \mu_0=\sum_{\vec{l} \in R} C_k^{\vec{l}} (1 - z_{\vec{l}})=\alpha_1+\alpha_2
\end{equation*}
\notag
$$
и имеют место следующие соотношения:
$$
\begin{equation*}
\sum_{\vec{l} \in Q_{-\varepsilon}} C_k^{\vec{l}} \geqslant \alpha_1 \geqslant \biggl(\sum_{\vec{l} \in Q_{\varepsilon}} C_k^{\vec{l}}\biggr) \min_{ \vec{l} \in Q_{\varepsilon} }(1 - z_{\vec{l}}) \geqslant \biggl( 1 - \biggl(1 - \biggl( \frac1{M}+\varepsilon \biggr)^k \biggr)^n \biggr) \sum_{\vec{l} \in Q_{\varepsilon}} C_k^{\vec{l}}.
\end{equation*}
\notag
$$
Значит,
$$
\begin{equation}
(1+o(1))\sum_{\vec{l} \in Q_{\varepsilon}} C_k^{\vec{l}} \leqslant \alpha_1 \leqslant \sum_{\vec{l} \in Q_{-\varepsilon}} C_k^{\vec{l}} \leqslant \sum_{\vec{l} \in R\colon p^{\vec{l}} \geqslant(1/M-\varepsilon)^k} C_k^{\vec{l}},
\end{equation}
\tag{2.2}
$$
так как
$$
\begin{equation*}
\ln \biggl(1 - \biggl( \frac1{M}+\varepsilon \biggr)^k \biggr)^n \sim (-n) \biggl( \frac1{M}+\varepsilon \biggr)^k=-q_k M^k \biggl( \frac1{M}+ \varepsilon \biggr)^k=-e^{o(k)}\cdot e^{k \ln(1+\varepsilon M)} \to -\infty.
\end{equation*}
\notag
$$
Далее, известно, что $\ln(1-x) \leqslant -x$ и $e^{-x} \leqslant 1 - x+x^2$ при $x \in [0,1/{10}]$. Кроме того,
$$
\begin{equation*}
\max_{\vec{l} \in R \setminus Q_{-\varepsilon}} n p^{\vec{l}}\leqslant n\biggl(\frac1{M} - \varepsilon \biggr)^k=q_k (1 - M \varepsilon)^k=e^{o(k)} \cdot e^{k \ln (1- M \varepsilon)}=o(1).
\end{equation*}
\notag
$$
Поэтому если $\vec{l} \in R \setminus Q_{-\varepsilon}$, то $n p^{\vec{l}}\leqslant 1/{10}$ при $k \geqslant k_0$, откуда, учитывая неравенство Бернулли, получаем, что
$$
\begin{equation*}
\begin{aligned} \, &1 - n p^{\vec{l}}\leqslant (1 - p^{\vec{l}})^n=z_{\vec{l}}=e^{n \ln (1 -p^{\vec{l}}) } \leqslant e^{- n p^{\vec{l}}} \\ &\qquad \leqslant 1 - n p^{\vec{l}}+(n p^{\vec{l}})^2 \leqslant 1 - n p^{\vec{l}} \biggl(1 - n\biggl(\frac1{M} - \varepsilon\biggr)^k \biggr). \end{aligned}
\end{equation*}
\notag
$$
Следовательно,
$$
\begin{equation*}
n \cdot \sum_{\vec{l} \in R \setminus Q_{-\varepsilon}} C_k^{\vec{l}}p^{\vec{l}} \geqslant \sum_{\vec{l} \in R \setminus Q_{-\varepsilon}} C_k^{\vec{l}} (1 - z_{\vec{l}}) \geqslant n \biggl(1 - n\biggl(\frac1{M} - \varepsilon\biggr)^k \biggr) \sum_{\vec{l} \in R \setminus Q_{-\varepsilon}} C_k^{\vec{l}}p^{\vec{l}}.
\end{equation*}
\notag
$$
Значит, если $\varepsilon$ фиксировано, то
$$
\begin{equation}
\alpha_2 \sim n \cdot \biggl( \sum_{\vec{l} \in R \setminus Q_{-\varepsilon}} C_k^{\vec{l}}p^{\vec{l}}\biggr), \qquad k \to \infty.
\end{equation}
\tag{2.3}
$$
Рассмотрим последовательность независимых одинаково распределенных случайных векторов $\vec{X}_i$, принимающих значения в $\mathbb{R}^M$ и имеющих следующее полиномиальное распределение: $\mathbf{P}(\vec{X}_i= \vec{e}_j)=p_j$, $1 \leqslant i \leqslant k$, $1 \leqslant j \leqslant M$, где $\vec{e}_1=(1, 0,\dots,0) \in \mathbb{R}^M$, $\dots$, $\vec{e}_M=(0,\dots,0, 1) \in \mathbb{R}^M$. Пусть $\nu_m=(\vec{e}_m, \sum_{i=1}^k \vec{X}_i)$ – частота $m$-го исхода (в выборке объема $k$). Тогда
$$
\begin{equation}
\begin{aligned} \, &\sum_{\vec{l} \in R \setminus Q_{-\varepsilon}} C_k^{\vec{l}} p^{\vec{l}}=\mathbf{P} \bigl( (\nu_1,\dots,\nu_M) \in R \setminus Q_{-\varepsilon} \bigr) =\mathbf{P} \biggl( p_1^{\nu_1} p_2^{\nu_2} \dotsb p_M^{\nu_M} \leqslant \biggl( \frac{1}{M} - \varepsilon \biggr)^k \biggr) \nonumber \\ &\qquad= \mathbf{P}\biggl( \sum_{i=1}^M \nu_i (-\ln p_i) \geqslant -k \biggl(\ln \biggl(\frac1{M} - \varepsilon\biggr)\biggr)\biggr). \end{aligned}
\end{equation}
\tag{2.4}
$$
Положим $Y_i=-( (\ln p_1, \ln p_2,\dots,\ln p_M), \vec{X}_i)$. Случайные величины $Y_i$, $1\leqslant i \leqslant k$, независимы, $\mathbf{P}(Y_i= -\ln p_j)=p_j$, $1 \leqslant j \leqslant M$ и $\sum_{i=1}^M \nu_i (-\ln p_i)= \sum_{i=1}^k Y_i$. Из теории больших уклонений известен следующий результат.
Теорема 3. Пусть случайные величины $Z_1, Z_2, \dots$ независимы, одинаково распределены и удовлетворяют условию $\mathbf{E} e^{h Z_1}<\infty$ для всех $h \in \mathbb{R}$. Тогда для любого $a > \mathbf{E}Z_1$
$$
\begin{equation*}
\lim_{k \to \infty} \frac1{k} \ln\mathbf{P}(Z_1+\dots+Z_k \geqslant ak) =- I_{Z_1}(a).
\end{equation*}
\notag
$$
Заметим, что $H \leqslant \ln M$, поэтому
$$
\begin{equation*}
\mathbf{E}Y_i=H <-\ln \biggl( \frac1{M} - \varepsilon \biggr).
\end{equation*}
\notag
$$
Применяя теорему 3 к величинам $Y_1, Y_2, \dots$, получаем, что
$$
\begin{equation}
\begin{aligned} \, & \mathbf{P}\biggl( \sum_{i=1}^M \nu_i (-\ln p_i) \geqslant -k \biggl(\ln \biggl(\frac1{M} - \varepsilon\biggr)\biggr)\biggr)= \mathbf{P}\biggl( \sum_{i=1}^k Y_i \geqslant k \biggl(-\ln \biggl(\frac1{M} - \varepsilon\biggr)\biggr)\biggr) \nonumber \\ &\qquad =\exp\biggl(-k I_{Y_1} \biggl(-\ln\biggl( \frac1{M} - \varepsilon \biggr) \biggr)+ o(k)\biggr). \end{aligned}
\end{equation}
\tag{2.5}
$$
Рассмотрим последовательность независимых одинаково распределенных случайных векторов $\vec{X}_i^*$, принимающих значения в $\mathbb{R}^M$ и имеющих следующее полиномиальное распределение: $\mathbf{P}(\vec{X}_i^*= \vec{e}_j)={1}/{M}$, $1 \leqslant i \leqslant k$, $1 \leqslant j \leqslant M$. Пусть $\nu_m^*= (\vec{e}_m, \sum_{i=1}^k \vec{X}_i^*)$ – частота $m$-го исхода (в выборке объема $k$). Положим $Y_i^*=( (\ln p_1, \ln p_2,\dots,\ln p_M), \vec{X}^*_i)$. Случайные величины $Y_i^*$, $1\leqslant i \leqslant k$, независимы и $\mathbf{P}(Y_i^*=\ln p_j)= {1}/{M}$, $1 \leqslant j \leqslant M$. Так как не все $p_j$ равны, то $\prod_{j=1}^M p_j<1/M^M$ в силу неравенства о средних. Значит,
$$
\begin{equation*}
\frac{1}{M}\ln (p_1 \dotsb p_M) <\ln \frac{1}{M}.
\end{equation*}
\notag
$$
Будем считать, что $\varepsilon > 0$ достаточно мало для того, чтобы выполнялось неравенство
$$
\begin{equation*}
\frac{1}{M}\ln (p_1 \dotsb p_M)<\ln \biggl(\frac{1}{M} - \varepsilon \biggr).
\end{equation*}
\notag
$$
Тогда
$$
\begin{equation*}
\mathbf{E}Y_i^*= \frac{1}{M}\ln (p_1 \dotsb p_M)<\ln \biggl(\frac{1}{M} - \varepsilon \biggr)<\ln \biggl(\frac{1}{M} +\varepsilon \biggr).
\end{equation*}
\notag
$$
Рассуждая так же, как и ранее, с помощью теоремы 3 получаем, что
$$
\begin{equation}
\begin{aligned} \, M^{-k}\sum_{\vec{l} \in Q_{\varepsilon}} C_k^{\vec{l}} &=\mathbf{P} \bigl( (\nu_1,\dots,\nu_M) \in Q_{\varepsilon} \bigr) =\mathbf{P} \biggl( p_1^{\nu_1} p_2^{\nu_2} \dotsb p_M^{\nu_M} \geqslant \biggl( \frac{1}{M}+ \varepsilon \biggr)^k \biggr) \nonumber \\ & = \mathbf{P}\biggl( \sum_{i=1}^M \nu_i \ln p_i \geqslant k \ln \biggl(\frac1{M}+ \varepsilon\biggr)\biggr)=\mathbf{P} \biggl( \sum_{i=1}^k Y_i^* \geqslant k \ln \biggl(\frac1{M}+\varepsilon\biggr) \biggr) \nonumber \\ & = \exp\biggl(-k I_{Y_1^*} \biggl( \ln\biggl( \frac1{M}+\varepsilon \biggr) \biggr)+o(k)\biggr), \end{aligned}
\end{equation}
\tag{2.6}
$$
и, аналогично,
$$
\begin{equation}
\sum_{\vec{l} \in R\colon p^{\vec{l}} \geqslant (1/M-\varepsilon)^k} M^{-k} C_k^{\vec{l}} =\exp\biggl(-k I_{Y_1^*} \biggl( \ln\biggl( \frac1{M} - \varepsilon \biggr) \biggr)+o(k)\biggr).
\end{equation}
\tag{2.7}
$$
Далее,
$$
\begin{equation*}
\begin{aligned} \, &I_{Y_1^*} ( - \ln z ) - \ln M=\sup_{h \in \mathbb{R}} \biggl( -h \ln z - \ln \biggl( \frac1{M} \sum_{i=1}^M e^{h \ln p_i} \biggr)\biggr) - \ln M \\ &\qquad= \sup_{h \in \mathbb{R}} \biggl( -h \ln z - \ln \biggl(\sum_{i=1}^M p_i^h \biggr)\biggr), \\ &I_{Y_1} ( \ln z ) - \ln z=\sup_{h \in \mathbb{R}} \biggl( h \ln z - \ln \biggl( \sum_{i=1}^M p_i e^{-h \ln p_i} \biggr)\biggr) - \ln z \\ &\qquad=\sup_{h \in \mathbb{R}} \biggl( (-\ln z)(1-h) - \ln \biggl(\sum_{i=1}^M p_i^{1-h} \biggr)\biggr) =\sup_{\widetilde{h} \in \mathbb{R}} \biggl( -\widetilde{h} \ln z - \ln \biggl(\sum_{i=1}^M p_i^{\widetilde{h}} \biggr)\biggr). \end{aligned}
\end{equation*}
\notag
$$
Поэтому
$$
\begin{equation}
\begin{aligned} \, I_{Y_1^*} ( - \ln z ) - \ln M &=I_{Y_1} ( \ln z ) - \ln z=\sup_{h \in \mathbb{R}} \biggl( -h \ln z - \ln \biggl(\sum_{i=1}^M p_i^h \biggr)\biggr) \nonumber \\ &=\sup_{h \in \mathbb{R}} \biggl( - \ln \biggl( \sum_{i=1}^M (zp_i)^h \biggr) \biggr) =- \ln \inf_{h \in \mathbb{R}} \sum_{i=1}^M (zp_i)^h. \end{aligned}
\end{equation}
\tag{2.8}
$$
Так как не все $p_i$ равны, то функция $g(h)=\sum_{i=1}^M (Mp_i)^h$ строго выпукла на $\mathbb{R}$. При этом $g(0)=g(1)$, поэтому минимальное значение $g(h)$ достигается в единственной точке из интервала $(0,1)$, откуда в силу (2.8) получаем, что $ I_{Y_1}(\ln M)=\ln M - G(\vec{p})$. Тем самым, первое утверждение леммы 1 доказано. Из (2.8) следует, что $I_{Y_1^*} ( - \ln M )=I_{Y_1} ( \ln M ) $, поэтому
$$
\begin{equation}
I_{Y_1^*} ( - \ln M )=I_{Y_1} ( \ln M )=\ln M - G(\vec{p}) .
\end{equation}
\tag{2.9}
$$
Далее, $\inf_{h \in [0,1]} g(h)<g(0)$, значит, $G(\vec{p})<\ln M$. В силу приведенной ниже леммы 4 функция $U(z)=\inf_{h \in \mathbb{R}} \sum_{i=1}^M (zp_i)^h$ непрерывна в точке $z=M$, откуда, учитывая (2.8), получаем, что функции $ I_{Y_1} ( \ln z )$ и $I_{Y_1^*}(-\ln z )$ также непрерывны в точке $z=M$. Из этого факта и соотношения (2.9) следует, что
$$
\begin{equation}
I_{Y_1} \biggl( -\ln\biggl( \frac1{M} - \varepsilon \biggr) \biggr) =I_{Y_1} \bigl( \ln M \bigr)+ \Delta_1 (\varepsilon) =\ln M - G(\vec{p})+\Delta_1 (\varepsilon),
\end{equation}
\tag{2.10}
$$
$$
\begin{equation}
I_{Y_1^*} \biggl( \ln\biggl( \frac1{M} \pm \varepsilon \biggr) \biggr) = I_{Y_1^*} \biggl( \ln\biggl( \frac1{M} \biggr) \biggr)+\Delta_2 (\pm \varepsilon) = \ln M - G(\vec{p})+\Delta_2 (\pm \varepsilon),
\end{equation}
\tag{2.11}
$$
где $\Delta_1 (\varepsilon), \Delta_2 (\pm \varepsilon) \to 0$ при $\varepsilon \to 0+$. Из (2.2), (2.6), (2.7) и (2.11) получаем, что если $\varepsilon$ фиксировано, то
$$
\begin{equation*}
\begin{aligned} \, e^{o(1)} \exp\bigl(-k (\ln M - G(\vec{p})+\Delta_2 (\varepsilon)) +o(k)\bigr) &\leqslant \alpha_1 M^{-k} \\ &\leqslant \exp\bigl(-k (\ln M - G(\vec{p}) +\Delta_2 (-\varepsilon))+o(k)\bigr) \end{aligned}
\end{equation*}
\notag
$$
и, следовательно,
$$
\begin{equation}
\exp\bigl(k ( G(\vec{p}) - \Delta_2 (\varepsilon))+o(k)\bigr) \leqslant \alpha_1 \leqslant \exp\bigl(k (G(\vec{p}) - \Delta_2 (-\varepsilon))+o(k)\bigr).
\end{equation}
\tag{2.12}
$$
Из (2.3)–(2.5) и (2.10) получаем, что $n^{-1} \alpha_2=e^{o(1)} \exp\bigl(-k(\ln M - G(\vec{p}) + \Delta_1 (\varepsilon))+o(k)\bigr)$, откуда в силу равенства $n=q_kM^k= \exp(k \ln M+o(k))$ следует, что
$$
\begin{equation}
\alpha_2=\exp\bigl(k(G(\vec{p}) - \Delta_1 (\varepsilon))+o(k)\bigr).
\end{equation}
\tag{2.13}
$$
Для произвольных чисел $a, b \in \mathbb{R}$ выполнено неравенство
$$
\begin{equation*}
e^{\max(a,b)} \leqslant e^a+e^b \leqslant 2 \max(e^a, e^b)=e^{\max(a, b)+\ln2},
\end{equation*}
\notag
$$
поэтому из (2.12) и (2.13) следует, что
$$
\begin{equation*}
\begin{aligned} \, &\exp\bigl(k \max \bigl( G(\vec{p}) - \Delta_2 (\varepsilon), G(\vec{p}) - \Delta_1 (\varepsilon)\bigr)+o(k)\bigr) \leqslant \alpha_1+\alpha_2 \\ &\qquad \leqslant \exp\bigl(k \max \bigl( G(\vec{p}) - \Delta_2 (-\varepsilon), G(\vec{p}) - \Delta_1 (\varepsilon)\bigr)+o(k)\bigr). \end{aligned}
\end{equation*}
\notag
$$
Далее, $\alpha_1+\alpha_2=M^k - \mathbf{E} \mu_0 $, поэтому при фиксированном достаточном малом $\varepsilon>0$ выполнены неравенства
$$
\begin{equation*}
\begin{aligned} \, &\max \bigl( G(\vec{p}) - \Delta_2 (\varepsilon), G(\vec{p}) - \Delta_1 (\varepsilon)\bigr) \leqslant \liminf_{k \to \infty } \frac{\ln{(M^k-\mathbf{E} \mu_0)}}{k} \\ &\qquad \leqslant \limsup_{k \to \infty } \frac{\ln{(M^k-\mathbf{E} \mu_0)}}{k} \leqslant \max \bigl( G(\vec{p}) - \Delta_2 (-\varepsilon), G(\vec{p}) - \Delta_1 (\varepsilon)\bigr). \end{aligned}
\end{equation*}
\notag
$$
Так как $\varepsilon>0$ может быть сколь угодно малым, то
$$
\begin{equation*}
\lim_{k \to \infty }\frac{\ln{(M^k-\mathbf{E} \mu_0)}}{k}=G(\vec{p}),
\end{equation*}
\notag
$$
что завершает доказательство леммы 1. Лемма 2. Выполнено неравенство $G(\vec{p}) \geqslant H$. Равенство достигается тогда и только тогда, когда все вероятности $p_i$ равны ${1}/M$. Доказательство. Функция $e^x$ выпукла, поэтому $\sum_{i=1}^M p_i e^{x_i} \geqslant \exp(\sum_{i=1}^M p_i x_i)$ в силу неравенства Йенсена. При $x_i=h \ln M+ (h-1) \ln p_i$ получаем, что
$$
\begin{equation*}
\sum_{i=1}^M (Mp_i)^h \geqslant \exp\biggl(h \ln M+ (h-1) \sum_{i=1}^M p_i \ln p_i\biggr) =e^H e^{ h (\ln M - H)} \geqslant e^H
\end{equation*}
\notag
$$
при $h \in [0,1]$, откуда следует, что $G(\vec{p}) \geqslant H$. Второе утверждение леммы следует из критерия достижимости равенства в неравенстве Йенсена. Вернемся к доказательству теоремы 1. Так как все вероятности $p_i$ положительны, то $H > 0$, откуда в силу лемм 1 и 2 следует, что $G(\vec{p})>0$ и
$$
\begin{equation}
\mathbf{E}\mu_0=M^k - e^{ k (G(\vec{p}) +o(1)) }.
\end{equation}
\tag{2.14}
$$
Как легко видеть,
$$
\begin{equation}
\frac{ \ln(M^k - \mu_0) }{k}=\frac{ \ln(M^k - \mathbf{E}\mu_0) }{k}+ \frac{\ln (( M^k - \mu_0)/(M^k - \mathbf{E} \mu_0))}{k}.
\end{equation}
\tag{2.15}
$$
Пусть
$$
\begin{equation*}
\xi_k =\frac{ M^k - \mu_0}{M^k - \mathbf{E} \mu_0};
\end{equation*}
\notag
$$
тогда $\xi_k > 0$ и $\mathbf{E}\xi_k=1$. В силу неравенства Маркова
$$
\begin{equation*}
\mathbf{P} \biggl( \frac{\ln \xi_k}{k} \geqslant \frac{1}{\sqrt{k}}\biggr) = \mathbf{P} (\xi_k \geqslant e^{\sqrt{k}}) \leqslant \frac{\mathbf{E}\xi_k}{e^{\sqrt{k}}}=e^{-\sqrt{k}};
\end{equation*}
\notag
$$
следовательно,
$$
\begin{equation*}
\sum_{k \geqslant 1}^{\infty} \mathbf{P} \biggl( \frac{\ln \xi_k}{k} \geqslant \frac1{\sqrt{k}} \biggr)<\infty.
\end{equation*}
\notag
$$
По лемме Бореля–Кантелли с вероятностью $1$ выполнено соотношение
$$
\begin{equation}
\limsup_{k \to \infty} \frac{\ln \xi_k}{k} \leqslant 0.
\end{equation}
\tag{2.16}
$$
Положим
$$
\begin{equation*}
I_5=\sum_{i=1}^{M^k} (1-a_i)^n, \qquad I_6=\sum_{i=1}^{M^k} (1-a_i)^{2n}, \qquad I_7=\sum_{i \ne j} \bigl( (1-a_i)^n(1-a_j)^n - (1-a_i-a_j)^n \bigr).
\end{equation*}
\notag
$$
Известно (см. [1; с. 112]), что $\mathbf{D} \mu_0=I_5 - I_6 - I_7$. Далее, $\mathbf{E}\mu_0=\sum_{i=1}^{M^k} (1-a_i)^n=I_5$. Кроме того, $I_6=\sum_{i=1}^{M^k} (1-a_i)^{\widetilde{n}}$ при $\widetilde{n}=2n$, откуда в силу (2.14) и равенства $\ln (\widetilde{n}/M^k)=o(k)$ находим, что
$$
\begin{equation*}
I_5=M^k - \exp\bigl(k(1+o(1))G(\vec{p})\bigr), \qquad I_6=M^k - \exp\bigl(k(1+o(1))G(\vec{p})\bigr).
\end{equation*}
\notag
$$
Заметим, что
$$
\begin{equation*}
I_7=\sum_{i \ne j} \bigl( (1-a_i - a_j+a_i a_j)^n - (1 - a_i - a_j)^n \bigr) \geqslant 0,
\end{equation*}
\notag
$$
поэтому
$$
\begin{equation}
0 \leqslant \mathbf{D} \mu_0=I_5 -I_6 - I_7 \leqslant I_5 - I_6 \leqslant \exp\bigl(k(1+o(1))G(\vec{p})\bigr).
\end{equation}
\tag{2.17}
$$
Значит, в силу (2.14) и неравенства Чебышёва при фиксированном $\varepsilon>0$ выполнены следующие соотношения:
$$
\begin{equation*}
\begin{aligned} \, & \mathbf{P}\biggl(\frac{\ln \xi_k}{k}<{-\varepsilon }\biggr)= \mathbf{P}\biggl(\frac{M^k - \mu_0}{M^k - \mathbf{E} \mu_0} < e^{-\varepsilon k}\biggr) \\ &\qquad = \mathbf{P} \bigl(\mu_0 - \mathbf{E} \mu_0 > (M^k -\mathbf{E} \mu_0)(1-e^{-\varepsilon k}) \bigr) \\ &\qquad\leqslant \mathbf{P} \bigl(|\mu_0 - \mathbf{E} \mu_0| > (M^k -\mathbf{E} \mu_0) (1-e^{-\varepsilon k}) \bigr) \\ &\qquad \leqslant \frac{\mathbf{D}\mu_0}{(M^k - \mathbf{E}\mu_0)^2 (1-e^{-\varepsilon k})^2} \leqslant \frac{\exp\bigl(k(1+o(1) ) G(\vec{p})\bigr)}{\bigl(\exp(k(1+o(1)) G(\vec{p}))\bigr)^2 (1-e^{-\varepsilon k})^2} . \end{aligned}
\end{equation*}
\notag
$$
Таким образом,
$$
\begin{equation*}
\mathbf{P} \biggl(\frac{\ln \xi_k}{k}<{-\varepsilon }\biggr) \leqslant \frac{1}{\exp\bigl(k(1+u_k(\vec{p}))G(\vec{p})\bigr)} \cdot \frac1{(1-e^{-\varepsilon k})^2} ,
\end{equation*}
\notag
$$
где $u_k(\vec{p}) \to 0$ при $k \to \infty$. При фиксированном $\varepsilon>0$ ряд из чисел $\mathbf{P} ((\ln \xi_k)/k<-\varepsilon)$ сходится, так как $G(\vec{p}) > 0$. Следовательно, c вероятностью 1 выполнено неравенство
$$
\begin{equation*}
\liminf_{k \to \infty} \frac{\ln \xi_k}{k} \geqslant -\varepsilon,
\end{equation*}
\notag
$$
откуда в силу (2.16) и произвольности $\varepsilon >0$ следует, что
$$
\begin{equation*}
\frac1{k} \ln{\frac{M^k - \mu_0}{M^k - \mathbf{E} \mu_0}} \overset{\text{п.н.}}{\to} 0
\end{equation*}
\notag
$$
при $k \to \infty$. Учитывая (2.14) и (2.15), получаем, что
$$
\begin{equation*}
\widehat{H} \overset{\text{п.н.}}{\to} G(\vec{p}), \qquad k \to \infty.
\end{equation*}
\notag
$$
Теорема доказана.
3. Доказательство теоремы 2 Как и ранее, $G(\vec{p}) \geqslant H >0$. В силу (2.14), (2.17) и неравенства Чебышёва
$$
\begin{equation}
M^k - \mathbf{E}\mu_0=\exp\bigl(k(1+v_k)G(\vec{p})\bigr),
\end{equation}
\tag{3.1}
$$
$$
\begin{equation}
\begin{split} \alpha &=\mathbf{P}\bigl(|(M^k - \mu_0) - (M^k - \mathbf{E} \mu_0)| \geqslant 2^{-1} \exp(k(1+v_k)G(\vec{p}))\bigr) \\ &\leqslant \frac{\mathbf{D}\mu_0}{2^{-2} \exp\bigl(2k(1+v_k)G(\vec{p})\bigr) } \leqslant \frac{4}{\exp\bigl(kG(\vec{p})(1+w_k)\bigr)}, \end{split}
\end{equation}
\tag{3.2}
$$
где $v_k, w_k \to 0$, $k \to \infty$. Через $A$ обозначим событие
$$
\begin{equation*}
\bigl\{ |(M^k - \mu_0) - (M^k - \mathbf{E} \mu_0)| <2^{-1}\exp\bigl(k(1+v_k)G(\vec{p})\bigr)\bigr \}
\end{equation*}
\notag
$$
и через $\overline{A}$ – его дополнение. В силу (3.1) выполнено соотношение
$$
\begin{equation*}
A \subset \bigl\{ M^k - \mu_0 > 2^{-1}\exp\bigl(k(1+v_k)G(\vec{p})\bigr) \bigr\} \qquad\text{при}\quad k \geqslant k_0.
\end{equation*}
\notag
$$
Для произвольного фиксированного $r > 0$ выполнено равенство
$$
\begin{equation*}
\mathbf{E} \widehat{H}^r=\mathbf{E} \frac{\ln^r (M^k - \mu_0)}{k^r} I_A+ \mathbf{E} \frac{\ln^r (M^k - \mu_0)}{k^r} I_{\overline{A}},
\end{equation*}
\notag
$$
причем
$$
\begin{equation*}
\begin{aligned} \, &\mathbf{E} \frac{\ln^r(M^k - \mu_0)}{k^r} I_A \geqslant \mathbf{E} \frac{\ln^r \bigl( 2^{-1} \exp(k(1+v_k)G(\vec{p})) \bigr) }{k^r} I_A \\ &\qquad = \biggl((1+v_k)G(\vec{p}) - \frac{\ln 2}{k} \biggr)^r \mathbf{P}(A) = \biggl((1+v_k)G(\vec{p}) - \frac{\ln 2}{k} \biggr)^r (1-\alpha), \end{aligned}
\end{equation*}
\notag
$$
где величина $\alpha$ определена в (3.2). Рассуждая аналогично, получаем
$$
\begin{equation*}
\mathbf{E} \frac{\ln^r(M^k - \mu_0)}{k^r} I_A \leqslant \mathbf{E} \frac{\ln^r \bigl( \frac32 \exp(k(1+v_k)G(\vec{p})) \bigr) }{k^r} I_A \leqslant \biggl( (1+v_k)G(\vec{p})+\frac1{k} \ln\frac32 \biggr)^r.
\end{equation*}
\notag
$$
Так как $0 \leqslant \mu_0 \leqslant M^k-1$, то $0 \leqslant k^{-1}\ln(M^k - \mu_0) \leqslant \ln M$ и потому
$$
\begin{equation*}
0 \leqslant \mathbf{E} \frac{\ln^r (M^k - \mu_0)}{k^r} I_{\overline{A}} \leqslant \mathbf{P}(\overline{A})\ln^r M=\alpha \ln^r M.
\end{equation*}
\notag
$$
Значит,
$$
\begin{equation*}
\biggl((1+v_k)G(\vec{p}) - \frac{\ln 2}{k} \biggr)^r (1-\alpha) \leqslant \mathbf{E}\widehat{H}^r \leqslant \biggl( (1+v_k)G(\vec{p})+\frac1{k} \ln\frac32 \biggr)^r+\alpha \ln^r M,
\end{equation*}
\notag
$$
откуда, учитывая (3.2), получаем, что $\mathbf{E}\widehat{H}^r \to G^r(\vec{p})$ при $k \to \infty$. При четных $r \geqslant 2$ выполнены следующие соотношения:
$$
\begin{equation*}
\begin{aligned} \, &\mathbf{E} |\widehat{H} - G(\vec{p})|^r =\mathbf{E} (\widehat{H} - G(\vec{p}))^r=\mathbf{E} \sum_{i=0}^r C_r^i \widehat{H}^i (- G(\vec{p}))^{r-i} \\ &\qquad \to \sum_{i=0}^r C_r^i G^i(\vec{p}) (- G(\vec{p}))^{r-i} =0, \qquad k \to \infty. \end{aligned}
\end{equation*}
\notag
$$
Для произвольного $r > 0$ в силу неравенства Ляпунова имеем:
$$
\begin{equation*}
\bigl( \mathbf{E} |\widehat{H} - G(\vec{p})|^{r} \bigr)^{1/r} \leqslant \bigl( \mathbf{E} |\widehat{H} - G(\vec{p})|^{2[r]+2} \bigr)^{1/(2[r]+2)} \to 0, \qquad k \to \infty.
\end{equation*}
\notag
$$
Теорема 2 доказана.
4. Приложение Лемма 3. Если $M=2$, то
$$
\begin{equation*}
G\bigl((p_1,1-p_1)\bigr)=H\bigl((f(p_1), 1 - f(p_1))\bigr)=H\bigl((f(p_1), f(1 - p_1))\bigr).
\end{equation*}
\notag
$$
Доказательство. При $p_1=1/2$ утверждение леммы проверяется непосредственно. Рассмотрим случай, когда $p_1 \ne1/2$. Из определения $G(\vec{p})$ следует, что $e^{G(\vec{p})} =\min_{h \in [0,1]} g(h)$, где функция $g(h)=(2p_1)^h+(2(1-p_1))^h$ строго выпукла и $g(0)=g(1)$. Минимум функции $g(h)$ на отрезке $[0,1]$ достигается в точке $h_0$, являющейся единственным корнем уравнения $g'(h)=0$. Непосредственная проверка показывает, что $g(h_0)=\exp\bigl(H\bigl((f(p_1), 1 - f(p_1))\bigr)\bigr)$. Тем самым, лемма 3 доказана. Альтернативное доказательство леммы 3 состоит в том, чтобы оценить величины
$$
\begin{equation*}
2^{-k}\sum_{\vec{l} \in Q_{\varepsilon}} C_k^{\vec{l}} \qquad\text{и}\qquad \sum_{\vec{l} \in R\colon p^{\vec{l}} \geqslant (1/2-\varepsilon)^k} 2^{-k}C_k^{\vec{l}},
\end{equation*}
\notag
$$
применив теорему 1 из [11] к случайным величинам, имеющим биномиальное распределение с параметрами $(k, 1/2)$, а затем сравнить полученный результат с в формулами (2.6), (2.7) и (2.11). Такой способ доказательства позволяет сразу заметить, что величина $G(\vec{p})=\ln g(h_0)$ представима в виде композиции функций, одной из которых является $H(\vec{p})$. Лемма 4. Если не все $p_i$ равны, то функция $U(z)=\inf_{h \in \mathbb{R}} \sum_{i=1}^M (zp_i)^h$ непрерывна в точке $z=M$. Доказательство. Положим $u(z,h)=\sum_{i=1}^M (zp_i)^h$. В силу неравенства о средних
$$
\begin{equation*}
\prod_{i=1}^M p_i<\frac1{M^M}.
\end{equation*}
\notag
$$
При $z \to M$ величина
$$
\begin{equation*}
\frac{\partial}{\partial h} u(z,0)=\sum_{i=1}^M \ln (zp_i)
\end{equation*}
\notag
$$
стремится к $\ln \bigl( \prod_{i=1}^M p_i \bigr)+M \ln M<0$, а величина
$$
\begin{equation*}
\frac{\partial}{\partial h} u(z,1)=\sum_{i=1}^M (zp_i)\ln (zp_i) =z(\ln z - H)
\end{equation*}
\notag
$$
стремится к $M(\ln M - H) > 0$. Следовательно, существует такое $\varepsilon \in (0, M)$, что
$$
\begin{equation}
\frac{\partial}{\partial h} u(z,0)<0<\frac{\partial}{\partial h} u(z,1) \qquad \text{при} \quad z \in [M-\varepsilon, M+\varepsilon].
\end{equation}
\tag{4.1}
$$
Далее, положим $V(z)=\inf_{h \in [0,1]} u(z,h)$. Функция $u(z,h)$ непрерывна на множестве $[M-\varepsilon, M+\varepsilon] \times [0,1]$, и, следовательно, равномерно непрерывна на нем. Значит, функция $V(z)= \inf_{h \in [0,1]} u(z,h)$ непрерывна в точке $M$.
При фиксированном $z=z_0$ функция $u(z_0,h)$ является выпуклой функцией переменной $h$, откуда в силу (4.1) следует, что при $z \in [M-\varepsilon, M+\varepsilon]$ выполнено равенство $\inf_{h \in \mathbb{R}} u(z,h)=\inf_{h \in [0,1]} u(z,h)$, т.е. $U(z)= V(z)$. Тем самым, лемма доказана. Автор благодарит А. М. Зубкова за постановку задачи и многочисленные ценные указания.
|
|
|
СПИСОК ЦИТИРОВАННОЙ ЛИТЕРАТУРЫ
|
|
|
1. |
В. Ф. Колчин, Б. А. Севастьянов, В. П. Чистяков, Случайные размещения, Наука, М., 1976 |
2. |
М. И. Тихомирова, В. П. Чистяков, “Асимптотическая нормальность чисел непоявившихся значений $m$-зависимых случайных величин”, Дискрет. матем., 26:2 (2014), 143–158 |
3. |
М. И. Тихомирова, В. П. Чистяков, “Об асимптотике моментов числа непоявившихся $s$-цепочек”, Дискрет. матем., 9:1 (1997), 12–29 |
4. |
В. П. Чистяков, “Об асимптотической нормальности числа пустых ячеек в одной схеме размещения частиц комплектами”, Матем. вопр. криптогр., 5:4 (2014), 129–138 |
5. |
М. И. Тихомирова, “Об асимптотической нормальности числа непоявившихся $s$-цепочек”, Дискрет. матем., 4:2 (1992), 122–129 |
6. |
М. И. Тихомирова, “Предельные распределения числа непоявившихся цепочек одинаковых исходов”, Дискрет. матем., 20:3 (2008), 40–46 |
7. |
Р. Л. Добрушин, “Упрощенный метод экспериментальной оценки энтропии стационарной последовательности”, Теория вероятн. и ее примен., 3:4 (1958), 462–464 |
8. |
Л. Ф. Козаченко, Н. Н. Леоненко, “О статистической оценке энтропии случайного вектора”, Пробл. передачи информ., 23:2 (1987), 9–16 |
9. |
A. B. Tsybakov, E. C. van der Meulen, “Root-$n$ consistent estimators of entropy for densities with unbounded support”, Scand. J. Statist., 23:1 (1996), 75–83 |
10. |
P. H. Algoet, T. M. Cover, “A sandwich proof of the Shannon–McMillan–Breiman theorem”, Ann. Probab., 16:2 (1988), 899–909 |
11. |
А. М. Зубков, А. А. Серов, “Полное доказательство универсальных неравенств для функции распределения биномиального закона”, Теория вероятн. и ее примен., 57:3 (2012), 597–602 |
Образец цитирования:
М. П. Савелов, “Об одном функционале от числа появившихся неперекрывающихся цепочек исходов полиномиальной схемы и его связи с энтропией”, Матем. заметки, 114:3 (2023), 390–403; Math. Notes, 114:3 (2023), 339–350
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/mzm13868https://doi.org/10.4213/mzm13868 https://www.mathnet.ru/rus/mzm/v114/i3/p390
|
|