|
Эта публикация цитируется в 5 научных статьях (всего в 5 статьях)
МОДЕЛИ ЭКОНОМИЧЕСКИХ И СОЦИАЛЬНЫХ СИСТЕМ
Оценка качества кластеризации панельных данных с использованием методов Монте-Карло (на примере данных российской региональной экономики)
И. Л. Кирилюкa, О. В. Сенькоb a Институт экономики Российской академии наук,
Россия, 117218, г. Москва, Нахимовский проспект, д. 32
b Федеральный исследовательский центр «Информатика и управление» Российской академии наук,
Россия, 119333, г. Москва, ул. Вавилова, д. 44/2
Аннотация:
В работе рассматривается метод исследования панельных данных, основанный на использовании агломеративной иерархической кластеризации — группировки объектов на основании сходства и различия их признаков в иерархию вложенных друг в друга кластеров. Применялись 2 альтернативных способа вычисления евклидовых расстояний между объектами — расстояния между усредненными по интервалу наблюдений значениями и расстояния с использованием данных за все рассматриваемые годы. Сравнивались 3 альтернативных метода вычисления расстояний между кластерами. В первом случае таким расстоянием считается расстояние между ближайшими элементами из двух кластеров, во втором — среднее по парам элементов, в третьем — расстояние между наиболее удаленными элементами. Исследована эффективность использования двух индексов качества кластеризации — индекса Данна и Силуэта для выбора оптимального числа кластеров и оценки статистической значимости полученных решений. Способ оценивания статистической достоверности кластерной структуры заключался в сравнении качества кластеризации, на реальной выборке с качеством кластеризаций на искусственно сгенерированных выборках панельных данных с теми же самыми числом объектов, признаков и длиной рядов. Генерация производилась из фиксированного вероятностного распределения. Использовались способы симуляции, имитирующие гауссов белый шум и случайное блуждание. Расчеты с индексом Силуэт показали, что случайное блуждание характеризуется не только ложной регрессией, но и ложной кластеризацией. Кластеризация принималась достоверной для данного числа выделенных кластеров, если значение индекса на реальной выборке оказывалось больше значения 95%-ного квантиля для искусственных данных. В качестве выборки реальных данных использован набор временных рядов показателей, характеризующих производство в российских регионах. Для этих данных только Силуэт показывает достоверную кластеризацию на уровне $p< 0.05$. Расчеты также показали, что значения индексов для реальных данных в целом ближе к значениям для случайных блужданий, чем для белого шума, но имеют значимые отличия и от тех, и от других. Визуально можно выделить скопления близко расположенных друг от друга в трехмерном признаковом пространстве точек, выделяемые также в качестве кластеров применяемым алгоритмом иерархической кластеризации.
Ключевые слова:
достоверность кластеризации, панельные данные, мезоэкономика, экономика регионов.
Поступила в редакцию: 04.05.2020 Исправленный вариант: 02.09.2020 Принята в печать: 18.09.2020
Образец цитирования:
И. Л. Кирилюк, О. В. Сенько, “Оценка качества кластеризации панельных данных с использованием методов Монте-Карло (на примере данных российской региональной экономики)”, Компьютерные исследования и моделирование, 12:6 (2020), 1501–1513; Computer Research and Modeling, 12:6 (2020), e1501–e1513
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/crm862 https://www.mathnet.ru/rus/crm/v12/i6/p1501
|
Статистика просмотров: |
Страница аннотации: | 97 | PDF русской версии: | 32 | PDF английской версии: | 26 | Список литературы: | 17 |
|