|
Эта публикация цитируется в 6 научных статьях (всего в 6 статьях)
Информатика
Applying clustering analysis for discovering time series heterogeneity using Saint Petersburg morbidity rate as an illustration
[Методы кластерного анализа как способ выявления неоднородности временных рядов на примере показателя заболеваемости в Санкт-Петербурге]
V. M. Bure, K. Yu. Staroverova St. Petersburg State University, 7–9, Universitetskaya nab.,
St. Petersburg, 199034, Russian Federation
Аннотация:
Кластеризация относится к методам машинного обучения без учителя и широко применяется при анализе данных для распределения объектов по группам (кластерам) таким образом, чтобы объекты одной группы оказались более схожими, чем объекты разных групп. Важными вопросами в кластерном анализе являются определение числа кластеров, выделение устойчивых кластеров, выбор расстояния между объектами и подхода кластеризации. Часто производится кластеризация многомерных объектов, которые характеризуются вектором случайных величин, и их мера сходства подбирается исходя из условий и особенностей задачи. Но объектами исследования многих областей, таких как экономика, геология, медицина, социология, часто являются не вектора случайных величин, а случайные процессы, что вновь приводит исследователей к проблеме построения меры сходства, учитывающей зависимость данных от времени. Проведено исследование показателя общей заболеваемости в Санкт-Петербурге с 1999 по 2014 г. и построена кластеризация 18 районов города. Продемонстрированы результаты кластеризации с использованием нескольких мер сходства, в том числе рассмотрены и меры сходства многомерных временных рядов. Кластеризация многомерных временных рядов может происходить двумя способами: первый — представить многомерный временной ряд как несколько одномерных, второй состоит в кластеризации самих многомерных рядов и учитывает взаимосвязи, которые могут присутствовать между переменными ряда. Кластеризация произведена с помощью библиотек TSclust, tseries пакета R; недостающие алгоритмы реализованы также на языке R. В результате кластеризации районов Санкт-Петербурга с применением нескольких мер сходства выявлено три устойчивых кластера, и семь районов не были отнесены к определенному кластеру из-за того, что они меняли свое расположение в зависимости от выбора меры сходства. Библиогр. 10 назв. Ил. 2.
Ключевые слова:
кластеризация, мера схожести временных рядов, устойчивость кластеров.
Поступила: 17 августа 2016 г. Принята к печати: 29 сентября 2016 г.
Образец цитирования:
V. M. Bure, K. Yu. Staroverova, “Applying clustering analysis for discovering time series heterogeneity using Saint Petersburg morbidity rate as an illustration”, Вестн. С.-Петербург. ун-та. Сер. 10. Прикл. матем. Информ. Проц. упр., 2016, no. 4, 44–50
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/vspui309 https://www.mathnet.ru/rus/vspui/y2016/i4/p44
|
|