|
Эта публикация цитируется в 3 научных статьях (всего в 3 статьях)
Научный отдел
Информатика
Skill-based clustering algorithm for online job advertisements
[Алгоритм кластеризации на основе навыков для онлайн-объявлений о вакансиях]
A. A. Ternikov HSE University "— St. Petersburg, 3A Kantemirovskaya St., Saint Petersburg 194100, Russia
Аннотация:
Кластеризация на основе категориальных данных — одна из сложных задач интеллектуального анализа данных. В статье представлен алгоритм кластеризации вакансий с использованием информации о необходимых навыках. На первом этапе предлагается процедура стандартизации неструктурированной текстовой информации. Полученные процедуры включают этапы идентификации синонимов и общих терминов на основе сочетания подходов TF-IDF и $n$-граммов для переведенных и транслитерированных терминов. Затем предложенный алгоритм проверяется на данных, полученных с межрегиональной платформы online-рекрутмента. Алгоритм обеспечивает проверку количества извлеченных кластеров, включая иерархический кластерный анализ и коалиционный поиск Гирвана – Ньюмана. Результирующее количество кластеров проверяется при помощи внутренних оценок достоверности и предлагает непересекающиеся наборы терминов, которые описывают определенные группы профессий в секторе информационных технологий. На основе полученных кластеров хорошо совпадающие и несовпадающие термины идентифицируются с использованием индексов Силуэта (Silhouette Index). Указанные в статье процедуры позволяют минимизировать участие человека в процессе кластеризации и создавать интерпретируемые кластеры для последующего анализа. В целом, подход к идентификации кластеров на основе категориальных данных представлен и протестирован на выборке онлайн-объявлений о вакансиях. Он имеет большой потенциал использования для задач формирования факторов в исследованиях машинного обучения и для прикладных исследований рынка труда в экономике.
Ключевые слова:
онлайн-объявления о вакансиях, набор навыков в ИТ, несоответствие профессий, кластеризация вакансий, обработка естественного языка.
Поступила в редакцию: 07.08.2021 Принята в печать: 08.02.2022
Образец цитирования:
A. A. Ternikov, “Skill-based clustering algorithm for online job advertisements”, Изв. Сарат. ун-та. Нов. сер. Сер.: Математика. Механика. Информатика, 22:2 (2022), 250–265
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/isu939 https://www.mathnet.ru/rus/isu/v22/i2/p250
|
Статистика просмотров: |
Страница аннотации: | 623 | PDF полного текста: | 206 | Список литературы: | 42 |
|