Известия Саратовского университета. Новая серия. Серия: Математика. Механика. Информатика
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Импакт-фактор

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Изв. Сарат. ун-та. Нов. сер. Сер.: Математика. Механика. Информатика:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Известия Саратовского университета. Новая серия. Серия: Математика. Механика. Информатика, 2022, том 22, выпуск 2, страницы 250–265
DOI: https://doi.org/10.18500/1816-9791-2022-22-2-250-265
(Mi isu939)
 

Эта публикация цитируется в 3 научных статьях (всего в 3 статьях)

Научный отдел
Информатика

Skill-based clustering algorithm for online job advertisements
[Алгоритм кластеризации на основе навыков для онлайн-объявлений о вакансиях]

A. A. Ternikov

HSE University "— St. Petersburg, 3A Kantemirovskaya St., Saint Petersburg 194100, Russia
Список литературы:
Аннотация: Кластеризация на основе категориальных данных — одна из сложных задач интеллектуального анализа данных. В статье представлен алгоритм кластеризации вакансий с использованием информации о необходимых навыках. На первом этапе предлагается процедура стандартизации неструктурированной текстовой информации. Полученные процедуры включают этапы идентификации синонимов и общих терминов на основе сочетания подходов TF-IDF и $n$-граммов для переведенных и транслитерированных терминов. Затем предложенный алгоритм проверяется на данных, полученных с межрегиональной платформы online-рекрутмента. Алгоритм обеспечивает проверку количества извлеченных кластеров, включая иерархический кластерный анализ и коалиционный поиск Гирвана – Ньюмана. Результирующее количество кластеров проверяется при помощи внутренних оценок достоверности и предлагает непересекающиеся наборы терминов, которые описывают определенные группы профессий в секторе информационных технологий. На основе полученных кластеров хорошо совпадающие и несовпадающие термины идентифицируются с использованием индексов Силуэта (Silhouette Index). Указанные в статье процедуры позволяют минимизировать участие человека в процессе кластеризации и создавать интерпретируемые кластеры для последующего анализа. В целом, подход к идентификации кластеров на основе категориальных данных представлен и протестирован на выборке онлайн-объявлений о вакансиях. Он имеет большой потенциал использования для задач формирования факторов в исследованиях машинного обучения и для прикладных исследований рынка труда в экономике.
Ключевые слова: онлайн-объявления о вакансиях, набор навыков в ИТ, несоответствие профессий, кластеризация вакансий, обработка естественного языка.
Поступила в редакцию: 07.08.2021
Принята в печать: 08.02.2022
Тип публикации: Статья
УДК: 51-77
Язык публикации: английский
Образец цитирования: A. A. Ternikov, “Skill-based clustering algorithm for online job advertisements”, Изв. Сарат. ун-та. Нов. сер. Сер.: Математика. Механика. Информатика, 22:2 (2022), 250–265
Цитирование в формате AMSBIB
\RBibitem{Ter22}
\by A.~A.~Ternikov
\paper Skill-based clustering algorithm for online job advertisements
\jour Изв. Сарат. ун-та. Нов. сер. Сер.: Математика. Механика. Информатика
\yr 2022
\vol 22
\issue 2
\pages 250--265
\mathnet{http://mi.mathnet.ru/isu939}
\crossref{https://doi.org/10.18500/1816-9791-2022-22-2-250-265}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/isu939
  • https://www.mathnet.ru/rus/isu/v22/i2/p250
  • Эта публикация цитируется в следующих 3 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Известия Саратовского университета. Новая серия. Серия: Математика. Механика. Информатика
    Статистика просмотров:
    Страница аннотации:623
    PDF полного текста:206
    Список литературы:42
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024