Моделирование и анализ информационных систем
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Импакт-фактор

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Модел. и анализ информ. систем:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Моделирование и анализ информационных систем, 2022, том 29, номер 3, страницы 266–279
DOI: https://doi.org/10.18255/1818-1015-2022-3-266-279
(Mi mais780)
 

Theory of data

Классификация статей из средств массовой информации по категориям и релевантности предметной области

В. Д. Ларионов, И. В. Парамонов

Ярославский государственный университет им. П. Г. Демидова, ул. Советская, д. 14, г. Ярославль, 150003 Россия
Список литературы:
Аннотация: Исследование посвященно классификации новостных статей о Ярославском государственном университете им. П. Г. Демидова (ЯрГУ) на 4 категории: общество, образование, наука и технологии, нерелевантная.
Предложенные подходы основаны на нейронной сети BERT и методах машинного обучения SVM, Logistic Regression, K-Neighbors, Random Forest в сочетании с эмбеддингами различных видов: Word2Vec, FastText, TF-IDF, GPT-3. Также предложены способы предобработки текстов для достижения более высокого качества классификации. В ходе экспериментов установлено, что лучше всего с задачей справляется SVM-классификатор с эмбеддингом TF-IDF, обученный на полных текстах статей с заголовками. Его значения микро- и макро-F-меры достигают 0.8214 и 0.8308 соответственно. Сопоставимые результаты показывает нейронная сеть BERT, обученная на фрагментах абзацев с упоминанием ЯрГУ, из которых брались 128 слов из начала и 384 слова из конца. Её показатели микро- и макро-F-меры достигают 0.8304 и 0.8181 соответственно. Таким образом, установлено, что абзацев с упоминанием конкретной организации оказывается достаточно, чтобы классификация по категориям была эффективной.
Ключевые слова: классификация по категориям, автоматическая обработка текстов, предметная область, русский язык, новостные статьи.
Финансовая поддержка
Работа выполнена в рамках инициативной НИР ЯрГУ им. П. Г. Демидова № VIP-016.
Поступила в редакцию: 05.06.2022
Исправленный вариант: 23.08.2022
Принята в печать: 26.08.2022
Тип публикации: Статья
УДК: 004.912
Образец цитирования: В. Д. Ларионов, И. В. Парамонов, “Классификация статей из средств массовой информации по категориям и релевантности предметной области”, Модел. и анализ информ. систем, 29:3 (2022), 266–279
Цитирование в формате AMSBIB
\RBibitem{LarPar22}
\by В.~Д.~Ларионов, И.~В.~Парамонов
\paper Классификация статей из средств массовой информации по категориям и релевантности предметной области
\jour Модел. и анализ информ. систем
\yr 2022
\vol 29
\issue 3
\pages 266--279
\mathnet{http://mi.mathnet.ru/mais780}
\crossref{https://doi.org/10.18255/1818-1015-2022-3-266-279}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/mais780
  • https://www.mathnet.ru/rus/mais/v29/i3/p266
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Моделирование и анализ информационных систем
    Статистика просмотров:
    Страница аннотации:84
    PDF полного текста:34
    Список литературы:19
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024