Моделирование и анализ информационных систем
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Импакт-фактор

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Модел. и анализ информ. систем:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Моделирование и анализ информационных систем, 2022, том 29, номер 4, страницы 316–332
DOI: https://doi.org/10.18255/1818-1015-2022-4-316-332
(Mi mais782)
 

Theory of data

Поиск упоминаний экологических практик в социальных сетях с помощью методов классификации текстов

А. В. Глазковаa, О. В. Захароваa, А. В. Захаровa, Н. Н. Москвинаa, Т. Р. Еникеевb, А. Н. Ходыревa, В. К. Боровинскийa, И. Н. Пупышеваa

a Тюменский государственный университет, ул. Володарского, д. 6, г. Тюмень, 625003 Россия
b Новосибирский государственный университет, ул. Пирогова, д. 1, г. Новосибирск, 630090 Россия
Список литературы:
Аннотация: Работа посвящена решению задачи поиска упоминаний экологических практик в текстах социальных сетей. Авторами составлен корпус текстов экологических сообществ социальной сети ВКонтакте, снабженный экспертной разметкой упоминаний девяти видов экологических практик. Предложен полуавтоматический подход к сбору дополнительных текстов для уменьшения несбалансированности видов экологических практик, представленных в корпусе. Подход включает в себя следующие этапы: определение наиболее частотных слов, характеризующих упоминания практик; автоматический сбор текстов, включающих в себя найденные частотные слова; экспертная проверка и фильтрация собранных текстов. Проведено сравнение четырех моделей машинного обучения для поиска упоминаний практик на двух вариантах корпуса: исходном и дополненном. Лучший усредненный показатель F-меры (81.32%) достигнут моделью Conversational RuBERT, дообученной на текстах дополненного корпуса. Данная модель выбрана в качестве основы для реализации прототипа приложения для поиска упоминаний экологических практик, реализованного в форме чат-бота Telegram.
Ключевые слова: классификация текстов, анализ социальных сетей, машинное обучение, BERT, экологические практики, обработка естественного языка.
Финансовая поддержка Номер гранта
Министерство науки и высшего образования Российской Федерации
Исследование выполнено в рамках работы на Большой математической мастерской, организованной Математическим центром в Академгородке в 2022 году.
Поступила в редакцию: 06.10.2022
Исправленный вариант: 11.11.2022
Принята в печать: 16.11.2022
Тип публикации: Статья
УДК: 004.912
MSC: 68T50
Образец цитирования: А. В. Глазкова, О. В. Захарова, А. В. Захаров, Н. Н. Москвина, Т. Р. Еникеев, А. Н. Ходырев, В. К. Боровинский, И. Н. Пупышева, “Поиск упоминаний экологических практик в социальных сетях с помощью методов классификации текстов”, Модел. и анализ информ. систем, 29:4 (2022), 316–332
Цитирование в формате AMSBIB
\RBibitem{GlaZakZak22}
\by А.~В.~Глазкова, О.~В.~Захарова, А.~В.~Захаров, Н.~Н.~Москвина, Т.~Р.~Еникеев, А.~Н.~Ходырев, В.~К.~Боровинский, И.~Н.~Пупышева
\paper Поиск упоминаний экологических практик в социальных сетях с помощью методов классификации текстов
\jour Модел. и анализ информ. систем
\yr 2022
\vol 29
\issue 4
\pages 316--332
\mathnet{http://mi.mathnet.ru/mais782}
\crossref{https://doi.org/10.18255/1818-1015-2022-4-316-332}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/mais782
  • https://www.mathnet.ru/rus/mais/v29/i4/p316
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Моделирование и анализ информационных систем
    Статистика просмотров:
    Страница аннотации:58
    PDF полного текста:24
    Список литературы:5
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024