Моделирование и анализ информационных систем
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Импакт-фактор

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Модел. и анализ информ. систем:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Моделирование и анализ информационных систем, 2023, том 30, номер 1, страницы 86–100
DOI: https://doi.org/10.18255/1818-1015-2023-1-86-100
(Mi mais792)
 

Эта публикация цитируется в 1 научной статье (всего в 1 статье)

Theory of data

Разметка корпусов текстов по тональности и наличию иронии в рамках проекта гражданской науки

И. В. Парамонов, А. Ю. Полетаев

Ярославский государственный университет им. П. Г. Демидова, ул. Советская, д. 14, г. Ярославль, 150003 Россия
Список литературы:
Аннотация: Статья посвящена построению корпуса предложений, размеченных по общей тональности на 4 класса (положительный, отрицательный, нейтральный, смешанный), корпуса фразеологизмов, размеченных по тональности на 3 класса (положительный, отрицательный, нейтральный), и корпуса предложений, размеченных по наличию или отсутствию иронии. Разметку проводили волонтёры в рамках проекта «Готовим тексты алгоритмам» на портале «Люди науки».
На основе имеющихся знаний о предметной области для каждой из задач были составлены инструкции для разметчиков. Также была выработана методика статистической обработки результатов разметки, основанная на анализе распределений и показателей согласия оценок, выставленных разными разметчиками. Для разметки предложений по наличию иронии и фразеологизмов по тональности показатели согласия оказались достаточно высокими (доля полного совпадения 0.60–0.99), при разметке предложений по общей тональности согласие оказалось слабым (доля полного совпадения 0.40), по-видимому, из-за более высокой сложности задачи. Также было показано, что результаты работы автоматических алгоритмов анализа тональности предложений улучшаются на 12–13 % при использовании корпуса, относительно предложений которого сошлись мнения всех разметчиков (3–5 человек), по сравнению с корпусом с разметкой только одним волонтёром.
Ключевые слова: анализ тональности, текстовый корпус, статистический анализ, показатели согласия, гражданская наука.
Финансовая поддержка
Исследование выполнено в рамках проекта гражданской науки ЯрГУ № CS-02/2022.
Поступила в редакцию: 03.02.2023
Исправленный вариант: 24.02.2023
Принята в печать: 27.02.2023
Тип публикации: Статья
УДК: 004.912
MSC: 68T50
Образец цитирования: И. В. Парамонов, А. Ю. Полетаев, “Разметка корпусов текстов по тональности и наличию иронии в рамках проекта гражданской науки”, Модел. и анализ информ. систем, 30:1 (2023), 86–100
Цитирование в формате AMSBIB
\RBibitem{ParPol23}
\by И.~В.~Парамонов, А.~Ю.~Полетаев
\paper Разметка корпусов текстов по тональности и наличию иронии в рамках проекта гражданской науки
\jour Модел. и анализ информ. систем
\yr 2023
\vol 30
\issue 1
\pages 86--100
\mathnet{http://mi.mathnet.ru/mais792}
\crossref{https://doi.org/10.18255/1818-1015-2023-1-86-100}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/mais792
  • https://www.mathnet.ru/rus/mais/v30/i1/p86
  • Эта публикация цитируется в следующих 1 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Моделирование и анализ информационных систем
    Статистика просмотров:
    Страница аннотации:33
    PDF полного текста:17
    Список литературы:7
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024