Моделирование и анализ информационных систем
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Импакт-фактор

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Модел. и анализ информ. систем:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Моделирование и анализ информационных систем, 2024, том 31, номер 2, страницы 206–220
DOI: https://doi.org/10.18255/1818-1015-2024-2-206-220
(Mi mais825)
 

Artificial intelligence

Ключевые слова, морфемные разборы и синтаксические деревья в задаче оценки сложности текста

Д. А. Морозовa, И. А. Смальa, Т. А. Гариповa, А. В. Глазковаb

a Новосибирский национальный исследовательский государственный университет, Новосибирск, Россия
b Тюменский государственный университет, Тюмень, Россия
Список литературы:
Аннотация: Задача оценки сложности текста является актуальной прикладной задачей с потенциальным применением при составлении юридических документов, редактуре учебников и подборе книг для внеклассного чтения. Способы формирования признакового описания при автоматической оценке сложности текста достаточно разнообразны. Ранние подходы опирались на легко вычислимые величины, такие как средняя длина предложения или среднее число слогов в слове. С развитием алгоритмов обработки естественного языка расширяется и пространство используемых признаков. В рамках настоящей работы мы исследовали три группы признаков: 1) автоматически генерируемые ключевые слова, 2) сведения об особенностях морфемного разбора слов и 3) информацию о разнообразии, разветвлённости и глубине синтаксических деревьев. Для генерации ключевых слов использован алгоритм RuTermExtract, для генерации морфемных разборов — свёрточная нейросетевая модель, для генерации синтаксических деревьев — модель Stanza, обученная на корпусе SynTagRus. Мы провели сравнение на материале четырёх различных моделей машинного обучения и четырёх аннотированных русскоязычных корпусов текстов. Использованные корпусы различаются как по домену, так и по парадигме разметки, благодаря чему полученные результаты объективнее отражают реальную связь характеристик и сложности текста. Использование ключевые слова показало в среднем результат хуже, чем использование тематических маркеров, получаемых при помощи латентного размещения Дирихле. Морфемные характеристики оказались в большинстве ситуаций эффективнее ранее описанных способов оценки лексической сложности текста: учёта частотности слов и встречаемости словообразовательных паттернов. Использование обширного набора синтаксических признаков позволило в большинстве случаев улучшить качество работы нейросетевых моделей в сравнении с ранее описанным набором.
Ключевые слова: сложность текста, генерация ключевых слов, генерация морфемных разборов, синтаксические деревья.
Поступила в редакцию: 27.02.2024
Исправленный вариант: 29.03.2024
Принята в печать: 08.05.2024
Тип публикации: Статья
УДК: 004.912
MSC: 68T50
Образец цитирования: Д. А. Морозов, И. А. Смаль, Т. А. Гарипов, А. В. Глазкова, “Ключевые слова, морфемные разборы и синтаксические деревья в задаче оценки сложности текста”, Модел. и анализ информ. систем, 31:2 (2024), 206–220
Цитирование в формате AMSBIB
\RBibitem{MorSmaGar24}
\by Д.~А.~Морозов, И.~А.~Смаль, Т.~А.~Гарипов, А.~В.~Глазкова
\paper Ключевые слова, морфемные разборы и синтаксические деревья в задаче оценки сложности текста
\jour Модел. и анализ информ. систем
\yr 2024
\vol 31
\issue 2
\pages 206--220
\mathnet{http://mi.mathnet.ru/mais825}
\crossref{https://doi.org/10.18255/1818-1015-2024-2-206-220}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/mais825
  • https://www.mathnet.ru/rus/mais/v31/i2/p206
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Моделирование и анализ информационных систем
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2025