|
Theory of data
Автоматизированный поиск и анализ стилометрических характеристик, описывающих стиль прозы 19–21 веков
К. В. Лагутина, А. М. Манахова Ярославский государственный университет им. П. Г. Демидова, ул. Советская, 14, г. Ярославль, 150003 Россия
Аннотация:
Статья посвящена сравнению стилометрических характеристик нескольких уровней, являющихся маркерами стиля прозаического текста, и анализу стилистических изменений русской и британской прозы 19–21 веков. Стилометрические характеристики включают в себя низкоуровневые характеристики, основанные на словах и символах, и высокоуровневые — ритмические. Подобные характеристики моделируют стиль текста и являются индикаторами времени его создания.
Вычисление всех характеристик происходит полностью автоматически, что позволяет проводить крупные эксперименты с художественными произведениями большого объёма и ускоряет работу эксперта-лингвиста. Для подсчёта стилометрических характеристик, в том числе основанных на результатах поиска ритмических средств, используется программа ProseRhythmDetector. В результате её работы каждый текст представляется в виде набора одних и тех же характеристик трёх уровней: символов, слов, ритма. Тексты объединяются по десятилетиям, для каждого десятилетия находятся средние значения стилометрических характеристик. Полученные модели десятилетий сравниваются при помощи стандартных метрик близости, результаты сравнения визуализируются в виде тепловых карт и дендрограмм. Эксперименты с двумя корпусами русских и британских текстов показывают, что в течение 19–21 веков появляются как общие тенденции изменения стиля для обоих корпусов, например, уменьшение количества ритмических средств в расчёте на одно предложение, так и собственные для каждого языка, например, динамика изменения длин слов и предложений. Стилометрические характеристики всех уровней выявляют схожесть стиля текстов, опубликованных в одном веке. Также характеристики трёх уровней в комплексе лучше демонстрируют уникальность каждого десятилетия, чем характеристики конкретного уровня. Это исследование показывает значимость стилометрических характеристик как маркеров стиля различных эпох и позволяет выявить тенденции изменения стиля на протяжении нескольких веков.
Ключевые слова:
ритм текста, анализ ритма, обработка естественного языка, стилометрия, ритмические средства, автоматизация.
Поступила в редакцию: 14.05.2020 Исправленный вариант: 08.06.2020 Принята в печать: 10.06.2020
Образец цитирования:
К. В. Лагутина, А. М. Манахова, “Автоматизированный поиск и анализ стилометрических характеристик, описывающих стиль прозы 19–21 веков”, Модел. и анализ информ. систем, 27:3 (2020), 330–343
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/mais719 https://www.mathnet.ru/rus/mais/v27/i3/p330
|
|