|
Эта публикация цитируется в 4 научных статьях (всего в 4 статьях)
Методы управления и обработки информации
Подход к проведению классификации текстов на основании возрастных групп их адресатов
А. В. Глазкова Тюменский государственный университет (ТюмГУ)
Аннотация:
В статье рассматривается новый подход к выполнению классификации текстов, учитывающий наличие различных типов классификационных признаков (бинарных, номинальных, порядковых и интервальных).
Особенность представленного подхода состоит в поэтапном проведении классификации, которое дает возможность не приводить разнотипные признаки, характеризующие текст, к единому диапазону. Также в статье предлагается набор классификационных признаков для проведения классификации русскоязычных текстов на основании их предполагаемой возрастной аудитории.
В работе описывается вычислительный эксперимент с использованием текстов, включенных в Национальный корпус русского языка. Выборка включает в себя заведомо качественные и максимально разнообразные тексты, написанные на русском языке. Документы, входящие в состав рассматриваемой выборки, разделены в соответствии с мнениями экспертов-лингвистов на две категории — взрослые и детские. Таким образом, для обучения и тестирования использовались тексты, размеченные экспертами.
В статье приведены значения точности классификации текстов, полученные в результате проведения серии экспериментов по автоматическому определению возрастных категорий адресатов текста (для кого написан текст — для детей или для взрослых).
Ключевые слова:
извлечение информации; классификация текстов; обработка естественного языка; признаки текста.
Образец цитирования:
А. В. Глазкова, “Подход к проведению классификации текстов на основании возрастных групп их адресатов”, Тр. СПИИРАН, 52 (2017), 51–69
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/trspy944 https://www.mathnet.ru/rus/trspy/v52/p51
|
Статистика просмотров: |
Страница аннотации: | 132 | PDF полного текста: | 82 |
|