Н. С. Лагутина, К. В. Лагутина, А. М. Бредерман, Н. Н. Касаткина, “Классификация текстов по уровням CEFR с использованием методов машинного обучения и языковой модели BERT”, Модел. и анализ информ. систем, 30:3 (2023), 202

Моделирование и анализ информационных систем

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Общая информация
	Последний выпуск
	Архив
	Импакт-фактор

	Поиск публикаций
	Поиск ссылок

	RSS
	Последний выпуск
	Текущие выпуски
	Архивные выпуски
	Что такое RSS

Модел. и анализ информ. систем:
Год:
Том:
Выпуск:
Страница:
	Найти

Персональный вход:
Логин:
Пароль:
	Запомнить пароль
	Войти
	Забыли пароль?
	Регистрация

Моделирование и анализ информационных систем, 2023, том 30, номер 3, страницы 202–213
DOI: https://doi.org/10.18255/1818-1015-2023-3-202-213 (Mi mais799)

Эта публикация цитируется в 1 научной статье (всего в 1 статье)

Theory of data

Классификация текстов по уровням CEFR с использованием методов машинного обучения и языковой модели BERT

Н. С. Лагутина, К. В. Лагутина, А. М. Бредерман, Н. Н. Касаткина

Ярославский государственный университет им. П.Г. Демидова, ул. Советская, д. 14, г. Ярославль, 150003 Россия

PDF полного текста (525 kB) Список цитирования (1)

Список литературы:

PDF

HTML

DOI: https://doi.org/10.18255/1818-1015-2023-3-202-213

Аннотация: В данной работе представлено исследование задачи автоматической классификации коротких связных текстов (эссе) на английском языке по уровням международной шкалы CEFR. Определение уровня текста на естественном языке является важной составляющей оценки знаний учащихся, в том числе для проверки открытых заданий в системах электронного обучения. Для решения этой задачи были рассмотрены векторные модели текста на основе стилометрических числовых характеристик уровня символов, слов, структуры предложения. Классификация полученных векторов осуществлялась стандартными классификаторами машинного обучения. В статье приведены результаты трёх наиболее успешных: Support Vector Classifier, Stochastic Gradient Descent Classifier, LogisticRegression. Оценкой качества послужили точность, полнота и F-мера. Для экспериментов были выбраны два открытых корпуса текстов CEFR Levelled English Texts и BEA-2019. Лучшие результаты классификации по шести уровням и подуровням CEFR от A1 до C2 показал Support Vector Classifier с F-мерой 67 % для корпуса CEFR Levelled English Texts. Этот подход сравнивался с применением языковой модели BERT (шесть различных вариантов). Лучшая модель bert-base-cased обеспечила значение F-меры 69 %. Анализ ошибок классификации показал, что большая их часть допущена между соседними уровнями, что вполне объяснимо с точки зрения предметной области. Кроме того, качество классификации сильно зависело от корпуса текстов, что продемонстрировало существенное различие F-меры в ходе применения одинаковых моделей текста для разных корпусов. В целом, полученные результаты показали эффективность автоматического определения уровня текста и возможность его практического применения.

Ключевые слова: автоматическая обработка текста, классификация текста, CEFR, BERT.

Финансовая поддержка	Номер гранта
Министерство науки и высшего образования Российской Федерации	GM-2023-123061600058-4
Исследование выполнено за счет средств Программы развития ЯрГУ до 2030 года, проект № GM-2023-123061600058-4 «Разработка автоматизированной системы развития медиативной компетенции в языковом образовании».

Поступила в редакцию: 14.08.2023
Исправленный вариант: 25.08.2023
Принята в печать: 30.08.2023

Тип публикации: Статья

УДК: 004.912

MSC: 93A30, 68Q60

Образец цитирования: Н. С. Лагутина, К. В. Лагутина, А. М. Бредерман, Н. Н. Касаткина, “Классификация текстов по уровням CEFR с использованием методов машинного обучения и языковой модели BERT”, Модел. и анализ информ. систем, 30:3 (2023), 202–213

Цитирование в формате AMSBIB

\RBibitem{LagLagBre23}

\by Н.~С.~Лагутина, К.~В.~Лагутина, А.~М.~Бредерман, Н.~Н.~Касаткина

\paper Классификация текстов по уровням CEFR с использованием методов машинного обучения и языковой модели BERT

\jour Модел. и анализ информ. систем

\yr 2023

\vol 30

\issue 3

\pages 202--213

\mathnet{http://mi.mathnet.ru/mais799}

\crossref{https://doi.org/10.18255/1818-1015-2023-3-202-213}

Образцы ссылок на эту страницу:

https://www.mathnet.ru/rus/mais799

https://www.mathnet.ru/rus/mais/v30/i3/p202

Эта публикация цитируется в следующих 1 статьяx:

Citing articles in Google Scholar: Russian citations, English citations
Related articles in Google Scholar: Russian articles, English articles

Моделирование и анализ информационных систем

Статистика просмотров:
Страница аннотации:	52
PDF полного текста:	18
Список литературы:	15

Что такое QR-код?

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы