|
Here we go again: modern GEC models need help with spelling
[Проблема валидации современных систем исправления грамматических ошибок: случай ошибок на уровне символов]
V. M. Starchenko, A. M. Starchenko National Research University Higher School of Economics
Аннотация:
Исследование сосредотачивается на проблеме того, как современные системы исправления грамматических ошибок обрабатывают ошибки на уровне слова. Работа обсуждает, как подобные ошибки могут взаимодействовать с эффективностью модели, и оценивает, как модели с разными архитектурами справляется с ними. Делается вывод о том, что специализированные системы исправления грамматических ошибок сталкиваются с проблемами при исправлении ошибок, приводящих к созданию несуществующих слов, и что предобработка с помощью простой системой обработки подобных ошибок значительно улучшает общую эффективность модели. Для оценки этого работа модели тестируется для нескольких валидационных датасетах. Вдобавок к валидационному датасету соревнования CoNLL-2014 в работе предлагается синтетический датасет с повышенной плотностью ошибок на уровне слова. На основании сравнения эффективности модели на двух датасетах, работа делает вывод о том, что валидационные датасеты с высокой плотностью ошибок, представляющих проблему для моделей, — это полезный инструмент для сравнения моделей. Кроме того, работа указывает на случаи некорректной аннотации несуществующих слов в разметке экспертов и предлагает очищенную версию датасета. В отличие от специализированных систем исправления грамматических ошибок, модель LLaMA, используемся для задачи исправления грамматических ошибок хорошо справляется с ошибками на уровне слова. Мы предполагаем гипотезу, в соответствии с которой этот результат объясняется тем фактом, что эта модель не обучается на специальной аннотированной выборке, содержащей ошибки, а получает в качестве входа грамматически и орфографически корректные тексты.
Ключевые слова:
автоматическое исправление грамматических ошибок, валидация, спеллчек, предобработка, синтетические датасеты
Образец цитирования:
V. M. Starchenko, A. M. Starchenko, “Here we go again: modern GEC models need help with spelling”, Труды ИСП РАН, 35:5 (2023), 215–228
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/tisp824 https://www.mathnet.ru/rus/tisp/v35/i5/p215
|
Статистика просмотров: |
Страница аннотации: | 19 | PDF полного текста: | 11 |
|