Труды института системного программирования РАН
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Труды ИСП РАН:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Труды института системного программирования РАН, 2023, том 35, выпуск 5, страницы 215–228
DOI: https://doi.org/10.15514/ISPRAS-2023-35(5)-14
(Mi tisp824)
 

Here we go again: modern GEC models need help with spelling
[Проблема валидации современных систем исправления грамматических ошибок: случай ошибок на уровне символов]

V. M. Starchenko, A. M. Starchenko

National Research University Higher School of Economics
Аннотация: Исследование сосредотачивается на проблеме того, как современные системы исправления грамматических ошибок обрабатывают ошибки на уровне слова. Работа обсуждает, как подобные ошибки могут взаимодействовать с эффективностью модели, и оценивает, как модели с разными архитектурами справляется с ними. Делается вывод о том, что специализированные системы исправления грамматических ошибок сталкиваются с проблемами при исправлении ошибок, приводящих к созданию несуществующих слов, и что предобработка с помощью простой системой обработки подобных ошибок значительно улучшает общую эффективность модели. Для оценки этого работа модели тестируется для нескольких валидационных датасетах. Вдобавок к валидационному датасету соревнования CoNLL-2014 в работе предлагается синтетический датасет с повышенной плотностью ошибок на уровне слова. На основании сравнения эффективности модели на двух датасетах, работа делает вывод о том, что валидационные датасеты с высокой плотностью ошибок, представляющих проблему для моделей, — это полезный инструмент для сравнения моделей. Кроме того, работа указывает на случаи некорректной аннотации несуществующих слов в разметке экспертов и предлагает очищенную версию датасета. В отличие от специализированных систем исправления грамматических ошибок, модель LLaMA, используемся для задачи исправления грамматических ошибок хорошо справляется с ошибками на уровне слова. Мы предполагаем гипотезу, в соответствии с которой этот результат объясняется тем фактом, что эта модель не обучается на специальной аннотированной выборке, содержащей ошибки, а получает в качестве входа грамматически и орфографически корректные тексты.
Ключевые слова: автоматическое исправление грамматических ошибок, валидация, спеллчек, предобработка, синтетические датасеты
Тип публикации: Статья
Язык публикации: английский
Образец цитирования: V. M. Starchenko, A. M. Starchenko, “Here we go again: modern GEC models need help with spelling”, Труды ИСП РАН, 35:5 (2023), 215–228
Цитирование в формате AMSBIB
\RBibitem{StaSta23}
\by V.~M.~Starchenko, A.~M.~Starchenko
\paper Here we go again: modern GEC models need help with spelling
\jour Труды ИСП РАН
\yr 2023
\vol 35
\issue 5
\pages 215--228
\mathnet{http://mi.mathnet.ru/tisp824}
\crossref{https://doi.org/10.15514/ISPRAS-2023-35(5)-14}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/tisp824
  • https://www.mathnet.ru/rus/tisp/v35/i5/p215
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Труды института системного программирования РАН
    Статистика просмотров:
    Страница аннотации:19
    PDF полного текста:11
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024