|
Эта публикация цитируется в 3 научных статьях (всего в 3 статьях)
Искусственный интеллект, интеллектуальные системы, нейронные сети
PaRuS — синтаксически аннотированный корпус русского языка
Н. А. Власова, И. В. Трофимов, Ю. П. Сердюк, Е. А. Сулейманова, И. Н. Воздвиженский Институт программных систем им. А. К. Айламазяна РАН
Аннотация:
В статье представлен новый аннотированный корпус русского языка PaRuS (Parsed Russian Sentences). Корпус имеет объем свыше 2,5 миллиардов токенов и предназначен для решения задач компьютерной лингвистики методами машинного обучения. PaRuS состоит из предложений русского литературного языка. Каждое предложение снабжено лингвистической разметкой: морфологической в формате MULTEXT-East и синтаксической в нотации СинТагРус. В статье рассмотрена методология создания корпуса, описан гибридный лингвистический конвейер PaRuS_pipe, разработанный для порождения разметки. Обсуждаются вопросы качества аннотирования языкового материала в корпусе PaRuS, выполнена оценка морфологического анализатора конвейера PaRuS_pipe по методологии соревнования MorphoRuEval-2017.
Ключевые слова и фразы:
компьютерная лингвистика, корпусная лингвистика, русский язык, языковой корпус, разметка, морфология, синтаксис.
Поступила в редакцию: 19.11.2019 Подписана в печать : 26.12.2019
Образец цитирования:
Н. А. Власова, И. В. Трофимов, Ю. П. Сердюк, Е. А. Сулейманова, И. Н. Воздвиженский, “PaRuS — синтаксически аннотированный корпус русского языка”, Программные системы: теория и приложения, 10:4 (2019), 181–199
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/ps358 https://www.mathnet.ru/rus/ps/v10/i4/p181
|
Статистика просмотров: |
Страница аннотации: | 244 | PDF полного текста: | 222 | Список литературы: | 25 |
|