|
Векторные модели на основе символьных н-грамм для морфологического анализа текстов
Ц. Г. Гукасян Российско-Армянский университет
Аннотация:
В работе представляются модификации модели векторов fastText, основанные исключительно на н-граммах, для морфологического анализа текстов. fastText - библиотека для классификации текстов и обучения векторных представлений. Представление каждого слова вычисляется как сумма его отдельного вектора и векторов его символьных н-грамм. fastText хранит и использует отдельный вектор для целого слова, но во внесловарных случаях такой вектор отсутствует, что приводит к ухудшению качества получаемого вектора слова. Кроме того, в результате хранения векторов для целых слов, модели fastText обычно требуют много памяти для хранения и обработки Это становится особенно проблематично для морфологически богатых языков, учитывая многочисленность словоформ. В отличие от исходной модели fastText, предлагаемые варианты используют только информацию об н-граммах слова, избавляя от зависимости от векторов на уровне слов и в то же время помогая значительно сократить количество параметров в модели. Предлагается два способа извлечения информации из слова: внутренние символьные н-граммы и суффиксы. Модели тестируются на корпусе СинТагРус в задаче морфологической разметки и лемматизации русского языка, и показывают результаты, сравнимые с исходной моделью fastText.
Ключевые слова:
вектора слов, морфологический анализ, lemmatization.
Образец цитирования:
Ц. Г. Гукасян, “Векторные модели на основе символьных н-грамм для морфологического анализа текстов”, Труды ИСП РАН, 32:2 (2020), 7–14
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/tisp494 https://www.mathnet.ru/rus/tisp/v32/i2/p7
|
Статистика просмотров: |
Страница аннотации: | 182 | PDF полного текста: | 162 | Список литературы: | 21 |
|