Труды института системного программирования РАН
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Труды ИСП РАН:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Труды института системного программирования РАН, 2020, том 32, выпуск 2, страницы 7–14
DOI: https://doi.org/10.15514/ISPRAS-2020-32(2)-1
(Mi tisp494)
 

Векторные модели на основе символьных н-грамм для морфологического анализа текстов

Ц. Г. Гукасян

Российско-Армянский университет
Список литературы:
Аннотация: В работе представляются модификации модели векторов fastText, основанные исключительно на н-граммах, для морфологического анализа текстов. fastText - библиотека для классификации текстов и обучения векторных представлений. Представление каждого слова вычисляется как сумма его отдельного вектора и векторов его символьных н-грамм. fastText хранит и использует отдельный вектор для целого слова, но во внесловарных случаях такой вектор отсутствует, что приводит к ухудшению качества получаемого вектора слова. Кроме того, в результате хранения векторов для целых слов, модели fastText обычно требуют много памяти для хранения и обработки Это становится особенно проблематично для морфологически богатых языков, учитывая многочисленность словоформ. В отличие от исходной модели fastText, предлагаемые варианты используют только информацию об н-граммах слова, избавляя от зависимости от векторов на уровне слов и в то же время помогая значительно сократить количество параметров в модели. Предлагается два способа извлечения информации из слова: внутренние символьные н-граммы и суффиксы. Модели тестируются на корпусе СинТагРус в задаче морфологической разметки и лемматизации русского языка, и показывают результаты, сравнимые с исходной моделью fastText.
Ключевые слова: вектора слов, морфологический анализ, lemmatization.
Тип публикации: Статья
Образец цитирования: Ц. Г. Гукасян, “Векторные модели на основе символьных н-грамм для морфологического анализа текстов”, Труды ИСП РАН, 32:2 (2020), 7–14
Цитирование в формате AMSBIB
\RBibitem{Ghu20}
\by Ц.~Г.~Гукасян
\paper Векторные модели на основе символьных н-грамм для морфологического анализа текстов
\jour Труды ИСП РАН
\yr 2020
\vol 32
\issue 2
\pages 7--14
\mathnet{http://mi.mathnet.ru/tisp494}
\crossref{https://doi.org/10.15514/ISPRAS-2020-32(2)-1}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/tisp494
  • https://www.mathnet.ru/rus/tisp/v32/i2/p7
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Труды института системного программирования РАН
    Статистика просмотров:
    Страница аннотации:182
    PDF полного текста:162
    Список литературы:21
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024