Труды СПИИРАН
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Информатика и автоматизация:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Труды СПИИРАН, 2020, выпуск 19, том 6, страницы 1255–1279
DOI: https://doi.org/10.15622/ia.2020.19.6.5
(Mi trspy1132)
 

Эта публикация цитируется в 6 научных статьях (всего в 6 статьях)

Искусственный интеллект, инженерия данных и знаний

Vietnamese text classification algorithm using long short term memory and Word2Vec
[Алгоритм классификации вьетнамского текста с использованием долгой краткосрочной памяти и Word2Vec]

H. N. Phat, N. T. M. Anh

Hanoi University of Science and Technology (HUST)
Аннотация: В условиях текущей четвертой промышленной революции вместе с развитием компьютерных технологий увеличивается и количество текстовых данных. Следует понимать природу и характеристики этих данных, чтобы применять необходимые методологии. Автоматическая обработка текста экономит время и ресурсы существующих систем. Классификация текста является одним из основных приложений обработки естественного языка с использованием таких методов, как анализ тональности текста, разметка данных и так далее. В частности, недавние достижения в области глубокого обучения показывают, что эти методы хорошо подходят для классификации документов. Они продемонстрировали свою эффективность в классификации англоязычных текстов. Однако по проблеме классификации вьетнамских текстов существует не так много исследований. Последние созданные модели глубокого обучения для классификации вьетнамского текста показали заметные улучшения, но тем не менее этого недостаточно. Предлагается автоматическая система на основе длинной краткосрочной памяти и Word2Vec моделей, которая повышает точность классификации текстов. Предлагаемая модель продемонстрировала более высокие результаты классификации вьетнамских текстов по сравнению с другими традиционными методами. При оценке данных вьетнамского текста предлагаемая модель показывает точность классификации более 90%, поэтому может быть использована в реальном приложении.
Ключевые слова: классификация текста, естественная языковая обработка, обработка данных, длинная краткосрочная память, Word2Vec.
Финансовая поддержка Номер гранта
Ministry of Education and Training of Vietnam B2020-BKA-06
Данное исследование проводится в рамках проекта, финансируемого Министерством образования и науки Вьетнама в рамках (грант B2020-BKA-06).
Поступила в редакцию: 30.04.2020
Тип публикации: Статья
УДК: 004.9
Язык публикации: английский
Образец цитирования: H. N. Phat, N. T. M. Anh, “Vietnamese text classification algorithm using long short term memory and Word2Vec”, Тр. СПИИРАН, 19:6 (2020), 1255–1279
Цитирование в формате AMSBIB
\RBibitem{PhaAnh20}
\by H.~N.~Phat, N.~T.~M.~Anh
\paper Vietnamese text classification algorithm using long short term memory and Word2Vec
\jour Тр. СПИИРАН
\yr 2020
\vol 19
\issue 6
\pages 1255--1279
\mathnet{http://mi.mathnet.ru/trspy1132}
\crossref{https://doi.org/10.15622/ia.2020.19.6.5}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/trspy1132
  • https://www.mathnet.ru/rus/trspy/v19/i6/p1255
  • Эта публикация цитируется в следующих 6 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Информатика и автоматизация
    Статистика просмотров:
    Страница аннотации:181
    PDF полного текста:93
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024