|
Эта публикация цитируется в 6 научных статьях (всего в 6 статьях)
Искусственный интеллект, инженерия данных и знаний
Vietnamese text classification algorithm using long short term memory and Word2Vec
[Алгоритм классификации вьетнамского текста с использованием долгой краткосрочной памяти и Word2Vec]
H. N. Phat, N. T. M. Anh Hanoi University of Science and Technology (HUST)
Аннотация:
В условиях текущей четвертой промышленной революции вместе с развитием компьютерных технологий увеличивается и количество текстовых данных. Следует понимать природу и характеристики этих данных, чтобы применять необходимые методологии. Автоматическая обработка текста экономит время и ресурсы существующих систем. Классификация текста является одним из основных приложений обработки естественного языка с использованием таких методов, как анализ тональности текста, разметка данных и так далее. В частности, недавние достижения в области глубокого обучения показывают, что эти методы хорошо подходят для классификации документов. Они продемонстрировали свою эффективность в классификации англоязычных текстов. Однако по проблеме классификации вьетнамских текстов существует не так много исследований. Последние созданные модели глубокого обучения для классификации вьетнамского текста показали заметные улучшения, но тем не менее этого недостаточно. Предлагается автоматическая система на основе длинной краткосрочной памяти и Word2Vec моделей, которая повышает точность классификации текстов. Предлагаемая модель продемонстрировала более высокие результаты классификации вьетнамских текстов по сравнению с другими традиционными методами. При оценке данных вьетнамского текста предлагаемая модель показывает точность классификации более 90%, поэтому может быть использована в реальном приложении.
Ключевые слова:
классификация текста, естественная языковая обработка, обработка данных, длинная краткосрочная память, Word2Vec.
Поступила в редакцию: 30.04.2020
Образец цитирования:
H. N. Phat, N. T. M. Anh, “Vietnamese text classification algorithm using long short term memory and Word2Vec”, Тр. СПИИРАН, 19:6 (2020), 1255–1279
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/trspy1132 https://www.mathnet.ru/rus/trspy/v19/i6/p1255
|
Статистика просмотров: |
Страница аннотации: | 181 | PDF полного текста: | 93 |
|