Информатика и автоматизация
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Информатика и автоматизация:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Информатика и автоматизация, 2024, выпуск 23, том 2, страницы 467–494
DOI: https://doi.org/10.15622/ia.23.2.6
(Mi trspy1294)
 

Искусственный интеллект, инженерия данных и знаний

Алгоритм оптимизации извлечения ключевых слов на основе применения лингвистического парсера

Д. Ю. Кравченко, Ю. А. Кравченко, А. Мансур, Ж. Мохаммад, Н. С. Павлов

Федеральное государственное автономное образовательное учреждение высшего образования «Южный федеральный университет»
Аннотация: В данной статье представлено аналитическое исследование особенностей двух типов парсинга, а именно синтаксический анализ составляющих (constituency parsing) и синтаксический анализ зависимостей (dependency parsing). Также в рамках проведенного исследования разработан алгоритм оптимизации извлечения ключевых слов, отличающийся применением функции извлечения именных фраз, предоставляемой парсером, для фильтрации неподходящих фраз. Алгоритм реализован с помощью трех разных парсеров: SpaCy, AllenNLP и Stazna. Эффективность предложенного алгоритма сравнивалась с двумя популярными методами (Yake, Rake) на наборе данных с английскими текстами. Результаты экспериментов показали, что предложенный алгоритм с парсером SpaCy превосходит другие алгоритмы извлечения ключевых слов с точки зрения точности и скорости. Для парсера AllenNLP и Stanza алгоритм так же отличается точностью, но требует гораздо большего времени выполнения. Полученные результаты позволяют более детально оценить преимущества и недостатки изучаемых в работе парсеров, а также определить направления дальнейших исследований. Время работы парсера SpaCy значительно меньше, чем у двух других парсеров, потому что парсеры, которые используют переходы, применяют детерминированный или машинно-обучаемый набор действий для пошагового построения дерева зависимостей. Они обычно работают быстрее и требуют меньше памяти по сравнению с парсерами, основанными на графах, что делает их более эффективными для анализа больших объемов текста. С другой стороны, AllenNLP и Stanza используют модели парсинга на основе графов, которые опираются на миллионы признаков, что ограничивает их способность к обобщению и замедляет скорость анализа по сравнению с парсерами на основе переходов. Задача достижения баланса между точностью и скоростью лингвистического парсера является открытой темой, требующей дальнейших исследований в связи с важностью данной проблемы для повышения эффективности текстового анализа, особенно в приложениях, требующих точности при работе в реальном масштабе времени. С этой целью авторы планируют проведение дальнейших исследований возможных решений для достижения такого баланса.
Ключевые слова: синтаксический анализ составляющих, синтаксический анализ зависимостей, извлечение ключевых слов, обработка естественного языка, NLP, SpaCy, Stanza, AllenNLP.
Финансовая поддержка Номер гранта
Российский научный фонд 23-21-00089
Исследование выполнено за счет гранта Российского научного фонда № 23-21-00089, https://rscf.ru/project/23-21-00089/ в Южном федеральном университете.
Поступила в редакцию: 09.09.2023
Тип публикации: Статья
УДК: 004.912
Образец цитирования: Д. Ю. Кравченко, Ю. А. Кравченко, А. Мансур, Ж. Мохаммад, Н. С. Павлов, “Алгоритм оптимизации извлечения ключевых слов на основе применения лингвистического парсера”, Информатика и автоматизация, 23:2 (2024), 467–494
Цитирование в формате AMSBIB
\RBibitem{KraKraMan24}
\by Д.~Ю.~Кравченко, Ю.~А.~Кравченко, А.~Мансур, Ж.~Мохаммад, Н.~С.~Павлов
\paper Алгоритм оптимизации извлечения ключевых слов на основе применения лингвистического парсера
\jour Информатика и автоматизация
\yr 2024
\vol 23
\issue 2
\pages 467--494
\mathnet{http://mi.mathnet.ru/trspy1294}
\crossref{https://doi.org/10.15622/ia.23.2.6}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/trspy1294
  • https://www.mathnet.ru/rus/trspy/v23/i2/p467
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Информатика и автоматизация
    Статистика просмотров:
    Страница аннотации:39
    PDF полного текста:6
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024