Информатика и автоматизация
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Информатика и автоматизация:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Информатика и автоматизация, 2023, выпуск 22, том 6, страницы 1323–1353
DOI: https://doi.org/10.15622/ia.22.6.3
(Mi trspy1272)
 

Эта публикация цитируется в 3 научных статьях (всего в 3 статьях)

Искусственный интеллект, инженерия данных и знаний

Алгоритм построения дерева синтаксических единиц русскоязычного предложения по дереву синтаксических связей

А. Ю. Полетаев, И. В. Парамонов, Е. И. Бойчук

Ярославский государственный университет им. П.Г. Демидова
Аннотация: Автоматический синтаксический анализ предложения — одна из важных задач компьютерной лингвистики. В настоящее время для русского языка отсутствуют общедоступные и пригодные для практического применения анализаторы синтаксической структуры. Создание таких анализаторов «с нуля» требует составления корпуса деревьев, размеченного в соответствии с заданной формальной грамматикой, что представляет собой крайне трудоёмкую задачу. Однако, поскольку для русского языка существует несколько анализаторов синтаксических связей, представляется полезным использовать результаты их работы для анализа синтаксической структуры предложений. В настоящей работе предлагается алгоритм, позволяющий построить дерево синтаксических единиц русскоязычного предложения по данному дереву синтаксических связей. Алгоритм использует грамматику, сформулированную в соответствии с классическим справочником Д.Э. Розенталя. Приведены результаты экспериментов по оценке качества работы предложенного алгоритма на корпусе из 300 предложений на русском языке. 200 предложений были выбраны из вышеупомянутого справочника и 100 из открытого корпуса публицистических текстов OpenCorpora. В ходе экспериментов предложения подавались на вход анализаторов из состава библиотек Stanza, SpaCy и Natasha, после чего полученные деревья синтаксических связей обрабатывались предложенным алгоритмом. Полученные в результате обработки деревья синтаксических единиц сравнивались с размеченными вручную экспертами-филологами. Наилучшее качество было получено при использовании анализатора синтаксических связей из библиотеки Stanza: $F_1$-мера построения синтаксических единиц составила 0.85, а точность определения членов предложения — 0.93, чего должно быть достаточно для решения многих практических задач в таких областях, как извлечение событий, информационный поиск, анализ тональности.
Ключевые слова: компьютерная лингвистика, обработка естественного языка, синтаксический анализ, дерево синтаксических единиц, дерево синтаксических связей, формальная грамматика.
Финансовая поддержка Номер гранта
Российский научный фонд 23-21-00495
Исследование выполнено за счет гранта Российского научного фонда № 23-21-00495 (https://rscf.ru/project/23-21-00495/).
Поступила в редакцию: 27.06.2023
Тип публикации: Статья
УДК: 004.912
Образец цитирования: А. Ю. Полетаев, И. В. Парамонов, Е. И. Бойчук, “Алгоритм построения дерева синтаксических единиц русскоязычного предложения по дереву синтаксических связей”, Информатика и автоматизация, 22:6 (2023), 1323–1353
Цитирование в формате AMSBIB
\RBibitem{PolParBoy23}
\by А.~Ю.~Полетаев, И.~В.~Парамонов, Е.~И.~Бойчук
\paper Алгоритм построения дерева синтаксических единиц русскоязычного предложения по дереву синтаксических связей
\jour Информатика и автоматизация
\yr 2023
\vol 22
\issue 6
\pages 1323--1353
\mathnet{http://mi.mathnet.ru/trspy1272}
\crossref{https://doi.org/10.15622/ia.22.6.3}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/trspy1272
  • https://www.mathnet.ru/rus/trspy/v22/i6/p1323
  • Эта публикация цитируется в следующих 3 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Информатика и автоматизация
    Статистика просмотров:
    Страница аннотации:95
    PDF полного текста:145
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024