|
Эта публикация цитируется в 3 научных статьях (всего в 3 статьях)
Искусственный интеллект, инженерия данных и знаний
Алгоритм построения дерева синтаксических единиц русскоязычного предложения по дереву синтаксических связей
А. Ю. Полетаев, И. В. Парамонов, Е. И. Бойчук Ярославский государственный университет им. П.Г. Демидова
Аннотация:
Автоматический синтаксический анализ предложения — одна из важных задач компьютерной лингвистики. В настоящее время для русского языка отсутствуют общедоступные и пригодные для практического применения анализаторы синтаксической структуры. Создание таких анализаторов «с нуля» требует составления корпуса деревьев, размеченного в соответствии с заданной формальной грамматикой, что представляет собой крайне трудоёмкую задачу. Однако, поскольку для русского языка существует несколько анализаторов синтаксических связей, представляется полезным использовать результаты их работы для анализа синтаксической структуры предложений. В настоящей работе предлагается алгоритм, позволяющий построить дерево синтаксических единиц русскоязычного предложения по данному дереву синтаксических связей. Алгоритм использует грамматику, сформулированную в соответствии с классическим справочником Д.Э. Розенталя. Приведены результаты экспериментов по оценке качества работы предложенного алгоритма на корпусе из 300 предложений на русском языке. 200 предложений были выбраны из вышеупомянутого справочника и 100 из открытого корпуса публицистических текстов OpenCorpora. В ходе экспериментов предложения подавались на вход анализаторов из состава библиотек Stanza, SpaCy и Natasha, после чего полученные деревья синтаксических связей обрабатывались предложенным алгоритмом. Полученные в результате обработки деревья синтаксических единиц сравнивались с размеченными вручную экспертами-филологами. Наилучшее качество было получено при использовании анализатора синтаксических связей из библиотеки Stanza: $F_1$-мера построения синтаксических единиц составила 0.85, а точность определения членов предложения — 0.93, чего должно быть достаточно для решения многих практических задач в таких областях, как извлечение событий, информационный поиск, анализ тональности.
Ключевые слова:
компьютерная лингвистика, обработка естественного языка, синтаксический анализ, дерево синтаксических единиц, дерево синтаксических связей, формальная грамматика.
Поступила в редакцию: 27.06.2023
Образец цитирования:
А. Ю. Полетаев, И. В. Парамонов, Е. И. Бойчук, “Алгоритм построения дерева синтаксических единиц русскоязычного предложения по дереву синтаксических связей”, Информатика и автоматизация, 22:6 (2023), 1323–1353
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/trspy1272 https://www.mathnet.ru/rus/trspy/v22/i6/p1323
|
Статистика просмотров: |
Страница аннотации: | 95 | PDF полного текста: | 145 |
|