|
Эта публикация цитируется в 5 научных статьях (всего в 5 статьях)
Методические аспекты выделения семантических отношений для автоматической генерации специализированных тезаурусов и их оценки
Н. С. Лагутина, К. В. Лагутина, Э. И. Мамедов, И. В. Парамонов Ярославский государственный университет им. П.Г. Демидова,
ул. Советская, 14, г. Ярославль, 150000 Россия
Аннотация:
Работа посвящена анализу методов автоматической генерации специализированного тезауруса. Основной алгоритм генерации состоит из трех шагов: отбор и предварительная обработка корпуса текстов, формирование множества терминов для включения в тезаурус и выделение связей между терминами тезауруса. Данное исследование сфокусировано на изучении методов выделения семантических связей, для чего авторами был разработан программный стенд, который позволяет протестировать распространенные алгоритмы выделения гиперонимов и синонимов, использующие в своей работе лексико-синтаксические шаблоны, морфо-синтаксические правила, количество информации терминов, тезаурус общего назначения WordNet и расстояние Левенштейна. Для анализа результирующего тезауруса, созданного на стенде, авторами была разработана комплексная оценка, содержащая следующие характеристики качества: точность выделения терминов, точность и полнота выделения синонимических и гиперонимических связей, а также метрики графа тезауруса (количество выделенных терминов, количество семантических связей различных типов, число компонент связности и число вершин в наибольшей компоненте). Предлагаемый набор метрик позволяет оценить качество тезауруса в целом, выявить отдельные недостатки стандартных методов выделения связей и построить более эффективные гибридные методы, генерирующие тезаурус с лучшими характеристиками по сравнению с тезаурусами, генерируемыми при использовании отдельных методов. Для иллюстрации данного факта в статье рассмотрен один из таких гибридных методов. Он комбинирует лучшие стандартные алгоритмы построения гиперонимических и синонимических связей и строит специализированный тезаурус в области медицины с тем же уровнем качества, что и другие методы, но с большим количеством связей между терминами.
Ключевые слова:
тезаурус, семантические отношения, гибридный метод, комплексная оценка, программный стенд.
Поступила в редакцию: 19.10.2016
Образец цитирования:
Н. С. Лагутина, К. В. Лагутина, Э. И. Мамедов, И. В. Парамонов, “Методические аспекты выделения семантических отношений для автоматической генерации специализированных тезаурусов и их оценки”, Модел. и анализ информ. систем, 23:6 (2016), 826–840
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/mais543 https://www.mathnet.ru/rus/mais/v23/i6/p826
|
Статистика просмотров: |
Страница аннотации: | 307 | PDF полного текста: | 286 | Список литературы: | 38 |
|