|
Труды СПИИРАН, 2013, выпуск 30, страницы 189–203
(Mi trspy625)
|
|
|
|
Алгоритм генерации тезаурусных расширений для корпоративного информационного поиска
Д. О. Донцов Санкт-Петербургский институт информатики и автоматизации РАН
Аннотация:
Целью работы является создание алгоритма генерации тезауруса синонимов для названий продуктов. Такие тезаурусы используются в современных поисковых машинах для расширения пользовательского запроса и улучшения качества поиска. При этом подходе из поискового индекса выбираются документы, включающие в себя не только слова, содержащиеся в запросе, но и близкие по смыслу термины. В ходе работы был реализован полуавтоматический метод обучения распознавателя именованных сущностей. Для валидации извлеченных сущностей был предложен метод полуавтоматической валидации.
Ключевые слова:
информационный поиск, расширение пользовательского запроса, тезаурусные расширения, извлечение синонимов, распознавание именованных сущностей, строковая кластеризация.
Поступила в редакцию: 03.04.2013
Образец цитирования:
Д. О. Донцов, “Алгоритм генерации тезаурусных расширений для корпоративного информационного поиска”, Тр. СПИИРАН, 30 (2013), 189–203
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/trspy625 https://www.mathnet.ru/rus/trspy/v30/p189
|
Статистика просмотров: |
Страница аннотации: | 201 | PDF полного текста: | 56 | Список литературы: | 35 | Первая страница: | 1 |
|