|
Вестник Санкт-Петербургского университета. Серия 10. Прикладная математика. Информатика. Процессы управления, 2011, выпуск 3, страницы 127–133
(Mi vspui52)
|
|
|
|
Информатика
Тематическая сегментация семантически однородных документов
А. Н. Мишенин Санкт-Петербургский государственный университет, математико-механический факультет
Аннотация:
Во многих задачах информационного поиска часто возникает проблема сегментации документов на отдельные, более узкие поддокументы. В случае, если в документе присутствует определенная семантическая разметка (содержание, заголовки и т. д.), сегментация (на определенном уровне) не представляет никаких проблем. Сложнее, когда такой информации нет или сегментацию нужно выполнить на более узком уровне. В таком случае появляется необходимость в алгоритмах сегментации. Цель данной работы – предложить метод сегментации, который применяется в целом к коллекции похожих по содержанию документов, с возможным аннотированием получившихся сегментов. Приведем пример, где такая задача может быть востребована: пусть у нас имеются большая коллекция документов, например набор всех статей из Википедии, и некоторый алгоритм кластеризации. Статьи в Википедии носят в основном энциклопедический характер и часто строятся по определенному шаблону. Так, статья о каком-либо крупном городе почти всегда имеет разделы, посвященные географии, истории, населению, экономике, инфраструктуре. Логично предположить, что статьи о городах или подобных географических объектах могут попасть в один кластер, где все вышеперечисленные подтемы присутствуют в большинстве документов. Для удобства навигации и построения аннотации кластера имеет смысл найти все такие подтемы и в соответствии с ними разделить каждый документ. Библиогр. 9 назв.
Ключевые слова:
сегментация текстовых документов, обработка естественных языков, информационный поиск.
Принята к печати: 10 марта 2011 г.
Образец цитирования:
А. Н. Мишенин, “Тематическая сегментация семантически однородных документов”, Вестн. С.-Петербург. ун-та. Сер. 10. Прикл. матем. Информ. Проц. упр., 2011, № 3, 127–133
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/vspui52 https://www.mathnet.ru/rus/vspui/y2011/i3/p127
|
Статистика просмотров: |
Страница аннотации: | 195 | PDF полного текста: | 98 | Список литературы: | 27 | Первая страница: | 5 |
|