А. Н. Мишенин, “Тематическая сегментация семантически однородных документов”, Вестн. С.-Петербург. ун-та. Сер. 10. Прикл. матем. Информ. Проц. упр., 2011, № 3, 127

Вестник Санкт-Петербургского университета. Серия 10. Прикладная математика. Информатика. Процессы управления

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Общая информация
	Последний выпуск
	Архив

	Поиск публикаций
	Поиск ссылок

	RSS
	Последний выпуск
	Текущие выпуски
	Архивные выпуски
	Что такое RSS

Вестн. С.-Петербург. ун-та. Сер. 10. Прикл. матем. Информ. Проц. упр.:
Год:
Том:
Выпуск:
Страница:
	Найти

Персональный вход:
Логин:
Пароль:
	Запомнить пароль
	Войти
	Забыли пароль?
	Регистрация

Вестник Санкт-Петербургского университета. Серия 10. Прикладная математика. Информатика. Процессы управления, 2011, выпуск 3, страницы 127–133 (Mi vspui52)

Информатика

Тематическая сегментация семантически однородных документов

А. Н. Мишенин

Санкт-Петербургский государственный университет, математико-механический факультет

PDF полного текста (290 kB)

Список литературы:

PDF

HTML

Аннотация: Во многих задачах информационного поиска часто возникает проблема сегментации документов на отдельные, более узкие поддокументы. В случае, если в документе присутствует определенная семантическая разметка (содержание, заголовки и т. д.), сегментация (на определенном уровне) не представляет никаких проблем. Сложнее, когда такой информации нет или сегментацию нужно выполнить на более узком уровне. В таком случае появляется необходимость в алгоритмах сегментации. Цель данной работы – предложить метод сегментации, который применяется в целом к коллекции похожих по содержанию документов, с возможным аннотированием получившихся сегментов. Приведем пример, где такая задача может быть востребована: пусть у нас имеются большая коллекция документов, например набор всех статей из Википедии, и некоторый алгоритм кластеризации. Статьи в Википедии носят в основном энциклопедический характер и часто строятся по определенному шаблону. Так, статья о каком-либо крупном городе почти всегда имеет разделы, посвященные географии, истории, населению, экономике, инфраструктуре. Логично предположить, что статьи о городах или подобных географических объектах могут попасть в один кластер, где все вышеперечисленные подтемы присутствуют в большинстве документов. Для удобства навигации и построения аннотации кластера имеет смысл найти все такие подтемы и в соответствии с ними разделить каждый документ. Библиогр. 9 назв.

Ключевые слова: сегментация текстовых документов, обработка естественных языков, информационный поиск.

Принята к печати: 10 марта 2011 г.

Тип публикации: Статья

УДК: 519.688

Образец цитирования: А. Н. Мишенин, “Тематическая сегментация семантически однородных документов”, Вестн. С.-Петербург. ун-та. Сер. 10. Прикл. матем. Информ. Проц. упр., 2011, № 3, 127–133

Цитирование в формате AMSBIB

\RBibitem{Mis11}

\by А.~Н.~Мишенин

\paper Тематическая сегментация семантически однородных документов

\jour Вестн. С.-Петербург. ун-та. Сер. 10. Прикл. матем. Информ. Проц. упр.

\yr 2011

\issue 3

\pages 127--133

\mathnet{http://mi.mathnet.ru/vspui52}

Образцы ссылок на эту страницу:

https://www.mathnet.ru/rus/vspui52

https://www.mathnet.ru/rus/vspui/y2011/i3/p127

Citing articles in Google Scholar: Russian citations, English citations
Related articles in Google Scholar: Russian articles, English articles

Вестник Санкт-Петербургского университета. Серия 10. Прикладная математика. Информатика. Процессы управления

Статистика просмотров:
Страница аннотации:	195
PDF полного текста:	98
Список литературы:	27
Первая страница:	5

Что такое QR-код?

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы