Вестник Санкт-Петербургского университета. Серия 10. Прикладная математика. Информатика. Процессы управления
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Вестн. С.-Петербург. ун-та. Сер. 10. Прикл. матем. Информ. Проц. упр.:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Вестник Санкт-Петербургского университета. Серия 10. Прикладная математика. Информатика. Процессы управления, 2011, выпуск 3, страницы 127–133 (Mi vspui52)  

Информатика

Тематическая сегментация семантически однородных документов

А. Н. Мишенин

Санкт-Петербургский государственный университет, математико-механический факультет
Список литературы:
Аннотация: Во многих задачах информационного поиска часто возникает проблема сегментации документов на отдельные, более узкие поддокументы. В случае, если в документе присутствует определенная семантическая разметка (содержание, заголовки и т. д.), сегментация (на определенном уровне) не представляет никаких проблем. Сложнее, когда такой информации нет или сегментацию нужно выполнить на более узком уровне. В таком случае появляется необходимость в алгоритмах сегментации. Цель данной работы – предложить метод сегментации, который применяется в целом к коллекции похожих по содержанию документов, с возможным аннотированием получившихся сегментов. Приведем пример, где такая задача может быть востребована: пусть у нас имеются большая коллекция документов, например набор всех статей из Википедии, и некоторый алгоритм кластеризации. Статьи в Википедии носят в основном энциклопедический характер и часто строятся по определенному шаблону. Так, статья о каком-либо крупном городе почти всегда имеет разделы, посвященные географии, истории, населению, экономике, инфраструктуре. Логично предположить, что статьи о городах или подобных географических объектах могут попасть в один кластер, где все вышеперечисленные подтемы присутствуют в большинстве документов. Для удобства навигации и построения аннотации кластера имеет смысл найти все такие подтемы и в соответствии с ними разделить каждый документ. Библиогр. 9 назв.
Ключевые слова: сегментация текстовых документов, обработка естественных языков, информационный поиск.

Принята к печати: 10 марта 2011 г.
Тип публикации: Статья
УДК: 519.688
Образец цитирования: А. Н. Мишенин, “Тематическая сегментация семантически однородных документов”, Вестн. С.-Петербург. ун-та. Сер. 10. Прикл. матем. Информ. Проц. упр., 2011, № 3, 127–133
Цитирование в формате AMSBIB
\RBibitem{Mis11}
\by А.~Н.~Мишенин
\paper Тематическая сегментация семантически однородных документов
\jour Вестн. С.-Петербург. ун-та. Сер. 10. Прикл. матем. Информ. Проц. упр.
\yr 2011
\issue 3
\pages 127--133
\mathnet{http://mi.mathnet.ru/vspui52}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/vspui52
  • https://www.mathnet.ru/rus/vspui/y2011/i3/p127
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Вестник Санкт-Петербургского университета. Серия 10. Прикладная математика. Информатика. Процессы управления
    Статистика просмотров:
    Страница аннотации:195
    PDF полного текста:98
    Список литературы:27
    Первая страница:5
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024