Информатика и её применения
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Импакт-фактор

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Информ. и её примен.:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Информатика и её применения, 2013, том 7, выпуск 3, страницы 2–13
DOI: https://doi.org/10.14357/19922264130301
(Mi ia267)
 

Эта публикация цитируется в 1 научной статье (всего в 1 статье)

Подход к автоматизированному контролю работы системы извлечения данных с веб-сайтов

А. М. Андреев, Д. В. Березкин, И. А. Козлов, К. В. Симаков

Московский государственный технический университет им. Н. Э. Баумана
Список литературы:
Аннотация: Системы извлечения данных с веб-сайтов используют информацию о разметке HTML-страниц. Для обеспечения бесперебойной работы таких систем необходимо решить проблему своевременного обнаружения изменений структуры веб-сайтов. В статье предложен подход к решению этой проблемы, предполагающий наличие двух этапов детектирования изменений верстки: оперативного и отложенного. В основе первого из них лежит кластеризация, при этом HTML-документ рассматривается как вектор некоторых характеристик. Второй этап основан на сравнении распределений этих характеристик для эталонного и тестового наборов документов. Проведена экспериментальная оценка предложенного подхода, демонстрирующая его практическую применимость.
Ключевые слова: сбор текстовой информации; парсинг веб-сайтов; кластеризация; статистический анализ HTML-верстки.
Реферативные базы данных:
Тип публикации: Статья
Образец цитирования: А. М. Андреев, Д. В. Березкин, И. А. Козлов, К. В. Симаков, “Подход к автоматизированному контролю работы системы извлечения данных с веб-сайтов”, Информ. и её примен., 7:3 (2013), 2–13
Цитирование в формате AMSBIB
\RBibitem{AndBerKoz13}
\by А.~М.~Андреев, Д.~В.~Березкин, И.~А.~Козлов, К.~В.~Симаков
\paper Подход к автоматизированному контролю работы системы извлечения данных с~веб-сайтов
\jour Информ. и её примен.
\yr 2013
\vol 7
\issue 3
\pages 2--13
\mathnet{http://mi.mathnet.ru/ia267}
\crossref{https://doi.org/10.14357/19922264130301}
\elib{https://elibrary.ru/item.asp?id=20446779}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/ia267
  • https://www.mathnet.ru/rus/ia/v7/i3/p2
  • Эта публикация цитируется в следующих 1 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Информатика и её применения
    Статистика просмотров:
    Страница аннотации:225
    PDF полного текста:95
    Список литературы:34
    Первая страница:2
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024