|
Эта публикация цитируется в 1 научной статье (всего в 1 статье)
Подход к автоматизированному контролю работы системы извлечения данных с веб-сайтов
А. М. Андреев, Д. В. Березкин, И. А. Козлов, К. В. Симаков Московский государственный технический университет им. Н. Э. Баумана
Аннотация:
Системы извлечения данных с веб-сайтов используют информацию о разметке HTML-страниц. Для обеспечения бесперебойной работы таких систем необходимо решить проблему своевременного обнаружения изменений структуры веб-сайтов. В статье предложен подход к решению этой проблемы, предполагающий наличие двух этапов детектирования изменений верстки: оперативного и отложенного. В основе первого из них лежит кластеризация, при этом HTML-документ рассматривается как вектор некоторых характеристик. Второй этап основан на сравнении распределений этих характеристик для эталонного и тестового наборов документов. Проведена экспериментальная оценка предложенного подхода, демонстрирующая его практическую применимость.
Ключевые слова:
сбор текстовой информации; парсинг веб-сайтов; кластеризация; статистический анализ HTML-верстки.
Образец цитирования:
А. М. Андреев, Д. В. Березкин, И. А. Козлов, К. В. Симаков, “Подход к автоматизированному контролю работы системы извлечения данных с веб-сайтов”, Информ. и её примен., 7:3 (2013), 2–13
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/ia267 https://www.mathnet.ru/rus/ia/v7/i3/p2
|
Статистика просмотров: |
Страница аннотации: | 225 | PDF полного текста: | 95 | Список литературы: | 34 | Первая страница: | 2 |
|