|
Эта публикация цитируется в 4 научных статьях (всего в 4 статьях)
Методы разрешения сущностей и слияния данных в ETL-процессе и их реализация в среде Hadoop
А. Е. Вовченкоa, Л. А. Калиниченкоab, Д. Ю. Ковалевa a Институт проблем информатики Российской академии наук
b Московский государственный университет им. М. В. Ломоносова, факультет вычислительной математики и кибернетики
Аннотация:
При интеграции данных из совокупности исходных коллекций важной задачей является извлечение сущностей, их трансформация и загрузка в интегрированное хранилище. Такие действия являются частью ETL-процесса (extract–transform–loading). Под сущностью здесь понимается некоторое цифровое представление объекта реального мира (например, информация о персонах). При извлечении сущностей возникает проблема их разрешения: из различных ресурсов можно извлечь различную информацию об одном и том же объекте реального мира. Проблема разрешения сущностей ориентирована на решение таких задач, как идентификация сущностей, выявление дубликатов, удаление дубликатов, установление связей между сущностями, сопоставление сущностей с некоторым шаблонным образцом и др. После разрешения сущностей следует этап их слияния — формирование интегрированных сущностей (содержащих информацию из всех связанных сущностей). Слияние сущностей является заключительным этапом интеграции данных. В работе дан обзор методов разрешения и слияния сущностей. Рассматриваются вопросы адаптации таких методов для применения в ETL-процессе при интеграции больших данных в Hadoop. Также рассматриваются способы программирования методов разрешения и слияния сущностей как частей ETL-процесса. В качестве языка программирования используется HIL (High-Level Integration Language) — декларативный язык, ориентированный на разрешение и интеграцию сущностей в Hadoop-инфраструктуре.
Ключевые слова:
интеграция данных; ETL; разрешение сущностей; слияние сущностей; большие данные; Hadoop; Jaql; HIL.
Поступила в редакцию: 09.11.2014
Образец цитирования:
А. Е. Вовченко, Л. А. Калиниченко, Д. Ю. Ковалев, “Методы разрешения сущностей и слияния данных в ETL-процессе и их реализация в среде Hadoop”, Информ. и её примен., 8:4 (2014), 94–109
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/ia348 https://www.mathnet.ru/rus/ia/v8/i4/p94
|
Статистика просмотров: |
Страница аннотации: | 444 | PDF полного текста: | 278 | Список литературы: | 61 |
|