Информатика и её применения
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Импакт-фактор

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Информ. и её примен.:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Информатика и её применения, 2014, том 8, выпуск 4, страницы 94–109
DOI: https://doi.org/10.14357/19922264140412
(Mi ia348)
 

Эта публикация цитируется в 4 научных статьях (всего в 4 статьях)

Методы разрешения сущностей и слияния данных в ETL-процессе и их реализация в среде Hadoop

А. Е. Вовченкоa, Л. А. Калиниченкоab, Д. Ю. Ковалевa

a Институт проблем информатики Российской академии наук
b Московский государственный университет им. М. В. Ломоносова, факультет вычислительной математики и кибернетики
Список литературы:
Аннотация: При интеграции данных из совокупности исходных коллекций важной задачей является извлечение сущностей, их трансформация и загрузка в интегрированное хранилище. Такие действия являются частью ETL-процесса (extract–transform–loading). Под сущностью здесь понимается некоторое цифровое представление объекта реального мира (например, информация о персонах). При извлечении сущностей возникает проблема их разрешения: из различных ресурсов можно извлечь различную информацию об одном и том же объекте реального мира. Проблема разрешения сущностей ориентирована на решение таких задач, как идентификация сущностей, выявление дубликатов, удаление дубликатов, установление связей между сущностями, сопоставление сущностей с некоторым шаблонным образцом и др. После разрешения сущностей следует этап их слияния — формирование интегрированных сущностей (содержащих информацию из всех связанных сущностей). Слияние сущностей является заключительным этапом интеграции данных. В работе дан обзор методов разрешения и слияния сущностей. Рассматриваются вопросы адаптации таких методов для применения в ETL-процессе при интеграции больших данных в Hadoop. Также рассматриваются способы программирования методов разрешения и слияния сущностей как частей ETL-процесса. В качестве языка программирования используется HIL (High-Level Integration Language) — декларативный язык, ориентированный на разрешение и интеграцию сущностей в Hadoop-инфраструктуре.
Ключевые слова: интеграция данных; ETL; разрешение сущностей; слияние сущностей; большие данные; Hadoop; Jaql; HIL.
Поступила в редакцию: 09.11.2014
Реферативные базы данных:
Тип публикации: Статья
Образец цитирования: А. Е. Вовченко, Л. А. Калиниченко, Д. Ю. Ковалев, “Методы разрешения сущностей и слияния данных в ETL-процессе и их реализация в среде Hadoop”, Информ. и её примен., 8:4 (2014), 94–109
Цитирование в формате AMSBIB
\RBibitem{VovKalKov14}
\by А.~Е.~Вовченко, Л.~А.~Калиниченко, Д.~Ю.~Ковалев
\paper Методы разрешения сущностей и слияния данных в~ETL-процессе и~их реализация в~среде Hadoop
\jour Информ. и её примен.
\yr 2014
\vol 8
\issue 4
\pages 94--109
\mathnet{http://mi.mathnet.ru/ia348}
\crossref{https://doi.org/10.14357/19922264140412}
\elib{https://elibrary.ru/item.asp?id=22846470}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/ia348
  • https://www.mathnet.ru/rus/ia/v8/i4/p94
  • Эта публикация цитируется в следующих 4 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Информатика и её применения
    Статистика просмотров:
    Страница аннотации:431
    PDF полного текста:262
    Список литературы:51
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024