|
Эта публикация цитируется в 3 научных статьях (всего в 3 статьях)
Задачи идентификации информационных объектов в распределенных массивах данных
М. М. Гершкович, Т. К. Бирюкова Институт проблем информатики Российской академии наук
Аннотация:
Предлагаются подходы к решению задачи идентификации информационных объектов (ИО) в автоматизированных информационных системах (АИС), предназначенных для сбора, хранения и обработки данных, имеющих большое количество узлов и получающих данные из различных источников. Массив данных в рассматриваемых информационных системах, как правило, представляет собой постоянно пополняемый журнал событий. Каждая запись о событии содержит характеристики участника события — ИО и обстоятельства события. Для решения аналитических задач, связанных с ИО, необходимо идентифицировать ИО, т. е. определить множество ИО, представляющих собой с некоторой вероятностью одну и ту же сущность. В работе сформулирована постановка задач идентификации информационных объектов, часто встречающихся на практике при создании больших информационных систем: слияние ИО и кластеризация ИО, т. е. составление совокупностей ИО, «похожих» по некоторому критерию. Отмечено, что с задачей идентификации тесно связана задача поиска связей между ИО, поскольку вероятность идентичности двух ИО повышается, если выявляется связь каждого из них, например, с некоторым третьим ИО. Указаны способы решения этих задач, отмечена специфика идентификации ИО в потоке событий, приведен метод корреляционного поиска для выявления связи между ИО. Приведены методы сравнения имен собственных с учетом возможных искажений в них — фонетических, транскрипционных, а также просто опечаток. Указана целесообразность использования при идентификации физических лиц (ФЛ) данных фамильно-именной группы и в кириллице, и в латинице.
Ключевые слова:
идентификация информационных объектов; идентификация объектов; корреляционный поиск; поиск связей; идентичность объектов; слияние информационных объектов; слияние объектов; текстовые атрибуты; искажения данных; фонетические искажения; транскрипционные искажения; перевод из латиницы в кириллицу; Metaphone; расстояние Левенштейна; распределенные информационные системы.
Поступила в редакцию: 26.02.2014
Образец цитирования:
М. М. Гершкович, Т. К. Бирюкова, “Задачи идентификации информационных объектов в распределенных массивах данных”, Системы и средства информ., 24:1 (2014), 224–243
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/ssi339 https://www.mathnet.ru/rus/ssi/v24/i1/p224
|
Статистика просмотров: |
Страница аннотации: | 304 | PDF полного текста: | 212 | Список литературы: | 52 |
|