|
Эта публикация цитируется в 3 научных статьях (всего в 3 статьях)
Математическое моделирование и прикладная математика
О мерах сходства расположения компонентов в массивах естественно упорядоченных данных
А. С. Гуменюкa, А. А. Скибаb, Н. Н. Поздниченкоa, С. Н. Шпыновc a Омский государственный технический университет (ОмГТУ)
b ООО "Компания Элмис"
c Федеральное государственное бюджетное учреждение «Федеральный научно-исследовательский центр эпидемиологии и микробиологии имени почетного академика Н.Ф. Гамалеи»
Аннотация:
В настоящее время в публикациях специалистов по анализу массивов
естественно упорядоченных данных различной природы (в том числе символьных
последовательностей) не имеют широкого распространения математические средства,
адекватно учитывающие расположение компонентов. Поэтому затруднены или невозможны
измерение и сравнение порядка следования сообщений, выделенных в длинных
информационных цепях. Основные подходы при сравнении символьных последовательностей
используют вероятностные модели и статистический инструментарий, попарное и
множественное выравнивание, позволяющее определить степень сходства цепей с помощью
мер редакционного расстояния. Отмеченные подходы почти не уделяют внимания
исследованию и обнаружению закономерностей конкретного расположения всех знаков, слов,
компонентов массивов данных, составляющих отдельную целостную последовательность.
Объектом исследования в наших работах является специальным образом организованный
числовой кортеж — расположение компонентов (строй) в символьных или числовых
последовательностях. При этом в качестве основы для количественного отображения
строя цепи используются интервалы между ближайшими одинаковыми ее компонентами.
Перемножение всех интервалов или суммирование их логарифмов позволяет получить
числа, которые однозначно отображают расположение компонентов в конкретной
последовательности. Эти числа, в свою очередь, позволяют получить целый набор
нормированных характеристик строя, среди которых средний геометрический интервал
и его логарифм. В данной работе представлен подход для количественного сравнения
построений массивов естественно упорядоченных данных (информационных цепей)
произвольной природы. Предложены меры сходства-расхождения и процедура сравнения
строя цепей, основанные на выделении списка совпадающих и сходных по характеристикам
строя подпоследовательностей. При этом для быстрого выделения списка совпадающих
компонентов используются ранговые распределения. В работе представлен инструментарий
для сравнения построений информационных цепей и продемонстрированы некоторые его
возможности при исследовании строя нуклеотидных последовательностей.
Ключевые слова:
знаковая последовательность, информационная цепь, строй цепи, глубина строя, средняя удаленность, нуклеотидная последовательность, меры сходства-расхождения, матрица сходства, alignment-free genome comparison, межнуклеотидное расстояние.
Поступила в редакцию: 22.05.2018
Образец цитирования:
А. С. Гуменюк, А. А. Скиба, Н. Н. Поздниченко, С. Н. Шпынов, “О мерах сходства расположения компонентов в массивах естественно упорядоченных данных”, Тр. СПИИРАН, 18:2 (2019), 471–503
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/trspy1053 https://www.mathnet.ru/rus/trspy/v18/i2/p471
|
Статистика просмотров: |
Страница аннотации: | 157 | PDF полного текста: | 122 |
|